Google公式「クローラーとインデクサーの正しい"操り方"」とは
昨年11月になりますが、GoogleCodeにて、クローリングとインデクシングに関するドキュメントが公開されました。
▼Controlling Crawling and Indexing - Google Code
ドキュメントの内容は、robots.txtやmetaタグ、 X-Robots-Tag HTTPヘッダーなどをどのように使うと、サイト運営側が思った通りにGoogleのクローラーやインデクサーが動いてくれるのか、というものです。
- なかなかインデックスされないと思ったら、設定を間違っていてクローラを遮断していた
- クロールしてほしくないページがインデックスされて検索結果に出てしまって、顧客からクレームが出てしまった
- 設定が不適切だったため、内的SEOが力を発揮できていなかった
など、大なり小なり経験のある方は少なくない…のではないでしょうか。
そこで、私家版ではありますが、気になった部分を中心にドキュメントの中身を一部抜粋していきたいと思います。
きちんと設定を確認して運用すれば、意図した形でGoogleはインデックスしてくれます。一度確認してみることを改めておすすめいたします。
How do I start?
参照: 「 Controlling Crawling and Indexing」
ポイント
- クローリングとインデクシングを制御するための方法は「robots.txt」「robots meta tag」「X-Robots-Tag HTTP header」の3つ
Getting Started
参照:「Getting Started - Controlling Crawling and Indexing」および「Robots meta tag and X-Robots-Tag HTTP header specifications - Controlling Crawling and Indexing」
※robots.txtの書き方自体はほかのサイトにたくさんあると思いますので、省略します。
ポイント
- 検索エンジンは、検索結果にコンテンツを表示させるまでに一般的に「クローリング」と「インデクシング」の2つのステップを通る。
- クローラーは、リンクをたどりながらWEBサイトを次々と見つけていく役目。インデクサーは、クローラが集めたページの情報をを収集、解析する役目。
- 混乱しないでほしいのは、クローリング=インデクシングではないということ。非常にレアケースだがクローリングされていなくくとも、インデクシングされることもある。
- インデックスされることをきちんと避けるためには、クローリングされないといけない。クローリングすら避けるのは、例えばサーバのリソースが限られていてクローラーに使われたくないといった特殊な場合。
- クローラはWEBサイトを巡回し始める前に、まずはrobots.txtをリクエストする
- robots.txtは必ずルート直下に置くこと。
- robots.txtは、ASCIIないしUTF-8で書くこと。
robots metaタグの書き方
※robots metaタグを読んでもらうには、クロールされる必要があるので、インデックスされたくないページにもクローラはちゃんと呼び込むこと。
記載方法は<head>タグの内部に
<meta name="googlebot" content="noindex" />
といった形で書く。nameがクローラ・インデクサの種類、contentがそれに対する指示。
X-Robots-Tag HTTP headerの書き方
基本、書くことはmetaタグと同じ。ただ、書式が違う。例えば上記のmetaタグは
X-Robots-Tag: googlebot: noindex
といった形になる。name:contentsという並び。
指示の出し方(metaもHTTPヘッダーも同様)
nameは検索の種類によって異なる。以下がそのリストで、特定のクローラー・インデクサだけ避けることもできる。(Appendix: Google's website crawlers - Controlling Crawling and Indexing より抜粋)
Crawler | User-agents | User-agent in HTTP(S) requests |
---|---|---|
WEB検索 | Googlebot |
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/ bot.html) Alternate (rarely used): Googlebot/2.1 (+http://www.google.com/ bot.html) |
ニュース検索 | Googlebot-News ( Googlebot ) |
Googlebot-News |
画像検索 | Googlebot-Image ( Googlebot ) |
Googlebot-Image/1.0 |
動画検索 | Googlebot-Video ( Googlebot ) |
Googlebot-Video/1.0 |
モバイル向け | Googlebot-Mobile ( Googlebot ) |
[various mobile device types] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/ bot.html) |
モバイルAdsense | Mediapartners-Google Mediapartners ( Googlebot ) |
[various mobile device types] (compatible; Mediapartners-Google/2.1; +http://www.google.com/ bot.html) |
PC向けAdSense | Mediapartners-Google Mediapartners ( Googlebot ) |
Mediapartners-Google |
Google AdsBot (LP品質チェック) |
AdsBot-Google |
AdsBot-Google (+http://www.google.com/ adsbot.html) |
また、contentに記載する指示の仕方としては以下のようなものがある。
Directive | Meaning |
---|---|
all |
特に何の制限もしない(デフォルト) |
noindex |
検索結果に表示させない、キャッシュも表示させない |
nofollow |
このページから張っているリンク先はクローリングしない |
none |
noindex, nofollow を指定したのと同じ |
noarchive |
検索結果には表示させるが、キャッシュは表示させない |
nosnippet |
スニペットを表示しない |
noodp |
OpenDirectoryProject(DMOZ)のメタデータを引っ張ってこない |
notranslate |
翻訳をサジェストしない |
noimageindex |
このページの画像はインデックスさせない |
unavailable_after: [RFC-850 date/time] |
指定した時刻以降は検索結果に表示させない |
※X-Robots-Tag HTTPヘッダーは、httpd.confや.htaccessでも指定可能。
例えば
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
などとなる。(httpd.confいじれるなら、robots.txtに書いてしまった方がいい気がするけれど…)
FAQより
FAQからもいくつか抜粋します。
- robots.txtは必須ではない、無い場合は全く制限が無いものとしてクローリング・インデクシングする。
- 3つの手段はどう使い分ければいいのか?
「robots.txt」はクローリングされること自体がサーバに悪い影響を与える場合に、クローリング自体を止める手段として使える。一方、プライベートなコンテンツなどはrobots.txtに頼らず何らかの認証をかけて守った方がいいし、URLの正規化もrobots.txtを使うべきではない。canonicalリンク要素や301 Redirectなどで対応すべき。
「robots metaタグ」は、個別のページ単位でインデクシングなどを拒否したいときに使う。
「X-Robots-Tag HTTP header」は、metaタグが設定できない、例えば画像などのコンテンツに使うべき。 - robots.txt内のファイルパスは、Sitemapセクションを除いて相対パスで書かないといけない。
- robots.txt内を読まれないようにすることはできない。特にGoogleもそういう機能を提供していない。
- いったん検索結果に載ってしまったコンテンツに対して、robots.txtでDisallowに設定したからといって、それで検索結果から消えるわけではない。
クローラが巡回しなくなるため、ランキングが変動する(多くの場合下落する)ことはよくあるが、消えるとは限らない。
消したい場合は、noindexを使うこと。 - X-Robots-Tagがちゃんと設定されているか確認するには、WebMastersToolの「Fetch as Googlebot」機能を使うのが便利
それ以外の情報
これ以外の情報や質問は、公式Forumにも転がっています。(Webmaster Central Help Forum)
と、駆け足で追いかけてきました。
このあたりの設定を失敗すると、せっかくがんばった成果が形にならなかったり、あるいはクレームを呼ぶ結果にもなります。
しかし、きちんと設定を確認して運用すれば、意図した形でGoogleはインデックスしてくれますので、一度確認してみることを改めておすすめいたします。
無料「ウェブ解析ガイドブック」のご案内
アクセス解析やウェブサイトの現場での運用について書いた初心者向けガイドブック、『「現場で使える」WEB解析入門』をリリースしました。
企業でウェブ解析を内製化したい!ノウハウを溜めたい!というあなたにぴったりです。約3万文字、ぜひ会社に一冊どうぞ。
無料でダウンロードできますので、ぜひお持ち帰り下さい。印刷も自由です。(^-^
WEB戦略ニュースレターで、さらに定期的にノウハウを