SEOと検索エンジンの仕組み〜クローラーとインデクサについて
検索エンジンはユーザーが入力したキーワードに対して適したWebページを表示します。そしてWebページの表示は独自のアルゴリズムで決めた順位付けがなされます。ユーザーにとって有益なWebページから順番に表示するように検索エンジンは努めています。
しかし、Webページの情報を検索エンジンは保有していなければ検索結果を提供できません。そこで検索エンジン各社は独自にWebページの情報収集をしています。この情報収集の役割を担うのがクローラーです。クローラーは検索エンジンが提供しているWebページ収集用のプログラムです。
クローラーの役割はWebページの収集のみです。クローラーが収集した情報を解析して初めて検索結果への表示順位をランキング付できます。クローラーが収集したWebページを解析するのはインデクサというプログラムが担います。
つまりクローラーにWebページの情報を収集され、インデクサによる解析結果でキーワードとの関連性が高いと認識されてはじめて検索結果に該当ページが表示されます。当ページはGoogle検索を例に検索エンジンの仕組みについて記載いたします。
検索エンジンの仕組み
では検索エンジンはどのようになっているのか? 検索エンジンの仕組みについてはGoogleがSearch Console ヘルプで明示しています。まずは「Google 検索の仕組み」をご覧ください。
▼Google 検索の仕組み
https://support.google.com/webmasters/answer/70897
文字ばかりなのでちょっとわかりづらいかもしれません。上記ページにもある通り、Googleは3つのステップによってウェブページから検索結果を生成しています。
- クローリング
- インデックス登録
- 検索結果の表示(およびランキング)
検索エンジンの仕組み自体は昔から変わっていません。「Javascriptで生成されたコンテンツもクロール可能となった」など技術的な進歩により内容が向上していますが、基本部分は変わりません。ちなみに「検索エンジン 仕組み」で検索すると1ページ目に2009年3月27日公開のWeb担の記事が検索されます(2018年7月16日現在)。9年以上前のページがいまだに1ページ目に表示されています。検索結果を2・3ページ目まで見てもそれよりも新しい記事は多数ありますが、内容はほぼ変わりません。
- クローリング/クローラー:HTTPプロトコルでコンテンツを取得する
- インデックス登録/インデクサ:取得したコンテンツを解析し保存する
- ランキング/クエリサーバー:ユーザからの検索クエリ(キーワード)の結果ページを返す
このように「クローラーが収集」したWebページを「インデクサが解析」しデータベースに登録した情報を元に、ユーザーが入力したキーワードに対して「クエリーサーバーから受け取った検索結果」をランキング表示しています。
[参考]
▼クローラーとは/検索エンジンの仕組みをおさらい。クローラー対策とステータスコード
http://web-tan.forum.impressrd.jp/e/2009/03/27/4952
GoogleからWeb運営者に対する技術的な要望
Web運営者は「良いコンテンツ」を作ってさえいれば検索結果で上位表示されるとは限りません。検索エンジンに適切に認識してもらえなければ「良いコンテンツ」であっても検索結果に表示されません。そのためにはクローラビリティ(Webページを適切にクロールさせること)、インデクサビリティ(Webページを効果的にインデックス登録させること)を高める必要があります。クローラビリティ・インデクサビリティを高める方法については次回から掲載します。
なお、GoogleはWeb運営者に技術的な要望がすることが増えました。Googleの要望に応えるか否かで検索エンジン経由での流入数の期待値が変わります。そのいくつかを列挙します。
- 重複ページ対策
- 構造化データ
- モバイル対応
- 読み込み速度向上
- AMP
- ウェブマスター向けガイドラインへの準拠
重複ページ対策として正規ページを指定する必要があるのですが、Webサイトが大規模になればなるほど対応への難易度が高くなります。この点は別途改めて記事化します。また、Googleのウェブマスター向けガイドラインは以下ページをご覧ください。
▼ウェブマスター向けガイドライン(品質に関するガイドライン)
https://support.google.com/webmasters/answer/35769
※当記事はWebの間のコラムを再編集したものです。元記事はこちら。
https://www.web-ma.co.jp/column/crawlability/71.html