Google Blog Searchと通常の検索の違いについて

» 2005/09/15

Google Blog Searchを試した方はかなり多いと思うが、「普通の検索と何が違うの？」と感じられた方も多いかと思う。

検索エンジンの構造をおおざっぱに言ってしまうと、
- 検索対象となる情報を収集するクローラー
- 集まった情報を整理・保存するインデクサー
- 整理された情報から適切な情報を探すサーチエンジン
という組み合わせである。
（技術に疎い方でも理解していただくために、かなり乱暴な説明をしていることは分かっている）

クローラーはスパイダーとも呼ばれるが、要はWeb（クモの巣という意味から来ているので、スパイダー＝クモという言葉が用いられる）上にある情報をかき集めてくる、エージェント的なプログラムである。
クローラーが集めてきた情報は、各検索エンジンによってプロセスが多少異なるが、検索されやすいようなフォーマット（たいていはXML準拠のフォーマット）に加工されたうえでインデクサーと呼ばれるプログラムによってサーバー（インデックスサーバー）にリスト化されて保存されていく。
そして、サーチエンジンがユーザーがタイプした検索キーワード（この行為をクエリと言う）を、このインデックスサーバーの中から取り出し、検索結果として返すわけである。

このプロセスは、基本的にBlog検索でも変わらない。違いはクローラーが集めてくる対象が異なるということだ。通常のWeb検索では、HTMLと、そのHTMLによってディレクトリを決められたPDFやPPT（パワーポイント）、Wordなどの文書、画像などを対象にするが、Blog検索は、RSSもしくはAtomというXML形式のデータだけを対象とする（もちろんその中で規定された場所にある画像などのデータも拾えるが）。
つまり、Blog検索で検索結果を得られるのは、RSS/Atom Feedを吐き出すサイトだけ、ということになる。（Feedsterなどは通常のHTMLも検索対象にしているらしい）

もっと簡単に言ってしまうと、通常のWeb検索がWebサイトそのものを検索するのに対して、Blog検索はそれらのWebサイトのサマリーデータ（概略）しか検索対象にしない、ということだ。サマリーだからデータ量が少なくて収集しやすい。またサマリーデータはRSS/Atom FeedというXML形式で記述されているから、プログラムがそれを読み込むのにも時間がかからない。

通常のWeb検索だと、収集してきた情報（たいていはちゃんと整理されていない、プログラム的にいい加減な構造をしていることが多い情報）を、サーチエンジンが読みやすいような形式に変えてインデックスするプロセスにけっこう時間がかかってしまうので、Googleでさえも、最新情報の掲載に2-3日要することになる。Blog検索の場合は収集する情報の量が多くないことと、データ形式が構造的に整理されていることから、リアルタイムに近い速度での反映が可能になっている。

Blog検索は現状、イコールBlogサイトの検索でしかないが、これは過渡期的な状況に過ぎない。問題は、このサマリーデータ、つまりFeedを生成しているWebサイトがBlogをのぞけばまだそれほど多くないということだ。従って、しばらくはWeb検索とBlog検索は並存することになるだろう。

（全てのサイト、情報がFeedを生成する環境がWeb2.0と呼べるのではないか。もしくはセマンティックWebと言ってもいい）

Technorati Tags: feed, Google, 検索

小川浩 2005/09/15 11:28:10 Comment(0)

SpecialPR

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Google Blog Searchと通常の検索の違いについて

最新の投稿

小川浩

2025年7月