Google Blog Searchを試した方はかなり多いと思うが、「普通の検索と何が違うの?」と感じられた方も多いかと思う。
検索エンジンの構造をおおざっぱに言ってしまうと、
- 検索対象となる情報を収集するクローラー
- 集まった情報を整理・保存するインデクサー
- 整理された情報から適切な情報を探すサーチエンジン
という組み合わせである。
(技術に疎い方でも理解していただくために、かなり乱暴な説明をしていることは分かっている)
クローラーはスパイダーとも呼ばれるが、要はWeb(クモの巣という意味から来ているので、スパイダー=クモという言葉が用いられる)上にある情報をかき集めてくる、エージェント的なプログラムである。
クローラーが集めてきた情報は、各検索エンジンによってプロセスが多少異なるが、検索されやすいようなフォーマット(たいていはXML準拠のフォーマット)に加工されたうえでインデクサーと呼ばれるプログラムによってサーバー(インデックスサーバー)にリスト化されて保存されていく。
そして、サーチエンジンがユーザーがタイプした検索キーワード(この行為をクエリと言う)を、このインデックスサーバーの中から取り出し、検索結果として返すわけである。
このプロセスは、基本的にBlog検索でも変わらない。違いはクローラーが集めてくる対象が異なるということだ。通常のWeb検索では、HTMLと、そのHTMLによってディレクトリを決められたPDFやPPT(パワーポイント)、Wordなどの文書、画像などを対象にするが、Blog検索は、RSSもしくはAtomというXML形式のデータだけを対象とする(もちろんその中で規定された場所にある画像などのデータも拾えるが)。
つまり、Blog検索で検索結果を得られるのは、RSS/Atom Feedを吐き出すサイトだけ、ということになる。(Feedsterなどは通常のHTMLも検索対象にしているらしい)
もっと簡単に言ってしまうと、通常のWeb検索がWebサイトそのものを検索するのに対して、Blog検索はそれらのWebサイトのサマリーデータ(概略)しか検索対象にしない、ということだ。サマリーだからデータ量が少なくて収集しやすい。またサマリーデータはRSS/Atom FeedというXML形式で記述されているから、プログラムがそれを読み込むのにも時間がかからない。
通常のWeb検索だと、収集してきた情報(たいていはちゃんと整理されていない、プログラム的にいい加減な構造をしていることが多い情報)を、サーチエンジンが読みやすいような形式に変えてインデックスするプロセスにけっこう時間がかかってしまうので、Googleでさえも、最新情報の掲載に2-3日要することになる。Blog検索の場合は収集する情報の量が多くないことと、データ形式が構造的に整理されていることから、リアルタイムに近い速度での反映が可能になっている。
Blog検索は現状、イコールBlogサイトの検索でしかないが、これは過渡期的な状況に過ぎない。問題は、このサマリーデータ、つまりFeedを生成しているWebサイトがBlogをのぞけばまだそれほど多くないということだ。従って、しばらくはWeb検索とBlog検索は並存することになるだろう。
(全てのサイト、情報がFeedを生成する環境がWeb2.0と呼べるのではないか。もしくはセマンティックWebと言ってもいい)
Special
- PR -http://app.blogs.itmedia.co.jp/t/trackback/77444/2828817
- Google Blog Search が凄い(IM::MEMO)
Google Blog Searchがβリリースされました。 http://www.google.com/blogsearch http://blogsearch.google.com/... - グーグルがブログ検索サービス「Google Blog Search」を公開(Y's WebSite : Blog 〜日々是好日〜)
9月13日、グーグルからブログ検索サービス「Google Blog Search」のベータ版が公開されました。 現段階ではベータ版の「Google Blog Search」。このサービスでは、サイトのフィード(RSSまたはAtom)を公開するすべてのブログを検索できるようにすることが目標だとか。 ... - グーグルのブログ検索(ゲームのマボロシ)
今日は興味深いニュースが多いですね(WWSは昨日のニュースですが)。何かと話題のグーグルが、今度はブログ検索サービスに参入です。Google Blog Search最近ITmediaのトップページから、エントリーのタイトルに惹かれて読むことが増えてきた小川さんという方の「Speed Feed.... - Google Blog Search: 検索結果 RSS の文字化け回避方法(ひろの日記帳@International Cafeteria)
昨日の記事の注に書いた「日本語の検索結果は OK なんだけど、RSS feed を RSS リーダーに登録しようとすると、文字化けしてしまうために正しい検索結果が渡らなかったりする」について、Headline-Reader 開発...... - SEM/SEOニュースヘッドライン(SEM/SEOニュース)
■「Google Personalized Homepage」が正式サービスに昇格 ■米Micros... - ★今のところ★あてにならない Google Blog Search の Relevance 表示(ひろの日記帳@International Cafeteria)
trackfeed に引っかかったので気が付いたのですが、今の時点で -Google Blog Search: mixi で検索するとこの記事が、 -Google Blog Search: ホリエモン で検索するとこの記事が、それぞれトップに来てしま...... - Google Blog Searchを使ってみよう(welconnectBLOG)
Googleでブログ検索ができる、 Google Blog Searchのベータ... - Google Blog Search 違いと検索に反映される速度(blog)
グーグルのブログ検索サービス [Google Blog Search] が公開されました。 この「Google Blog Search」は今はまだベータ版です。 これまでの Google との違いは、 通常のWeb検索がWebサイトそのものを検索するのに対して、Blog検索はそれらのWebサイトのサマリーデータ�... - ブログ検索サービス(2)(情報化の現状と未来)
8月に、ブログ検索サービスの記事の中で、Technorati.jp 等をご紹介 - Google Blog Search 違いと検索に反映される速度(lab-a.sakura.ne.jp)
グーグルのブログ検索サービス [Google Blog Search] が公開されました。 この「Google Blog Search」は今はまだベータ版です。 これまでの Google との違いは、... - Google Blog Search(zig zag road)
2005年9月から、Google Blog Search のベータ版サービスが開始されている。 例えば、当ブログ「zig - GoogleBlogSearchの活用(Trivial Tracks)
RSSを前回の日記で紹介した一般ニュース以外でもっと活用しようと探していたら InfoMaker で豊富なリンク集を発見。 これを見てると応用アイデアが色々と膨...

富士通元社長の山本卓眞氏が残した次代へのメッセージ
Facebook就活はもう古い?
東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
東北から始まるイノベーション
貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦