Speed Feed:ITmediaオルタナティブ・ブログ (RSS) Speed Feed

RSS/Atom feedが織りなす新しいネットの世界を、読者と一緒に探検するBlogです。

Google Blog Searchを試した方はかなり多いと思うが、「普通の検索と何が違うの?」と感じられた方も多いかと思う。

検索エンジンの構造をおおざっぱに言ってしまうと、
- 検索対象となる情報を収集するクローラー
- 集まった情報を整理・保存するインデクサー
- 整理された情報から適切な情報を探すサーチエンジン
という組み合わせである。
(技術に疎い方でも理解していただくために、かなり乱暴な説明をしていることは分かっている)

クローラーはスパイダーとも呼ばれるが、要はWeb(クモの巣という意味から来ているので、スパイダー=クモという言葉が用いられる)上にある情報をかき集めてくる、エージェント的なプログラムである。
クローラーが集めてきた情報は、各検索エンジンによってプロセスが多少異なるが、検索されやすいようなフォーマット(たいていはXML準拠のフォーマット)に加工されたうえでインデクサーと呼ばれるプログラムによってサーバー(インデックスサーバー)にリスト化されて保存されていく。
そして、サーチエンジンがユーザーがタイプした検索キーワード(この行為をクエリと言う)を、このインデックスサーバーの中から取り出し、検索結果として返すわけである。

このプロセスは、基本的にBlog検索でも変わらない。違いはクローラーが集めてくる対象が異なるということだ。通常のWeb検索では、HTMLと、そのHTMLによってディレクトリを決められたPDFやPPT(パワーポイント)、Wordなどの文書、画像などを対象にするが、Blog検索は、RSSもしくはAtomというXML形式のデータだけを対象とする(もちろんその中で規定された場所にある画像などのデータも拾えるが)。
つまり、Blog検索で検索結果を得られるのは、RSS/Atom Feedを吐き出すサイトだけ、ということになる。(Feedsterなどは通常のHTMLも検索対象にしているらしい)

もっと簡単に言ってしまうと、通常のWeb検索がWebサイトそのものを検索するのに対して、Blog検索はそれらのWebサイトのサマリーデータ(概略)しか検索対象にしない、ということだ。サマリーだからデータ量が少なくて収集しやすい。またサマリーデータはRSS/Atom FeedというXML形式で記述されているから、プログラムがそれを読み込むのにも時間がかからない。

通常のWeb検索だと、収集してきた情報(たいていはちゃんと整理されていない、プログラム的にいい加減な構造をしていることが多い情報)を、サーチエンジンが読みやすいような形式に変えてインデックスするプロセスにけっこう時間がかかってしまうので、Googleでさえも、最新情報の掲載に2-3日要することになる。Blog検索の場合は収集する情報の量が多くないことと、データ形式が構造的に整理されていることから、リアルタイムに近い速度での反映が可能になっている。

Blog検索は現状、イコールBlogサイトの検索でしかないが、これは過渡期的な状況に過ぎない。問題は、このサマリーデータ、つまりFeedを生成しているWebサイトがBlogをのぞけばまだそれほど多くないということだ。従って、しばらくはWeb検索とBlog検索は並存することになるだろう。

(全てのサイト、情報がFeedを生成する環境がWeb2.0と呼べるのではないか。もしくはセマンティックWebと言ってもいい)

Technorati Tags: , ,

hiro

Special

- PR -
コメント

コメントを投稿する
メールアドレス(必須):
URL:
コメント:
トラックバック

http://app.blogs.itmedia.co.jp/t/trackback/77444/2828817

トラックバック・ポリシー


» このブログのTOP

» オルタナティブ・ブログTOP



プロフィール

小川 浩

小川 浩

株式会社モディファイ CEO。
著書に「Web2.0Book」「仕事で使える!Twitter超入門」「ソーシャルメディアマーケティング」「ソーシャルメディア維新」など




詳しいプロフィール

最近のトラックバック
カレンダー
2012年2月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      
カテゴリー
エンタープライズ・ピックアップ

news094.gif 富士通元社長の山本卓眞氏が残した次代へのメッセージ
富士通の社長、会長を務めた山本卓眞氏が亡くなった。哀悼の意を込めて、日本のIT産業界の大御所が残した次代へのメッセージを紹介しておきたい。(2/6)

news094.gif Facebook就活はもう古い?
約260人のブロガーが、ITにまつわる時事情報などを日々発信しているビジネス・ブログメディア「ITmedia オルタナティブ・ブログ」。その中から今回は「就活」「都心の雪」「ソーシャルメディア」などを紹介しよう。(2/4)

news094.gif 東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
塩害に強い綿の生産で東北に新たな産業を作りたい。オーガニックコットンの採用など、環境負荷を下げるジーンズ生産に取り組んできたリー・ジャパンの新たなチャレンジとは──。(1/30)

news094.gif 東北から始まるイノベーション
企業のICTを活用と若手IT技術者による東北発のイノベーションが、中長期的な震災復興の鍵となる。(1/27)

news094.gif 貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦
全国から約2万7000件の名刺制作を受注をする札幌の小さな印刷会社の成功の秘密は、地道な社会貢献にあった。(1/16)

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

Special

- PR -

サイトマップ | 利用規約 | プライバシーポリシー | 広告案内 | お問い合わせ