検索エンジンはページの中身をどう分析するのか？

SEM/SEOなど

» 2011/02/25

Screenshot_03 SEObyTheSEAにて、興味深い記事があったのでご紹介です。

▼How a Search Engine Might Identify the Functions of Blocks in Web Pages to Improve Search Results

内容はMicrosoftが今年の2月22日に取得したパテントの紹介です。

そして、そのパテントは

　「Classifying functions of web blocks based on linguistic features」

訳すると、「WEBページを言語学的な特徴で分割する」という刺激的な題名なんです。

これに関して、MicrosoftはBingの解析指標としてこのパテントのような内容でページ内要素の重み付けを行っているのでは？という点に注目が集まっています。

Googleで言う"ボイラープレート"の判断基準を明かす！といったところでしょうか。

それが分かれば、検索エンジンに対してコンテンツをよりロス無く伝えられる、また効果的に伝えられるので、とても大事なポイントですよね。

記事をご紹介する前に

Bing以外でも特にGoogleに対して、そのアルゴリズムを所有特許から推測していこうというアプローチは少なからずありました。

ただ、Googleは公式にも言っていますが、200から300以上の指標を見て判断しているんです。

特許の内容と解説をそのまま飲み込んで、それにあったように最適化するというのは、やめた方がいいかと思います。

あくまで指標の一つとして、他のたくさんの指標の存在を忘れないようにしながら、適切な対応を行った方がいいかと思います。

記事概要

該当記事の中で気になった部分を抜き書きしてご紹介します。全文は元記事をご覧ください。

まずは特許概要についてですが、

A classification system trains a classifier to classify blocks of the web page into various classifications of the function of the block. The classification system trains a classifier using training web pages.

基本的には分類プログラムにたくさんの学習をさせて、精度を上げていくという方向性のようです。

そして重要なのはこの後ですが、

generates feature vectors for the blocks that include a linguistic feature, and inputs classification labels for each block.

言語学的な解析と、ラベリング、このラベリングとは「そのブロックの大きさや配置箇所、中身のフォントサイズなどのレイアウト要素」が入るようです。

つまり

言語学的な解析
色や形や実際にレンダリングされた配置

の2点が主要な判断基準のようです。

言語学的な解析とは具体的には

言語学的な解析とは、例えば以下のようなものとのことです。

「文章が一切無く、短い単語の羅列が続いていると言うことは、ナビゲーション部分か？」
「複雑な文章構成をしていると言うことは、ここが本文部分かもしれない…」
「“copyright,” “privacy,” “rights,” “reserved,”という言葉がある…これはフッターかな」

パテントには「名詞、代名詞、動詞、形容詞、副詞、外国語、前置詞、接続詞などの出現頻度を見て、例えば平均すると名詞が10に対して、動詞が5、形容詞が7、前置詞や接続詞が2くらいだと、これは本文かなと判断する」など、言語解析して、それが実際の文章における割合にちかいかどうか、なども考えると書いてあります。

レイアウトも考慮する

このレイアウトとは、「色や形や実際にレンダリングされた配置」のことですが、例えばパテントには以下のようなことが書いてあるようです。

空間的な位置

X座標とY座標、どのあたりにその要素が配置されるか
横幅と高さ

見た目（デザイン）

中のテキストは、どこまで大きなフォントを使っているか
中のテキストは、太字をどのくらい使っているか
文章の中の単語量
アンカーテキストの中の単語量
画像の大きさ
フォームの大きさ

HTMLのタグ

<form><input><option><select>などのフォーム要素
<table><td><th>などのテーブル要素
<p>
<li><dd><dt>などのリスト要素
見出し(<hn>)

※このような要素が他と比して多いと、ここが本来のコンテンツでは？と考えられるかもしれない。

リンク

文中から張られているリンクの数
内部リンクの数
外部リンクの数
リンクの中でテキストリンクであるものの割合と、画像リンクであるものの割合

結局は自然かどうか

いろいろとパテントにはありますが、結局のところ「自然な文章を書いて、一般的によくあるサイトレイアウトにしておく」ことが最良のSEOだといえます。

もし、自然にきちんと記事を更新しているのに…という方が、その原因を探るための材料になります。

HTML構造などを見直して、サーチエンジンのクローラにきちんと大事な文章のところを理解してもらえているかどうか。妙なバナーに囲まれて、せっかくのオリジナルコンテンツが埋もれてしまっていないか。

過剰な本文中のWikipedia的なリンクで、不自然さを出していないか…などなど、そういう場合に力を発揮する情報化と思います。

繰り返しになりますが、これはパテントにすぎず「使われているかどうか」も「使われていたとして、どのくらいの重みなのか」も分かっていません。

一つの参考情報と、あるいは最近の検索エンジンはこういうことを考えているんだ、という材料になれば幸いです。

無料「ウェブ解析ガイドブック」のご案内

アクセス解析やウェブサイトの現場での運用について書いた初心者向けガイドブック、『「現場で使える」WEB解析入門』をリリースしました。

企業でウェブ解析を内製化したい!ノウハウを溜めたい！というあなたにぴったりです。約3万文字、ぜひ会社に一冊どうぞ。

無料でダウンロードできますので、ぜひお持ち帰り下さい。印刷も自由です。(^-^

→ 無料ダウンロードはこちらから

WEB戦略ニュースレターで、さらに定期的にノウハウを

→メルマガのサンプルはこちら

中山陽平(ラウンドナップ・ウェブコンサルティング代表） 2011/02/25 01:23:42 Comment(0)

SpecialPR

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30