検索エンジンの評価ポイント~検索結果の妥当性
ITMediaに「それでも勝てないMSの検索サービス、Windows Live Searchの課題」という翻訳記事が掲載されているが、なかなかに興味深い内容だと思う。
この記事の中で筆者は“Windows Live Search”の弱点を「検索結果の妥当性の低さ」だとばっさりと切っており、
検索エンジンは、どんなクエリに対しても的確な検索結果を上位に表示し、ユーザーが多くの検索結果をスクロールしたり、検索クエリの変更に余計な労力を費やさずに済むようにしなければならない。
と説明している。
検索エンジンの性能評価をする場合の指標としては、これまでは「再現率」や「適合率」というものが使われることが多かった(検索スピードや処理時間といった時間的指標は別として)。以下に「再現率」「適合率」の定義を改めて紹介すると
再現率=検索条件を与えたときに、真の検索結果集合が検索エンジンが返す答えに含まれる比率。
適合率=検索条件を与えたときに、検索エンジンが返す答えの集合に含まれる真の検索結果集合の比率。精度とも言われる。
再現率は、真の答えの漏れのなさの評価となり、適合率(精度)は誤った答え(ノイズ)の少なさの評価となる。ただ、この説明を読んでわかるように、これはあくまで集合全体の話で、数学的な評価である。
これに対して、この記事にある「妥当性」は、もっとユーザサイドに立ってユーザが検索エンジンを使う際に便利さを実感できる指標のことを指していると思われる。通常の検索エンジンは、それぞれの検索条件に対して検索結果を上位10~20件ずつにわけて返答することになるが、この最初の返答に「より的確な結果を返答する」ことが重要だと言うのである。
まったく同感で個人的にもこの意見に反対する気はない。ただ、このより「的確な結果を上位に表示する」ということのロジックが非常に難しい。今のところインターネット上ではGoogleがページランクという概念を用いてユーザからの圧倒的な支持を受けているが、特にエンタープライズ・サーチの分野では違うロジックの必要性を感じている。