検索エンジンの評価ポイント~検索結果の表示順
先日のブログで「エンタープライズサーチの場合、的確な結果を上位に表示するロジックが非常に難しい。インターネット上のそれと同じロジックでは良くない」ということを書いた。
検索結果の評価では、Googleを一躍有名にした「PageRank」というアイデアが非常に有名である。これは有益なページであれば多くのページからのリンクを集めているはずでありこのリンクの数をPageRankという数字で評価する。PageRankの高いページからリンクがはられているページはそうでないページよりも評価を上げるといった再帰的な評価も行う、といったものである。
企業内での検索結果にはこれをこのまま使うわけにはいかないだろう。現在の状況では、文書間にリンクをはった形式で保管・管理をしている企業は少ない。また企業内でリンクをはると、たぶんマニュアルや規程集へのリンクが最も多くなるであろうが、検索時に結果としてマニュアルや規程集を重要視するケースばかりではない。
そうなるとエンタープライズサーチの場合は、従来と違った表示順の評価基準を組み込む必要があると思われる。ESPの記事でもこのあたりをちょっと書いたが、今のところ私はこのエンタープライズサーチに特化した評価ロジックをもった検索システムというものには出会ったことがないし、「何を表示順の評価に使えばよいか」といった研究も検討もあまり聞かない。
このあたりについて、私の経験上使えそうなアイデアを以下にいくつか紹介してみたい。これらは、私の過去のコンサルティングや企業内でのナレッジマネジメントシステムの検討の際に出たものである。これからエンタープライズサーチの導入を検討される方には参考にしていただきたい。
- アクセス回数~文書のアクセス回数のより多いものを上位に表示する。よく使われる文書ほど価値が高いという仮説に基づいている。但し、通常、文書一覧や検索結果には文書のタイトルと文書内の一部分しか表示がされないのでそれだけを手がかりにしたアクセス数の順位では「より刺激的なタイトルの文書が上位になる」とノイズが発生する可能性がある。これを防ぐためには検索結果のクリック時には一旦要約を表示して、その後本体をクリックさせるといったように段階を分け、評価には後者でのクリック数を使うという方法がある。文書のアクセス回数総数と検索結果に表示後そこから選択して表示をされた回数を分けて評価するアイデアもある。
- 利用者からのフィードバック~文書の利用者にその文書がどれぐらい有益だったかを評価させておいてその評価の高いものを上位に表示するというもの。オンラインブックストアで書評として5段階の評価を入れるものと同じアイデアである。評価を入れる際に「どのような時に役に立った」や「との部分が役に立った」といったコメントを残すとさらに使いやすくなる。
- 雛形としての再利用回数~企業内文書の多くは、過去の文書を雛形としてそれを加筆修正しながら作成される。この雛形としての利用回数が多い文書を高評価とする。あるいは、ある文書を雛形として派生で作成された文書を系統図のような形式で検索結果から表示できると、欲しい文書にたどり着きやすくなるのではないか?すなわち検索結果の中に目的により近い文書を見つけた場合に、その文書を再利用して作成された文書がわかれば、そこに目的の欲しい情報が含まれる可能性は高い。
- 逆足跡機能~これは表示順の評価とは違いナビゲーションの支援機能に近い。最近のブログでは誰が自分のブログを見に来たかがわかるような「足跡機能」がついている。これを逆に利用して、ある文書を使った人がその後、どの文書を探して見て回ったかを追跡できれば、目的の文書へたどり着ける可能性が高くなるのではないだろうか?
- リコメンデーション~ご存知アマゾンで採用された機能だが、これも表示順の評価というよりはナビゲーション面の機能となる。例えば検索結果から特定の文書を選択して表示を行った際に「あなたの選択したこの文書を選んだ他の方は、こっちの文書も選択していますよ」というようなリコメンドを表示。あるいは、検索条件を入れた際に、「この検索条件を使った方は、こちらの検索条件もよく利用されています」というリコメンドも考えられる。
下2つは表示順ではなく表示方法のアイデアだが、企業の中で欲しい文書を探し出すための機能としてみれば同類のものである。ちなみにこのうちの上の2つ「アクセス回数」「利用者からのフィードバック機能」については、既に「識彩」というナレッジマネジメントシステムのパッケージに組込み済みである。
どうだろうか?まだまだ他にもいくつか評価に使えそうなものはありそうだが、とりあえずこの5つくらいは既に技術的には実現可能な段階に来ていると思う。