オルタナティブ・ブログ > きょこ コーリング >

広報・マーケティングを中心に、ソーシャルメディアそしてアプリなど、マーケッターの関心事を綴ります♪

エンタープライズサーチの解析方法

»

吉川さんの記事に刺激を受けて、私も興味を持っているエンタープライズサーチについて書きたいと思います。確かに、外向けのWebサイト内検索(ASPで提供されていたりする)と、企業内のさまざまな文書(Exchangeのメールだったり、Notesメールだったり、Wordファイルと言うことも)の検索という両方が混同して語られることが多いように思います。

それから私のほうで、気になっているのは大きく2つに分かれる検索方法です。それは形態素解析と、N-Gram方式です。この検索方式の違いはこちらのサイトが詳しいです。

簡単に説明すると、 単語を「単語」として扱うのが「形態素解析」と、単語を「単語」と扱わないのが「N-gram(エヌグラム)方式」です。

「形態素解析」では、文章に含まれる単語を検索エンジンが持っている辞書データと照らし合わせながら単語に分解します。「N-gram方式」は、文章を「n文字の文字列として分解する」という方式で、文章に含まれる単語を意識しないで分解し、それを単語として認識します。

たとえば、

吉川 さん は ブロガー です ←形態素の区切り方

吉川 川さ さん んは はブ ブロ ロガ ガー ーで です ←エヌグラムの区切り方(これはNを2とした場合。あくまでも例です)

という感じです。

一般的に、形態素方式ですと、辞書に単語が登録されるまで、その単語が検索できないので、新語などへの対応が遅くなりますが、大量なおかつ高速な検索スピードが実現できます。

新語への対応の速さ、辞書が不要、検索漏れがない、言語に依存しないのはエヌグラム方式です。

ただ、各社さまざまな工夫を凝らしているので、このおおもとになる検索方式の違いだけでは比較できないのは言うまでもありません。

FASTサーチはマイクロソフトによる買収話も1月に出て、これからどんな展開になっていくのか、興味深いところですね。(結局買収されたのでしょうか?すみません、きちんとWatchできていないのですが)

日本の企業だと、ITRの調査で第5位のアクセラテクノロジも興味深いです。社内の文書検索でいえば、ネットワークを監視して、改変された文書だけを検索するなどの高度な技術も提供しています。

約1年前の情報ですが、製品一覧などはこちらがわかりやすいので、リンクをしておきます。

Comment(0)