« 2008年4月10日 | 2008年4月14日の投稿 |
2008年4月18日 » |
吉川さんの記事に刺激を受けて、私も興味を持っているエンタープライズサーチについて書きたいと思います。確かに、外向けのWebサイト内検索(ASPで提供されていたりする)と、企業内のさまざまな文書(Exchangeのメールだったり、Notesメールだったり、Wordファイルと言うことも)の検索という両方が混同して語られることが多いように思います。
それから私のほうで、気になっているのは大きく2つに分かれる検索方法です。それは形態素解析と、N-Gram方式です。この検索方式の違いはこちらのサイトが詳しいです。
簡単に説明すると、 単語を「単語」として扱うのが「形態素解析」と、単語を「単語」と扱わないのが「N-gram(エヌグラム)方式」です。
たとえば、
吉川 さん は ブロガー です ←形態素の区切り方
吉川 川さ さん んは はブ ブロ ロガ ガー ーで です
という感じです。
一般的に、形態素方式ですと
新語への対応の速さ、辞書が不要、検索漏れがない
ただ、各社さまざまな工夫を凝らしているので、このおおもとになる検索方式の違いだけでは比較できないのは言うまでもありません。
FASTサーチはマイクロソフトによる買収話も1月に出て、これからどんな展開になっていくのか、興味深いところですね。(結局買収されたのでしょうか?すみません、きちんとWatchできていないのですが)
日本の企業だと、ITRの調査で第5位のアクセラテクノロジも興味深いです。社内の文書検索でいえば、ネットワークを監視して、改変された文書だけを検索するなどの高度な技術も提供しています。
約1年前の情報ですが、製品一覧などはこちらがわかりやすいので、リンクをしておきます。
« 2008年4月10日 | 2008年4月14日の投稿 |
2008年4月18日 » |