言語工学研究所は検索ワンダーランド!?
先日片貝さんのご厚意で「言語工学研究所」の社長である国分さんにお会いして、様々なデモを交えながら、用語標準化や自然語検索における構文解析(係り受け)について解説をしてもらうという大変貴重な体験をさせていただきました。
いろいろ書きたいことは沢山あるのですが、そこをぐ~~っと我慢して(苦笑)まずは用語標準化。
日本語(言葉)には「同義語」やら「表記の揺れ」があり、同じ会社でも同じことを差しているのに使っている用語(単語)が違うなんて事は良くありますよね?あとは間違って入力した場合を想定した検索語句を「もしかして?」方式でユーザに返すところでも用語標準化は重要な役割果たしているわけですが、Yahoo!なりGoogleでもこういった用語標準化をバックエンドで日々更新してもらっていることでユーザの利便性は向上しているわけですが、その分類・分別の具合を眺めることって普通にはなかなか無いですよね。
要登録・利用方法によっては有料ではありますが、「言語工学研究所」さんのほうで類語.jpというサイトを立ち上げられており、一定回数は無料で自分で入力した単語に対して複数の意味的な観点から、
- 同義語
- 広義語
- 狭義語
- 関連語
- 反義語
上記のような分別結果を参照することが可能になっています。
今週やっていた爆問学問では日本人は大昔から言葉遊びが好きだったと紹介されていましたが、増え続けるwebの文書は日々その表現方法も変化している訳で、変化し続ける文書表現に対して完全なる標準化は無理があると思うのですが、検索精度を高めるための辞書更新は毎日のように続けられているとのこと。
また、構文解析自体まだそれほど強固なものではなく構文構造を間違える場合も当然あって、それをどうしたら正しく解析できるかについても毎日考えていると国分さんは仰っていました。
国分さんは、かの有名な「松」の日本語処理を担当された方で、日本語処理の実績20年以上という実績を持つ方から出てくる言葉には、一言一言に凄い重み・説得力があり、しかも現在も日々努力し続ける姿勢に頭が下がりっぱなしでした。
来週中のどこかで、自然語検索に関連しての構文解析と係り受けについても触れていければと考えています。
類語検索サイト 「類語.jp」