オルタナティブ・ブログ > 森崎修司の「どうやってはかるの?」 >

計測できそうでできない多くのこと。エンピリカル(実証的)アプローチで。

グーグル翻訳を鍛えるWikipedia

»

2つ以上の言語の間で過去に(人手で)翻訳された文章をもとに、与えられた文章を翻訳する方法のことを統計的機械翻訳と呼ぶそうだ。過去に翻訳された文章の数が多く、翻訳しようとする文章との分野が類似していれば、翻訳の精度が高くなる。最初は、カナダのように公用語が2つ以上ある国で、2つの言語の間で1文ずつ対応がとれるような文章が蓄積されたものを対象としてスタートしたらしい。

自然言語処理や翻訳は私の専門ではないが、統計的機械翻訳は「実データを使った翻訳」という意味で私の専門の1つエンピリカルソフトウェア工学と関連が深い。統計翻訳は最近ホットなトピックの1つだそうだ。大学教員の集まりで自然言語を専門とする先生から聞いた話がきっかけ。

統計的機械翻訳の精度は、利用する元データの精度に大きく依存しそうだ。冒頭の条件(言語間で1文ずつの対応がとれ、分野を限定できる)を満たすような翻訳をうまく選ぶことが、おそらくポイントになるだろう。どのようなものが思い浮かぶだろうか?

その1つはWikipediaであり、ここで表題の話にたどりつく。グーグル翻訳も統計的翻訳を使っているようで、既存の翻訳としてWikipediaを利用しようとしているらしい。2010/7/15のcnetニュース"Google finds perks in its Wikipedia translations"によると、アラビア語をはじめ人口に対してWeb上のコンテンツが少ない言語のコンテンツを増やすと同時に、グーグル翻訳(Google Translator Toolkit)の精度を高めるために使うそうだ。Wikipediaは多くの項目が翻訳されており、1文づつを対応づけしやすそうだ。

Comment(2)