記録するジャーナリズムから、測って確かめるデータイズムへ

Google日本語入力は、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるのか?

»

12月3日に話題騒然となったGoogleによるIME、「Google 日本語入力」。忽然と現れたベータにも関わらず、その性能が従来に無く専門用語や固有名詞に強いということで評判です。

そして、日本語IMEと言えば、みなさん思う浮かべるジャストシステム社への影響を心配する声が出ています。MS-DOS時代に数多くあった当時FEPと呼ばれたIME(日本語入力)ソフトがWindows OSに付属したIMEで淘汰されて市場が消えた様子を目の当たりにされた、樋口理氏のブログでの指摘です。
http://www.higuchi.com/item/534

ぶっこ抜き? [Google日本語入力の功罪] - higuchi.com blog via kwout

樋口氏は特に、その元になるデータが市販のIMEデータに由来するものではないか?という問題意識を「ぶっこ抜き」という、マナーに反したデータ入手の手法を表現するストレートな言葉で語られています。

ユーザーが「かな」をどういう文脈の時にどういう漢字に変換するかという膨大な統計データを使うということはすばらしいと思うのだけど、そこでユーザーが 入力したかな文字列と変換後の漢字文字列のセットは、実はユーザーが使っているかな漢字変換機能の辞書が吐き出したものなんですね。つまり、ユーザーを介 して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけですわ。

私は、評価記事と試用してみての感想で、他社のIMEの変換ノウハウが「ぶっこ抜き」されたわけではなく、あくまで、読みと変換用例から純粋に作られた、別の手法でできたソフトだと考えました。

確かにネット上の日本語テキストのほとんど、そして、検索エンジンに入る検索語のほとんどは既存のIMEが出した結果ではあります。しかし、誤変換とか使い手の誤用も含んだ形で載っている、使用した後の結果なので、各製品固有のノウハウを抜き取ったと非難されるようなことをしているわけではないと考えます。少なくとも、既存のIMEを真似て作ったわけではなく、ネットの用例をベースに新しいものを生み出そう、そんな高い志を持ったソフトウェアでだと思います。

確かに、有償の製品として売る会社があってそこに無償で品質が高いものを規模が大きな会社が出すことの、社会的にどうよ、 という意見がでるのは分かります。

しかし、真似て作って、お化粧で勝とうとしている小賢しいソフトではないし、開発したエンジニアの功績は立派に評価されるべきものだと思います。

その傍証の一つとして、世間でよく使われる誤用がでてくる例をいくつか上げておきます。

この12月によくプロスポーツ界で聞く言葉、 年俸(ねんう)ですが、Google日本語入力では、 年棒(ねんう) というよくある誤用が一発変換されました。
"年棒" の検索結果 約 238,000 
とこれだけ広く使われている誤表記なので、スムーズに出てしまうようです。
MS-IMEでもいくつか正しくない日本語が変換されてしまうことが問題になっていましたが、Google日本語入力ではこの手の誤用がスムーズに変換されることが推定されます。

雰囲気を「ふいんき」と読む誤用は、既存のIMEでも変換されないので、出てきてしまうことはないですが、熟語として間違っている組み合わせは構造的に出やすくなっています。

「ないぞうは」で ハードディスク と ハードディスク の両方が出るのは期待通りでした。

きょうみしんしん だと、興味津々 の次に、興味深々 が候補に出ます。危機一髪は、さすがにか、入力されないためか映画のタイトルの 危機一発 は出ませんね。 濡れ手に粟 だと、 濡れ手に泡 もでます。 

こういう振る舞いをするソフトウェアが、「正しい日本語」がうりのあの製品を脅かすとはあまり考えられません。

また、Windows上では付属のものをつかうという流れが強くなっているなか、わざわざインストールして使うIMEを注目させたということで、専業メーカーにはかえってチャンスかもしれません。一方逆に学習用には、漢字の表記を頼れない、考えてチェックを要求するIMEとして面白いかもしれません。

いずれにしろ、まだベータですし、今後市場や業界からの評価が出てくると思います。いずれにしろ、世界企業のGoogleから日本語IMEというローカルなソフトウェアが出てきたということは注目すべきことだと思います。

グローバルというあり方以外に、ローカルに最適化する、ローカライズの重要性を改めて思い出しました。I18N(Internationalization)でいいじゃない、という流れに抗して、それでも地域にとっていいものを供給すべし、そうGoogleは私を励ましてくれたのかなと、同じ時刻に世に出たGlobalなマテリアルを振り返りつつ考えさせられました。

>>>>>> ITとマーケティング関係のマスコミや関係者のフォローが増えてTwitterが楽しくなってきました。是非フォローして、交流を広げる一助にお使いください。
http://twitter.com/sakamotoh

お断り:
本ブログでの坂本英樹による投稿やコメントは、あくまで個人の主観に基づくものです。現在および過去の勤務先の意見や見解を表すものではありません。

 

Comment(10)

コメント

坂本さん、私のブログ記事に言及していただいて、ありがとうございます。
もちろん、坂本さんはご理解いただいていると思いますが、坂本さんの記事だけを読んで、私の主張を誤解する方がいそうなので、少しだけ補足で弁明めいたことを。

私も
> 真似て作って、お化粧で勝とうとしている小賢しいソフトではないし、開発したエンジニアの功績は立派に評価されるべきものだと思います。

という点はまったく同意です。ここだけ読んで「ヒグチってやつは技術を評価してないらしい」とか勘違いしないでくださいね>読者の方。
ポイントは、あくまでも「純粋な技術者の高度な技術を使っているから社会に迷惑をかけてない」というような主張がまかり通る風潮に対する疑問とお考えください。「自分が大きくなってることに気づいてる?周りへの影響に配慮しようよ、もう子供じゃないんだから」といったところ。

それから、もうひとつ。
> 各製品固有のノウハウを抜き取ったと非難されるようなことをしているわけではない
というところだけ読むと、私が「グーグルは各社の製品の変換ノウハウを抜き取った」と主張しているかのように勘違いされる方がいそうなので、念のために申し添えますと、私は「読みと漢字表記のセットが間接的に抽出されている」と申し上げているだけで、ノウハウやアルゴリズムについては言及していません。開発者の工藤さんや小松さんのこれまでのご研究の内容などから考えても、おそらくそんなこざかしいノウハウの窃用などせずに、純粋に出現確率を統計的に解析した結果を基にして漢字変換するというアプローチをお使いなのだと思いますし、その成果は本当にすばらしいということは(大昔の技術者のはしくれとして)十分理解しているつもりです。

なにとぞ、誤解なきよう>読者のみなさま

おじゃましました。

後ろが切れちゃったので、続きです。
===
開発者の工藤さんや小松さんのこれまでのご研究の内容などから考えても、おそらくそんなこざかしいノウハウの窃用などせずに、純粋に出現確率を統計的に解析した結果を基にして漢字変換するというアプローチをお使いなのだと思いますし、その成果は本当にすばらしいということは(大昔の技術者のはしくれとして)十分理解しているつもりです。

なにとぞ、誤解なきよう>読者のみなさま

おじゃましました。

樋口さん、早速コメントいただき恐縮です。@ITの掲示板で以前質問してClipfanというツールを教えていただいてもう10年経つのかと懐かしく思われます。実はまだ使ってます。当時はハンドル名を使っていたのですけど。

さて、事実認識とかについては食い違っておらず、表現とか評価する方向の違いじゃないかと思います。
確かにGoogleはもっと社会的影響とかを考慮すべき大きな存在だと思うのですが、今までに無いソフトやサービスを世に出すというダイナミズムは見習いたいのでよりポジティブに評価したいと考えました。

今後ともよろしくお願いします。

こんにちは。

> @ITの掲示板で以前質問してClipfanというツールを……

おー、あのときの!覚えています。その節はお手数をおかけしました。

> 表現とか評価する方向の違いじゃないかと思います。

表現については多分に「釣り」の要素もあり弁解の余地はありません(笑)。
評価については、私はここのところちょっと懐疑的。立派な利益追求集団なのに公益法人のような見せ方をしているのも、「純粋な技術者がやっていることだから正しいことです」というコミュニケーション(Wiredによれば、シュミットはFTCあたりにもそういう主張をしているようです)も、小さいうちはともかく、ここまでくると狡猾さを感じてしまって、ついついきつめの反応をしてしまいます。私のブログへのコメントやはてブのコメントでも、妄信的に思考停止しているような方がちらほら見受けられるのもちょっと心配。

というわけで、しばらくヒールを続けてみます(笑)。

今後ともどうぞよろしくお願いします。

■グーグル、日本語入力ソフトを無償提供MS、ジャストシステムに脅威-ユーザーや消費者は物語を求めている(2)?!

こんにちは。グーグルが日本語入力ソフトをリリースしましたね。私も、早速使ってみました。今のところ、かなりスムーズに使えています。今から、10年くらい前までは、こうした日本語変換システムも、いくつかあって、互いに張り合っていました。しかし、最近は、ジャストシステムと、MSの独壇場になっていて、MSが独占しそうな勢いでした。しかし、ここで、googleの参入です。Googleの参入は、実は必然だったのかもしれません。しかし、最近このシステムのように既存のものがずっと使われていて、まさか、新しいものなど出てこないだろうという分野にイノベーションが目立つようになってきました。私は、こうした既存の枠を破ること、そうして、それを物語にまで高めていくこと、さらには、伝説にまで昇華していくことが、現代日本の営利企業に与えられた使命であり、課題だと思います。詳細は、是非私のブログをご覧になってください。

hoge

そもそも検索サイトという他人の褌借りを生業とする会社に何を今さらとしか。それにこれまでも検索窓で同じ機能を提供してきていますし、切り出してインストールできるようにしただけですよね。今さら……

樋口さん。共通の師匠と勝手に仰がせていただいているY氏の毒舌に霞んでキャラクターを誤解していたようです。
確かに、もとの記事のコメントではGoogleだったら何でもできる、みたいな論調が多いですね。大変だとは思いますが、引き続きのご活躍期待しております。。

yutakarlsonさん、リンク先も拝見しました。
仰る通りGoogleは、出せる技術と作れる資源を持ち、Chrome OSという出すべき器も持っているので、今さらながら出るべきソフトだったなと思います。

MS IMEはいろいろなバージョンがあるのですが、そのひとつはかなり劣化していることが問題になっていました。

http://trendy.nikkeibp.co.jp/article/column/20080220/1007283/?P=1
競争相手がでてきて、Microsoft が今一度ちゃんとIMEに資源を割かねばならなくなったこと、が一番の意義かもしれません。

hogeさん
検索エンジン、千里の馬は常に有れども、伯楽は常には有らず という故事をつい思い出すのですが、見つけ出す力というのは価値あると思います。

上の投稿の日経トレンディの記事を書かれた佐藤信正さんとは93年頃NIFTYで歴史談義をお互いに書いていたなと懐かしく思い出しつつ、昔多くのベンダーが切磋琢磨し、日本固有のソフトと思っていたIMEのあり方が変わっていることに改めていろいろ考えさせられる出来事だと思いまう。

toku

検索窓入力時に、どこまでの情報が送信されているかにもよりますが、
IMEにより変換されたときに、例えば変換候補が10個あったとして、
その何番目をユーザが確定させたかにより、そのユーザの辞書における
”かな(よみ)”に対する”漢字”の候補優先順位が分かります。
これらのデータが収集されて変換辞書が生成されているとするならば、
樋口さんの懸念も理解出来ます。
”かな(よみ)”に対する漢字の候補提示順は、かな漢字変換システム
において非常に重要な要素です。

コメントを投稿する