オルタナティブ・ブログ > CloseBox & OpenPod >

Mac、iPhone、iPod、歌声合成、DTM、楽器、各種ガジェット、メディアなどの情報・雑感などなど

HALとMIKUのあいだに——読唇機能ってどうでしょ

»

 マウス入力の時代はそろそろ終わりを告げ、次にはジェスチャーコンピューティングの時代がやってくる——Gartnerがそう報告しているそうです。

タッチ技術台頭で、マウスの時代は終わる?

 AppleがマルチタッチをiPhoneやMacBookに採用し、SurfaceやWindows 7でもMicrosoftが採り入れたことで、この技術がマウスと同様にインプットデバイスの大きな流れになるのは間違いないと思います。

 それはいいとして。

 わたしが注目したいのは、「顔認識」技術です。顔認識というと、認証だとか、スマイル検出とか、3D化とかが着目されている技術ですが、これまでのところ、長時間使い続けるような技術ではなさそうです。

Lenovo、コンシューマー向けに新ブランド「Idea」を投入

 顔認識機能を搭載しているLenovoのIdeaPadには、VeriFaceという技術によりログインを顔認証で行うことが可能ですが、それ以外には使われていないみたい。これはもったいない。

 カメラを使った読唇機能を組み込むことってそろそろ可能になったりしませんかね?

 2001年宇宙の旅ではHAL9000が、「赤い目」でもって乗組員の企みを察知し、事前に行動を起こしましたが、ノートPCの内蔵カメラの前でクチパクをやることで、コンピュータに入力したい文章を読み取らせることができるのではないかと。

 もちろん、それだけで完全な文章を入力するのは困難でしょうが、いまのIM、携帯電話やiPhoneで使われている予測変換とうまく組み合わせ、さらにマルチタッチのコマンドとか補助的に使えばけっこう効率的かもしれません。

 初音ミクなどのVOCALOIDの入力は通常、ピアノロールというDTMでよく使われる画面にマウスでノートをおいていくのですが、わたしは最近ではめんどくさくなって、自分で歌って、それをMikuMikuVoiceで取り込み、VOCALOIDで読み込める形に変換しています。そのほうが楽なのです。

 これは声を出して歌う必要があるので、周りに人がいる場合には難しいのですが、読唇機能ならば声を出さずに済みます。音声入力が普及しなかったのは、声を出すのは恥ずかしいし仕事場の環境では難しい、というのがありますが、口を動かしているだけならかまわないでしょう。

 2003年のスラッシュドットに、こんな記事が掲載されていました。

Intel、読唇技術のソースコードを公開

 読唇携帯電話の試みも、日本米国でそれぞれあるようです。そろそろ実用化してほしいですね。

 ベロを出したら改行する、とか変換する、とかだとおもしろいなあ。

追記:読唇技術じゃないけど、表情を読み取ってリアクションを変えるロボット教師、という記事も、ITmediaに掲載しました。

「表情認識」でリモコン制御が可能に

 小林さんのPOLAR BEAR BLOGに取り上げていただいています。

「君、授業についてこれていないようだね」を表情で自動的に判断する、という発想

 コンピュータに入力するテキストや見ているページ、使っているアプリに関する統計データに、こうした表情認識を加えれば、さらに高度な分析・処理が可能になるでしょうね。読唇してもらって表示されたテキストの内容に不満な表情を見せると、さらに別の認識例を出してくるとか。満足げならそのまま確定にしてしまうとか。

Comment(0)