数年前まで、画像の検索と言えば画像に付けられた「テキスト情報」に頼るのが当然でした。例えば、茶色いバッグの画像を探すためには、その画像にあらかじめ「茶色」「バッグ」というテキスト情報(メタデータ)が与えられている必要がありました。このことは画像に限らず、音声でも動画でも同様でした。

 ですが、画像や音声や映像など、明確なテキストによるメタデータを持たないアナログ情報を「直接」認識するという野望は、現実的なテクノロジーとして徐々に結実してきています。このような直接認識テクノロジーは、多くのWebサービスやハードウェアにイノベーションを生む可能性を秘めています。例えば、画像によって動画を検索するなど、リッチメディアの検索サービスは多様化するでしょうし、ECサイトなどにおいては、協調フィルタリング以外の有力なレコメンデーション手法(自己相関による検索)につながるでしょう。

 こうした直接認識テクノロジーが取り扱うアナログ情報は、「色」「顔」「音」「写真」「圧力」「手書き文字」「3軸座標上のベクトル」など、極めて多彩です。物理的な刺激の認識テクノロジーは、タンジブル・ユーザーインターフェースなどと呼ばれて研究される分野にも通じます。以下ではこれらのうち主に画像処理を中心に、いくつかを取り上げてみます。

1.顔

Logoriya  顔の認識テクノロジーは、すでに広く普及しつつあります。この分野では、Riyaがパイオニアです。Riyaは、専用のソフトをインストールさせ、ユーザーに大量の写真をアップさせます(結構面倒ではありますが)。画像内の人物の顔や看板などの文字情報は自動的に抽出され、タグとして分類されます。この分類はユーザーが補正し、学習し直させることも可能です。例えば下に貼ったようなKeira Knightleyの写真にWinona Ryderのタグが間違ってつけられていたら、これをクリックして付け直せばよいというわけです。Riyaは顔以外にも、メルセデス・ベンツのスリーポインティッド・スターのエンブレムから車種を特定したり、アップル社のリンゴのマークからIT製品を特定したりすることもできます。

Riya1

Logoviewdle  顔認識の分野では、Neven Visionというプレーヤーもいましたが、Googleに買収されました。この買収によってGoogleのイメージ検索に「顔」検索オプションが追加されています。最近では、ユーザーがアップした顔写真を加工して、笑い顔やしかめっつらなどを自動生成し、パーソナル・ブランディングに活用させるサービスを展開するPersonivaや、動画の中の人間の顔を認識し、インデックス化して検索に利用するViewdleというサービスも現れています。また、身近なところではNikonのCoolpixというコンパクトデジタルカメラなどには顔認識オートフォーカスが搭載されています。

2.音声

 声の認識テクノロジーは古くからあります。ワープロの入力補助に使う言語認識や、携帯電話を利用したボイスメモ・ボイスコマンドなどは既に枯れた技術とも言えます。ですが、声は音声の一分野にすぎません。音声と言っても広く、リズム、旋律、言語、声、単音、和音、単なる音などがあります。声の認識は、実は音声学や記号論からなる理論言語学の分野であり、テキスト解析です。

Logomidomi  こうしたテキストから離れ、旋律そのものを認識するテクノロジーとしては、シリコンバレーのMelodis Corporationが提供するmidomiがあります(日本語版もあります)。midomiは、ユーザーが鼻歌をマイクに向かって歌うと、その曲名を教えてくれるサービスです。その認識率は、よほどのオンチでない限りかなり高いようです。ユーザーは楽曲を通じて他のユーザーとつながったり、知りたかった曲の名前を知ることができます。

Logopandora  ちなみに音楽のWeb 2.0サービスとして有名なLast.fmPandoraは、リスナーの好みを分析してハイクオリティな音楽レコメンデーション(推薦)を提供していますが、旋律や和音やリズムを直接認識しているわけではありません。Last.fmは他のユーザーの好みと比較する協調フィルタリングがその根幹ですし、Pandoraは音楽理論を体得したミュージック・アナリストと呼ばれる従業員が人力で楽曲に様々なメタデータを割り振り、これを利用してレコメンドしています。

3.立体物

Logofotowoosh  二次元の画像を解析して、建築物などを認識し、自動的に三次元データとして再構築するというハンパないサービスも最近興ってきています。この分野では、カーネギーメロン大学の学生がローンチしたfotowooshや、スタンフォード大学発のMake3Dなどが注目されています。どちらも、画像を一枚しか必要としない点が秀逸です。Google Earthでもグランドキャニオンなどの名勝や一部の著名な建築物が3D化していましたが、通常の建物のテクスチャなどもこうした技術で擬似3D化すると面白いと思います。また、インテリア商品や不動産などを取り扱うECサイトに活用するのも価値がありそうですね。下にはfotowooshのイメージビデオを貼り付けておきました。

4.手書き文字

Logoevernote  さらに驚くべきテクノロジーは、手書き文字の認識です。Evernoteは、その名の通りnote(メモ書き)をever(永遠)なアーカイブとするため、画像から直接文字を認識し、インデックス化し、検索可能にするというサービスです。保存するデータは手書き文字でなくともよく、ウェブ上で書いたテキストや、携帯やデジカメで撮ったスナップショット写真でもよいです。これらをEvernoteに保存すると、フォントを問わずテキストを抽出します。このAdvanced Image Recognitionと呼ばれるテクノロジーには10年の歳月が費やされているそうです。凄まじいテクノロジーかもしれないが、私にはすぐにはいい活用が浮かびません。何世紀も前の文豪の残したオリジナルの原稿や、古文書の解析に使えるかもしれませんね(笑)。印刷された書物をデジタル化する試みはともかく(Google Book Searchなど)、手書き文字をデジタル化するというのは、3次元のSecond Life内で2次元のディスプレイ広告を貼るようなもので、無意味な退化と進化の組み合わせであるようにも思えます。ただ、earthmineGoogle Street Viewのようなサービスと結びついて、現実世界を直接インデックス化するようになると、想像を絶するイノベーションが起きそうです。

Logolike  以上のように、顔、音声、立体物、手書き文字などのアナログ情報の認識テクノロジーを紹介してみました。いくつかのサービスは真に価値ある利用法にたどり着くまでまだ道のりがあるように思えますが、顔検索はfacebookの写真共有でも利用されていますし、Riyaは顔検索での実績をもとにLike.comというファッションアイテム画像の認識テクノロジーを用いたサイトを始めています。色の直接認識などもかなり普及してきており、いくつかのECサイトにも導入されています。相関を計算してノイズを排除するような仕組みがもっと精確になれば、検索エンジンはよりユーザーの直感に応えるものになるでしょう。顔が検索され、街が検索され、全てがテキストと結び付けられるようになる世界は、楽しみでもあり、不気味でもあります。そのうち検索ボックスで自分の名前を検索すると、自分の姿をリアルタイムに映し出す映像が見つかる日が来るかもしれません。

Masaharu

Special

- PR -
コメント

コメントを投稿する
メールアドレス(必須):
URL:
コメント:
トラックバック

http://app.blogs.itmedia.co.jp/t/trackback/77444/11907282

トラックバック・ポリシー


» このブログのTOP

» オルタナティブ・ブログTOP



プロフィール

大迫 正治

大迫 正治

株式会社Parmy執行役員プロダクトマネジメント&ユーザーエクスペリエンス担当。このブログでは、ユーザーが参加する新しいウェブの世界についての考察を綴ります。

詳しいプロフィール

カレンダー
2011年3月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
カテゴリー
エンタープライズ・ピックアップ

news094.gif 富士通元社長の山本卓眞氏が残した次代へのメッセージ
富士通の社長、会長を務めた山本卓眞氏が亡くなった。哀悼の意を込めて、日本のIT産業界の大御所が残した次代へのメッセージを紹介しておきたい。(2/6)

news094.gif Facebook就活はもう古い?
約260人のブロガーが、ITにまつわる時事情報などを日々発信しているビジネス・ブログメディア「ITmedia オルタナティブ・ブログ」。その中から今回は「就活」「都心の雪」「ソーシャルメディア」などを紹介しよう。(2/4)

news094.gif 東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
塩害に強い綿の生産で東北に新たな産業を作りたい。オーガニックコットンの採用など、環境負荷を下げるジーンズ生産に取り組んできたリー・ジャパンの新たなチャレンジとは──。(1/30)

news094.gif 東北から始まるイノベーション
企業のICTを活用と若手IT技術者による東北発のイノベーションが、中長期的な震災復興の鍵となる。(1/27)

news094.gif 貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦
全国から約2万7000件の名刺制作を受注をする札幌の小さな印刷会社の成功の秘密は、地道な社会貢献にあった。(1/16)

オルタナティブ・ブログは、専門スタッフにより、企画・構成されています。入力頂いた内容は、アイティメディアの他、オルタナティブ・ブログ、及び本記事執筆会社に提供されます。

Special

- PR -

サイトマップ | 利用規約 | プライバシーポリシー | 広告案内 | お問い合わせ