から揚げとトイプードルの見分けはAIで可能なのか
画像認識ソリューションが世の中に広まりつつあるのを感じている人も多いのではないでしょうか。
自動車の追突防止システムや不審者を認知するシステム等、様々な分野で利用されています。
リアルタイム処理が求められ高性能な機器が必要なものとなると、すごいと思うものの、高額なイメージがあるかもしれませんね。
一方、そのようなリアルタイム性は求められない場面では、高性能な機器が不要で、画像をシステムに読み込ませてそれをシステムが判別して結果を返す、といったタイプが、比較的安価に構築できるといえます。
画像認識は広い意味では人工知能(AI)の一環と捉えられることもあります。
IBMのWatsonもAIと位置づけられていますが、Watsonのサービスの一つにVisual Recognitionという画像認識のサービスも含まれています。
Visual Recognitionで提供している機能は、画像の特徴を検知してタグとして抽出し、クラス・キーワードを生成する「一般種別」の他、人物の顔やWeb画像を検出する機能があります。
Watsonは全般的には、はじめの段階では「ポテンシャルの高い赤ちゃん」とも称されことからも明らかなように、中身は空の状態で、Watsonに知見を読み込ませることで精度を高める、そのための学習支援ツールを充実させている、というのが特徴です。はじめから「全知全能の神」ではないのです。
その中で、Visual Recognitionは、初期の段階からある程度の一般的な認識ができるようになっています。たとえば、リンゴやバナナが含まれた画像を読み込ませると、この画像にあるものは食べ物であり、果物であり、赤い色をしている、そしてリンゴやバナナである、という情報が自動的にタグ付けをされて返ってきます。その際に、たとえば、この写真に写っているものが果物である可能性は95%、リンゴがある可能性は80%などのように、確からしさをつけて表示されます。
このケースでは、「一般的な情報」として、果物をWatson Visual Recognitionが事前学習済みであり、ユーザーがリンゴやバナナをWatsonに教え込む必要はありません。その意味では、割りとすぐに使えるサービスなのです。ちなみに顔認識では、俳優や政治家といった著名人の情報も入っています。
もちろん、自分で画像を読み込ませて学習させることもできます。この際には、たとえばパトカーを学習させたいという場合、正しいパトカーの画像を50枚読み込ませます。これによってシステムがパトカーを認識するようになるのですが、同時にパトカーではない画像も読み込ませるのです。パトカーと似ている(と普通の大人は思いませんが)タクシーの画像を、これはパトカーではない画像として読み込ませます。これにより画像の特徴をシステムが刷り込み、ある画像が投入されたときにそれがパトカーであるかどうかを判別できるようになるのです。読み込ませる画像の数は、正しい画像を最低10枚、なるべくなら50枚、精度を上げるためには200枚程度です。
一時期ネット上で、から揚げとトイプードルの画像の見分けがつかないというのが盛り上がりましたが、これも正しい画像とそうでない画像を読み込ませれは、システムはほぼ間違いのない判断を下します。具体的にどこを見ているのかは分からないのですが、人間のように直感や雰囲気で決めるのではなく、確たる基準のもとに決めているのです。
このVisual Recognitionを応用することで、様々なサービスを提供することができます。たとえば、ユーザーが欲しい画像をアップすると似た商品を勧めてくれる、SNS上で投稿されている画像から自社製品を使っている消費者を探し出し、他にどのような商品を投稿しているかを調べる、といった使い方です。そういったコンシューマー向けに限らず、法人向けの活用もあります。保険の分野では損害査定として確認すべき画像をスクリーニングして査定者に提示する、といった使い方もあります。屋外構造物の劣化を判定することにも活用できます。
このVisual Recognitionはクラウド上のAPIサービスとして提供されていますので、すぐにでも使える身近なサービスといえます(無料でもご利用いただけます)。リンク先からは、PC上の画像やURLを指定するとそれが何と認識されるかをお試しいただけますので、ぜひアクセスしてみてください。
Visual Recognition 画像認識
このサイトの中の「デモを試す」→「試す」より
<参考>
Watson Visual Recognitionがすごすぎて俺の中で話題になっている件
【画像14枚】トイプードルが唐揚げに、トランプ氏が鶏肉に似ていると話題に
IBM 中山貴之のWeb Page (平日は毎日更新中)