Apple の参入で過熱する音声認識 AI デバイス市場
Appleが今朝未明のWWDCで、かねてより噂されていた音声認識AIデバイス「HomePod」を発表しました。
「音声認識AIデバイス」というのは今私が作った造語です。この記事ではスマートスピーカーと言っていますが、どうもこのジャンルのデバイスは「音声認識デバイス」とか「音声認識AI」とか「音声アシスタントAI」など、メディアによって呼称がバラバラな上に、どれもいまひとつしっくりこないため、私としては「音声認識AIデバイス」としてみました。(いまのところ検索しても出てこないので、他に使っている人はいないのかな?) このジャンルのデバイスとしては、Amazon Echoが先行していると言われています。(Echoは製品名でAlexaは音声認識AI技術の名称)
言われてはいますが、「絶好調」といっても、この種のデバイスは日本ではまだ売られていないため、英語圏での評価しかわかりません。日本で発売された場合には、日本語の認識精度含め、どう受け止められるか、というのはまたちょっと別の問題かもしれません。日本人はApple好きですしね。
音声認識AIで先行したApple
それに、最初に音声認識AIに注目したのはAppleなんですよね。2011年にiPhone 4Sで採用されたSiriです。
2007年にiPhoneを発表したとき、スティーブ・ジョブズはキーボードやスタイラスに変わる理想の入力方式として「指」を採用した、とスピーチしました。タッチスクリーンはその後スマートフォンの入力方式として標準になりましたが、やはり文字を入力するのは大変です。やはり、人間にとって最も自然な入力方法は「音声」だということなのかも知れません。
伸び悩んだSiri
それに気づいたAppleはSiriを開発 (というか、確かどこかの会社を買収したのではなかったかと) したわけですが、当初 (というか、未だに、かなあ) 認識精度は悪く、ほぼ使い物になりませんでした。機械学習のおかげで今では認識はそこそこになりましたが、頼んだこと (xxを調べてくれ、とか) への対応は、ただその単語をWebで調べただけ、という感じで、役に立つという印象にはほど遠い感じです。認識精度については日本語と英語の差もあるでしょうが、その先の、コンテキスト (文脈) を理解して最適な (できればパーソナライズされた) 回答を提示する、というAI的な部分は同じロジックが使えると思うので、そこがまだまだなのでしょう。
ただ、道ばたや電車の中でスマホに話しかけるのはちょっと勇気が要ります (というか、しませんよね)。Siriも、当初は車の中でのスマホ操作を想定していたのでは無いかと思います。それにその後、Appleが自動車やテレビ、ウェアラブルに侵出するためには音声認識AIが必須だったと思いますし、そのための布石であったということだと思います。ただ、Siriの完成度がいまひとつなこともあってか、Appleのスマートホーム用プラットフォームのHomekit、車用のCarPlayなどに対応した機器もあまり増えていませんでした。
iPhoneがあまりに好調だったので、Siriの完成度を上げて音声用の専用デバイスを作るという発想にならなかったのかも知れません。AppleはスマートホームのゲートウェイとしてiPhoneを考えていたのでしょう。そこへ殴り込んできたのがAmazonだったわけです。AmazonはAppleとは違い、スマホで手痛い失敗を経験していますから、逆にスマホに変わるゲートウェイを発想できたと言うことなのかも知れません。
徹底した拘りと「Skill」でSiriを抜き去ったAmazon
Amazonのジェフ・ベゾスはEchoを出すに当たって、応答時間を当初の3秒から1秒に短縮させるなど、徹底的に使い勝手に拘ったと言います。ベゾスはジョブズ並の完璧主義者と言われており、ジョブズがiPhone開発時に徹底的にタッチのレスポンスや挙動に拘った話と重なります。Echoはまだ日本で売られていないので、その成果はビデオなどを視るしかないのですが、これだけ売れていると言うことは、かなり精度も使い勝手が良いのではないかと思います。早く日本でも出して欲しいですね。対してSiriは、先行していたにも関わらず、先行者利益を活かせなかった形です。やはりジョブズの不在が大きいのかな、とも思ってしまいますね。エンドユーザーは妥協に敏感です。そういえば、日本のガラケー全盛期にも、UIの「サクサク感」が最も重視されていたことを思い出します。
AlexaにもAppleのHomekitと同様の「Aleza Skill Kit (ASK)」というプラットフォームが用意されていますが、Echoが大成功したため、Alexaに対応した機器やサービスが爆発的に増えています。ASKを使うことで、様々な企業がAlexaの機能を使ったサービスを簡単に作ることができるわけですが、私はこのSkillがAlexa成功のもう一つの要因だと思っています。こちらの記事にあるように、
ドミノピザの開発したSkilによってAlexaがピザを注文したり、UberのSkillによってAlexaが配車サービスを手配したり
できるということで、Skillの数が増えているのだそうです。こういった特定の目的を持った小さなサービスは、やりたいことがわかっているため、誤認識や見当違いの回答を少なくすることができると考えられます。正にこの点が、Alezaの利便性を高める結果になっているのではないでしょうか。Siriは様々なことに対応できる汎用的な音声アシスタントを目指したため、逆に見当違いの回答を繰り返したりして、信頼を失っていったとみることもできます。
こうしたエコシステムが拡大していくことで利便性や有用性がどんどん高まっていきます。この分野、Googleは既にGoogle Homeを出していますが、Appleがようやく製品を出し、MicrosoftもCortanaを搭載したスピーカーを出す予定とされています。先行するAmazonにどこまで迫れるのか、注目が集まります。家庭・車内の音声認識AIプラットフォームを握ることができれば、巨大な市場を手に入れることができるでしょう。ただ、英語圏での発売が今年12月ということで、その間にさらにAlexaとの差は開いてしまうかも知れません。日本語版については言及もされていないようですが、Siriは既に日本語対応しているのに、何故出てこないんでしょうか。認識精度の問題なのか、処理するクラウドの能力の問題なのか。。
日本の会社が出しましょうよ
しかし、日本語の音声認識なら、日本企業に研究の蓄積があるのではないでしょうか? 現に2012年、Siriが発表されて半年後くらいにdocomoが「しゃべってコンシェル」を始めてるんですよね。そりゃ、NTTの研究所がバックにあるわけですから、要素技術はあるんですよ。問題は、技術はあるのに、それを何に使ったら良いかを発想できなかったということなのではないでしょうか。実際は前から準備していたのかも知れませんが、もしSiriを見て気がついたということなら、なんとも勿体ない話です。今だって、docomoとSonyかPanasonicが組めば、こんなスピーカーなんかすぐにできてしまいそうです。外国勢がもたもたしている間に、なんとかならないでしょうか。(笑)