エンタープライズコラボレーションの今と今後を鋭く分析

画期的な音声合成ソフト「初音ミク」に驚愕した!

»

 つい最近に新しく発売されたソフトウェアに、バーチャル・シンガー『初音ミク』という商品がある。これは声優「藤田 咲」さんのキャラクター・ボイスをベースにした一種の音声合成ソフトウェアで、楽譜(スコア)を入力するとコンピュータが音声をつなげあわせて歌ってくれるという製品だそうだ。
 
 正直なところ、音声合成といえば、券売機や行き先案内といった業務用のシステムでのとても機械的で無機質なものしか知らなかった私にとって、この「初音ミク」による歌声は驚異的なできばえだった。楽譜を入力して設定するために、ソフトの操作者のチューニングの腕によってかなりの差がでるものの、上手に設定したものの出来はかなり人間に近づく。確かに良く聞けば変な部分もあるが、複数トラックを重ね合わせたりするとそれも判らなくなる。既に一部では元の声優さんとの合唱や同じバーチャル・シンガーソフトの先代「MEIKO」との合唱などが披露されている。

 実のところ私自信はこのソフトを買っていない(※1)のだが、これら公開された音声にかなり聞き惚れてしまっている。日本の技術もここまで来たのかぁ。と感心しきりだ。
 
 発売元のクリプトン社では、ボーカル・アンドロイド=VOCALOID(ボーカロイド)と銘うっているが、確かに単なる音声合成ソフトではなく、人間により近い歌唱専用アンドロイドという名前は伊達ではない。

 実は、以前にちょっとだけ紹介したアイドルマスターというゲームを初めて見た時も同じように驚愕したことがある。それはゲームの中のダンスシーンの完成度の高さである。アイドルマスターの画面内で描かれたアイドルが曲にぴったりとシンクロして踊るのを見て当時の私はいたく感心したものだ。いや1人の画像を踊らせるのであればそんなに難易度は高くないと思うのだが、アイドルマスターではペアやユニットを組んで複数名でダンスを踊らすことができる。この複数名での場所を変えながらのダンスやユニット内での優先度変更による踊る場所の変更やキャラクターの衣装を変更してもダンスはスムーズに動くのである。モーションキャプチャーは格闘技系ゲームの出始めの時に知ったのだが、こういう応用を見てダンスとか芸術に使えることを実感し、正直ものすごい技術であることを再認識した。
 手元にある資料によると、このダンスシーンにはモーションキャプチャーの技術が取り入れられ、専用のスタジオでの元の動きとなる撮影にはあの「武富士」のバックダンサーも参加したとある。なにげに凄い技術が使われていると感心したものだ。

 私にとってはこのモーションキャプチャーや最近もちょっとニュースにでたモーフィングなんて、出た当時には新しい技術として知ってはいたものの、正直「一般的なビジネス業務用としては、いったい何に使えるのだろうか、あんまり先はないだろうなぁ」とたかをくくって見ていた。今日紹介した音声合成も同種にあたる。正直、自分の担当するビジネス領域での顧客に適用しにくいと勝手に思いこんで先入観だけで評価していたことを強く反省したい。
 そしてそうした高度だか応用の難しい技術をこうしてゲームや一般用のパッケージソフトにして一般消費者の手の届くところに持ってくる所まで努力した関係者の方には心から賞賛の声を送りたい。

 今、これらの技術が多数の人々の手に渡ったことは、今後の爆発的発展を予感させる。だって、今ならばネットワーク社会の特性である集合知を活用して、これまでに無かった斬新な技術応用のアイデアがどんどんと生まれていくに違いないからだ。

(※1)ここまで書いておきながら未だソフトを発注もせず、クリプトン様には大変申し訳ありません。今後いつか「初音ミク」の記事などを書く機会などが出来たら是非資料費で購入したいと思っております。

===2007/09/10 AM8:23 追記

 誤解を招き、一部の方を不愉快にさせる表現がありましたので、全体の趣旨を変えない程度で一部を追記&書き換えさせていただいています。大変失礼いたしました。

 現時点ではiZa!ニュースの「ニコニコ動画で歌う「初音ミク」って誰? 」が最も詳細に状況を伝えていると思いましたので参考までにリンクを掲載します。

===2007/09/11 AM 8:58 追記

 あまりにも好評で品薄状態になっている「初音ミク」ですが、発売元のクリプトン社の公式ブログから

DTMマガジン誌の10月5日発売11月号にて、付属のDVD-ROMに収録して頂く運びとなりました。さらにスタートアップ的な使い方の記事も収録されますので初めての方にも優しい内容です。

とのことです。お試し版というのは非常にGood!だと思います。

Comment(10)

コメント

えーと、モーションキャプチャもモーフィングもサンプリングからの合成音声も、相当古くから積み重ねられてきた苦闘の歴史があるわけで、その辺はどうお考えでしょうか?
いずれの技術も十年以上(原理の発明や基礎研究から数えるなら更にそれ以上)前から実践投入され、つまりは全然「新しい技術」ではないわけで…

研究され、実践され、評価され、更に研究を重ね、改めて実践され…というサイクルを回し続けてきたこれらの技術に対し、「あんまり先はないだろうなぁ」と云う判断は、あまりに浅薄に過ぎるかと。

もし、本エントリが「それらの技術が民生品として個人が手軽に購入できるレベルにまで降りてきた」という趣旨であれば、当方の思い違いであり、謝罪するものではありますが…

吉川さんも相当のニコニコ家ですね。ボーカロイドや初音ミクには私も感動しましたが、一方で、単純なテキスト読み上げも味があって好きです。吉野家、ゴルゴなど名作(?)をボーカロイドに喋らせると、それはそれで人気が出るかも。

n-yoshiさん、コメントありがとうございます。
 本文中私の書き方が悪かったのですが、私がこれらの技術(の名)を知ったのは、それぞれずいぶん前になります。うろ覚えではありますが、モーフィングや音声合成なんかは、もう多分10年以上に知ったと思います。
 で、これらが私の担当するビジネス領域から遠かったこともあり、当時は「面白いけど何に使うのかわからない」「結局使うところがなくて(研究費が続かなくて)尻すぼみでは?」と馬鹿な私は勝手に思っていたわけです。自分の不明を恥じると共に反省しています。
 それが今回、こういった一般人にも非常に判りやすい形式で出てきて素直に驚くとともに、関係者の方々のこれまでに努力に頭のさがる思いです。長い間には紆余曲折や挫折などもあったのだと勝手に推測していますが、あきらめずにずっと技術の先を見つめてやってこられたからこそだと思います。
 その面で本文中にいくつか不愉快に感じられる表現があったことはお詫びしたいと思います。大変申し訳ありませんでした。

NAKAさん、
 「初音ミク」に驚いたのは「歌っている」という事なんです。素人の私には「歌う」ほうが「話す」より難しいのだろういう頭があって、時々TV何かで出てくる話すほう音声合成を聞いて「・・・」って感じだったので・・・。
 で、いろんな書き込みを見るとVOCALOIDは「話すのは苦手」ってあるようで、実は「歌う」ほうが「話す」のより簡単なんですかね?それとも伴奏など他の音で誤魔化されやすいという事なんでしょうか。

ek

>「歌う」ほうが「話す」のより簡単なんですかね?

はるかに簡単です。
自動車で言えば、サーキットを走行する方が一般市道を走行するよりはるかに簡単なことと同じですね。

それでも、すごい技術であることに変わりはありませんが。

再び自動車で例えるなら、サーキットの自動走行(音楽)に成功したら、次は高速道路(ニュースや情報の自然な読み上げ)、そして最後に一般市道(自然な会話)という流れでしょうか。

mohno

[これはすごい]ですねぇ:-O
驚きました。
(ここで聞くのもなんですが)英語版のようなものって存在するんでしょうか?

歌う部分は初音ミクの担当、踊る部分はアイマスの担当なのですね。
ではマウスを追ってリアルタイムで表情を変える涼宮ハルヒのフラッシュを置いていきます。
http://b.bngi-channel.jp/psp-haruhi/sos_pop01.html
よく見ると呼吸のリズムにあわせて鎖骨あたりがわずかに動いているのがリアルすぎて少し気持ち悪いです。
初音ミクもアイマスもこのような「不気味の谷」と呼ばれる不自然さを克服したことで今の評価があるのではないかと思います。

ekさん、ありがとうございます。
 なるほど「歌う」事に特化すると楽なんですね。わかってきました。でもだったら特定の用途でだけ語るカーナビとかってもう少し進化していても良いような・・ってもしかして判別しやすいようにわざと機械的な響きを残しているのかぁ。なんても思いましたが。

mohnoさん
 英語は、だめなようですよ。カタカナに変換して入れるらしいです。

にゃーす

いちまんねんとにせんねん前からつ・る・れ・ら・ひぃ~♪
こんばんは。にゃーすです。
迷ったあげくついにアマゾンで初音ミクを注文してしまいました。
でも、音楽はさっぱりなにゃーすです。DTM?それってなに美味しいの?っていうかはじめて聞く言葉ですよ?
たぶん、届いたらひととおりパッケージを眺めて楽しんだらそのまま速攻でお蔵入りかなぁ。
ドナドナドーナードーナー…
DTMマガジンとか買って勉強しようかな…。

コメントを投稿する