しゃべれます!歌えます!東芝の音声合成技術「ToSpeak」を自分の声で試してみた
われわれが使える歌声合成技術。ブームを切り開き数十に及ぶデータベースが用意されている高品質なVOCALOIDを筆頭に、自分で音源を作成できて数千もの歌声ライブラリを持つUTAU、リアルな歌声をWebサービスとして提供しているSinsy。VOCALOIDではNetVOCALOIDがWebサービスだ。最近ではあきこロイドちゃんのからあげクンキャンペーンで使われている。UTAUにも実はWebサービスがある。「歌う@mobile」だ。Webで歌声サービスを提供する、というのは流行りでもあるのだ。
そこになぐりこんできたのが東芝のToSpeak。単なる音声合成サービスだと思っていたら、話者がどんどん増えていってる。それだけではなく、7月24日からは、自分の声を登録し、その音声データベースを使ってグリーティングカードを送ったり、歌ったりできるようになっている(おしゃべりだけなら、昨年末から3月末までの期間限定で登録サービスが実施されていた)。つまり、UTAUのように、あるいはそれ以上に手軽に音声データベースを作成し、NetVOCALOIDのように、あらかじめ用意された曲を歌詞を変えたりして歌わせることができるというわけだ。しかも、それを自分の声でできちゃう。既に712人の歌声が登録されている(たぶん、前回の登録者がたくさんいると思われる)。
自分の音声登録は30分少々でできるという。ぼくの場合は35分かかった。家族が横にいてノイズをたてたり、発音を間違ったらやり直したりしてちょっと時間をロスしたせいだ。合計で87のフレーズを、指定されたイントネーションでしゃべっていく。パソコンの内蔵マイクでも、ヘッドセットでもいい。自分はiPhoneのイヤフォンマイクをiMacにつなげてやった。例文はこんな感じ。
登録が終わってしばらくすると、音声データベースができましたよ、というメールが届く。これは数時間から1日かかることもあるらしいが、ぼくの場合には1時間くらいでできた。サーバの空き具合によるらしい。そうすると、グリーティングカードの読み上げを自分の声でやったり、自分の声でうたったりできる。曲は自由にできるわけではなく、いまのところ4曲から選ぶことになっている。その1つ、リパブリック讃歌で試してみた。それがこれだ。
これをヨドバシカメラの替え歌でやるのはすでに試されていたので、ライバル店でやってみた。
例によって比較用に自分の歌声と交互に並べたものをニコニコ動画に投稿したのがこれ。音程を入力していないにしては、なんとかなっているのではないだろうか。UTAUでも原音設定などを含まれば30分以内ですむということはまずない。それを考えればすごいことのような気がする。あとは、曲を自由に指定できるといいのだが。それをやるとすれば、どのような方法か。エディターはどうする、といった問題は生じると思うが、「自分の歌声を」「簡単に作って」「話せる」の全部ができるのはいまのところこれだけ。
いやー、楽しみが増えておじさんはうれしい。なお、ToSpeakはSiiisyと同じHMMだと思っていたが、HMMなのは日本語以外の部分。日本語では「複数素片選択融合方式の合成器を利用し、高い肉声感とスケーラビリティを実現している」という。
また楽しみが増えてしまった。歌声合成はすごい世界だ。
UTAUと自分の歌声との比較では、こんなのもやってた。UTAUでビックカメラ(偽)もやってみなければ:
追記:調べてみたら、ToSpeakの前身はパッケージソフトとしても出ていたLaLaVoice。これにはLaLaSongという歌声合成機能がついていて、これを使った作品も多くニコニコ動画に投稿されている。ToSpeakの歌声合成には、10年以上前のこの技術が生かされているのかも。
ToSpeakは、iPhone、Androidで音声データベースの登録とかできるといいと思う。Flash使ってなけりゃ、いまでも可能。再生だけなら現在もできる。ヘッドセットが標準でついてるんだから、むしろPCじゃなくてスマートフォンでやるべき。
自分の声を登録しておいて、好きなときに好きなフレーズを自分の声で再生できる。歌も歌える。そんなREGZA Phoneだったら買っちゃうよ。でも、iPhoneアプリで出すと、世界的にかなり売れると思う。いや、その前にAndroidが標準でつけてくるかな。HMMで。