オルタナティブ・ブログ > CloseBox & OpenPod >

Mac、iPhone、iPod、歌声合成、DTM、楽器、各種ガジェット、メディアなどの情報・雑感などなど

3D声色空間、疑似Append――ぼかりす2が実現する音色変化の魔術

»

 28日に行われるSIGMUSを前に、産総研P(中野倫靖氏/後藤真孝氏のチーム)がまたまたすごい発表をしてくれました。ぼかりす2です。

 ぼかりす2は「VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案」とあるように、音量、音高、そして歌詞という3つの要素から成り立っていた「ぼかりす」をさらに押し進め、声色の変化を真似ることにも成功したようです。

 ユーザー歌唱の声色変化を記録し、その変化をVOCALOIDの音色に適用して「ユーザーの歌い方による音色変化を真似る」という技を覚えたわけです。たぶん。

 説明動画を見ると、3次元の声色空間に初音ミクオリジナルとAppendを配置し、それを曲中でダイナミックに動かしているように見えます。どのような仕組みで動いているのかはわかりませんが、7つのミクの声で特徴的な声色の成分変化させているようです。

 例えば、「俺を 酔わせるよ 熱い あ 夢ちぎり」だと、俺を(Sweet)酔わせるよ(Dark)熱い(Soft)あ夢契り(Vivid Solid)が中心となっているように見えます。

 VOCALOID 3では、Appendのような複数の歌声バリエーションで音色を単なるSinger切り替えではなくパラメータ変化させることが可能になるのではないかと思われますが、ぼかりす2ではその作業をマニュアルではなく、ユーザーの歌唱の中の声色変化を追うことで自動的に行うものではないかな、と想像。このパラメータ変化がおそらくマニピュレーターにとって最も大変な部分だと思われるから、そこをできるかぎり自動でできるようにしよう、そんな産総研Pの親心が感じられるような技術かなあ、と妄想。

 しかし、こういうのがでてくると、初音ミクAppendのように、感情がある程度想像できるようなバリエーションとは別に、音色パラメータの振幅をうまく表現できるようなバリエーションを持たせた方がいいのかどうか、とかいろいろ課題を生みそうではあります。

 その一方で、Appendが公開されていない鏡音リンのAppendを擬似的に作るという魔法を使っています。

初音ミクAppend(DARK)での歌唱 sm10555712 を生成するためのスペクトル変形曲面を推定し、それを鏡音リンの歌唱 sm4705069 に適用することで鏡音リン擬似Append(DARK)の歌声を合成しました

とありますが、こうなるとなにがなんだか……。

 ところで、

「鏡音リン擬似Append」の名称の使用は、クリプトン・フューチャー・メディア社から許可を得ました。

と、ちゃんと許可とってるんですね。そこまでするとは(笑)

Comment(1)

コメント

謎の匿名希望

なんで、また大漁船・・・PROLOGUEでやってほしいのに・・・
というツッコミは置いといて、一つの声色のパラメータ変化では限界があるので
複数の声成分をベースにする・・・・そして、複数の声成分の合成を自然にするために
ベースの歌声を3D分析するようにして、声成分も3D配置(?)にしたという感じなんでしょうか?
いずれにせよ、Appendという概念がぼかりすの進化の鍵になったようですね。

ただ、ここ言うべきことではないとは思いますが、昨夜twitterでちょっと面白い議論が
あったようです。ニコ動の歌い手さんのマナー問題が発端だったんですが、なぜか
ボカロが歌うということはどういう事かという話になりまして・・・・
とはいえ、結局は『この曲はボカロに歌って欲しい』『私はボカロの歌うこの曲を聞きたい』『ボカロの方がいい曲があれば人間のほうがいい曲もある』というある意味普通の結論で終わっているので、インパクトには欠けるかもしれません。
ぼかりす(2)はこの部分にも踏み込んでいくことになると思うので、技術以外にもいろいろな議論が出ると思います。これからの歌声合成技術のためにもしっかり議論して欲しいところです。

コメントを投稿する