3D声色空間、疑似Append――ぼかりす2が実現する音色変化の魔術
28日に行われるSIGMUSを前に、産総研P(中野倫靖氏/後藤真孝氏のチーム)がまたまたすごい発表をしてくれました。ぼかりす2です。
ぼかりす2は「VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案」とあるように、音量、音高、そして歌詞という3つの要素から成り立っていた「ぼかりす」をさらに押し進め、声色の変化を真似ることにも成功したようです。
ユーザー歌唱の声色変化を記録し、その変化をVOCALOIDの音色に適用して「ユーザーの歌い方による音色変化を真似る」という技を覚えたわけです。たぶん。
説明動画を見ると、3次元の声色空間に初音ミクオリジナルとAppendを配置し、それを曲中でダイナミックに動かしているように見えます。どのような仕組みで動いているのかはわかりませんが、7つのミクの声で特徴的な声色の成分変化させているようです。
例えば、「俺を 酔わせるよ 熱い あ 夢ちぎり」だと、俺を(Sweet)酔わせるよ(Dark)熱い(Soft)あ夢契り(Vivid Solid)が中心となっているように見えます。
VOCALOID 3では、Appendのような複数の歌声バリエーションで音色を単なるSinger切り替えではなくパラメータ変化させることが可能になるのではないかと思われますが、ぼかりす2ではその作業をマニュアルではなく、ユーザーの歌唱の中の声色変化を追うことで自動的に行うものではないかな、と想像。このパラメータ変化がおそらくマニピュレーターにとって最も大変な部分だと思われるから、そこをできるかぎり自動でできるようにしよう、そんな産総研Pの親心が感じられるような技術かなあ、と妄想。
しかし、こういうのがでてくると、初音ミクAppendのように、感情がある程度想像できるようなバリエーションとは別に、音色パラメータの振幅をうまく表現できるようなバリエーションを持たせた方がいいのかどうか、とかいろいろ課題を生みそうではあります。
その一方で、Appendが公開されていない鏡音リンのAppendを擬似的に作るという魔法を使っています。
初音ミクAppend(DARK)での歌唱 sm10555712 を生成するためのスペクトル変形曲面を推定し、それを鏡音リンの歌唱 sm4705069 に適用することで鏡音リン擬似Append(DARK)の歌声を合成しました
とありますが、こうなるとなにがなんだか……。
ところで、
「鏡音リン擬似Append」の名称の使用は、クリプトン・フューチャー・メディア社から許可を得ました。
と、ちゃんと許可とってるんですね。そこまでするとは(笑)