「ぼかりす」で知った、プロとアマの違い
VocaListenerの論文が公開されたのでちょっとだけ。
詳細については、いつものように初音ミクみくさんがレポートされているので、まずはお読みください。いつもありがとうございます。
・出た!VocaListener(ぼかりす)開発者のサイトに技術論文!
謝辞の中に、「本研究に対し有益な議論 をして頂き、VSTiホストの実装へご助言を頂いた藤原弘将氏(産総研) に感謝致します」とあります。
藤原弘将氏というのは、以前取り上げた、VocalFinderにおける、後藤真孝氏の共同研究者です。え、VSTiホストへの実装って、VocaListenerはそういう形での実装を予定してるんですね。スゴイ!
わたしがいちばん気になっていたのは、歌をうまく聴かせるための手法「歌唱力補正機能」です。論文(PDF)と、第75回音楽情報科学研究でのプレゼン資料(PDF)を読んで、その内容がある程度わかりました。
1つは、「音高変更機能」で、そのポイントは「音高遷移が半音単位となるように補正」すること。連続する有声区間毎に適切に補正するということだそうで。たしかにピッチを合わせるというのはそういうことですよね。
もう1つが、わたしにとってとてもおもしろかった。「音高・音量軌跡を変更することで、歌唱力を補正」することです。
VocaListenerでは歌唱のワンフレーズのピッチ変移を、プレパレーション、オーバーシュート、微細変動、ビブラートに分類。ビブラートを入れる、オーバーシュートが小さくする、という2つのポイントでアマとプロの違いをくっきり出そうとしています。つまり、出だしの音程を安定させるわけです。ただし、あまりやりすぎるとロボっぽくなってしまうので、「平滑化前と平滑化後を線形補間」することにより、より自然なプロっぽさというのを出そうとしているようです。
例えば、オーバーシュートは、歌唱技量の差によらず生起するが、プロによる歌唱の方が、アマチュアによる歌唱よりも変動が小さいという知見があり
これは、ピッチについてのことですが、音量の変移について、どのような実装をしているのかについても、もっと詳しい説明があるとより面白いことになるかと思います。論文を読むと、スムージングだけかもしれないですね。