VOCALOID-flexをマッシュアップする方法(Twilogまとめ)
MA6に登場した、ヤマハの剣持さんと宮本さんによるVOCALOID-flex API公開に関するプレゼンを、Ustreamの放送をみながらtsudaったものです。
待機中 RT @kenmochi: http://bit.ly/bCp7KZ ←あと30分ぐらいするとこちらに登場します。
posted at 18:53:29
ヤマハのNetVOCALOID-flex APIプレゼン開始。剣持さん (#MA6 live at http://ustre.am/pwST)
posted at 19:59:57
VOCALOID-flexはTTSではない。話し声だけを合成する技術ではなく、区別なく、同じ枠組みで扱うことができる #MA6 live at http://ustre.am/pwST
posted at 20:02:52
歌声と話し声はグラデーションのようにつながっている。渋谷の飲み屋のおやじさんの「千円でーす」は歌声に近い話し方。娘さんの声の実例も「ねえ、パパー、はやく、はやくー」 #MA6 live at http://ustre.am/pwST
posted at 20:04:07
TTSはやりたくない。歌声と話し声の中間を狙いたい #MA6 live at http://ustre.am/pwST
posted at 20:05:11
歌声でもそうでないものも合成してしまおうというものがVOCALOID-flex。通常はピッチモデル→素片選択→連結・合成だが、flexではピッチモデルをスキップする #MA6 live at http://ustre.am/pwST
posted at 20:07:57
韻律モデルを使うとTTSになる。歌声は楽譜から実ピッチ・音素継続長への変換を行えば歌うことができる #MA6 live at http://ustre.am/pwST
posted at 20:12:15
ゲームコンテンツ、アラート音、ラップ、詩吟、お経などがflexの応用例として挙げられる #MA6 live at http://ustre.am/pwST
posted at 20:13:14
ヤマハ 研究開発センター ネットビジネスグループ宮木強氏がNetVOCALOID-flexの仕組みを説明開始 #MA6 live at http://ustre.am/pwST
posted at 20:14:26
専用に定義したXML Voice Synthesis XMLで記述。サーバに送ると合成されたMP3が返ってくる #MA6 live at http://ustre.am/pwST
posted at 20:15:55
入力は発音記号、発音位置、長さ、韻律パラメータの4つ #MA6 live at http://ustre.am/pwST
posted at 20:16:55
VSXMLファイルの概要。韻律は音量と音高。主要タグはvender、master(ファイル全体の設定)、voicedef(DB定義)、ctrl(音量とパンポット) #MA6 live at http://ustre.am/pwST
posted at 20:20:58
sentence(文章記述)、syllable(音節記述)、phoneme(発音記号を時系列に定義) #MA6 live at http://ustre.am/pwST
posted at 20:22:31
オーディオ出力はチャンネル数、MP3圧縮レートもリクエストで指定できる #MA6 live at http://ustre.am/pwST
posted at 20:26:32
利用申請するとSDK(仕様書とサンプル)を提供。12/10までAPIが「利用できる。それ以降は個別相談。DBはVY1のみ。制限は1ユーザー利用回数が1時間に20回以内。合成音は10秒以内。開発者は100回まで #MA6 live at http://ustre.am/pwST
posted at 20:32:18
母音と子音の長さ調節などは、実際に波形を見てやるのがいいんじゃないか(剣持)。子音の違いでの長さの違いも伝授 #MA6 live at http://ustre.am/pwST
posted at 20:38:21