Mac、iPhone、iPod、VOCALOID、DTM、楽器、各種ガジェット、自転車、メディアなどの情報・雑感などなど

謎の歌声合成技術「Sinsy」の情報を集めてみた

»

 だいぶ出遅れましたがとりあえず、もとの動画がこちら:

【Sinsy】耳のあるロボットの唄【歌わせてみた】

歌声合成システム”Sinsy”(しぃんしぃ)のデモンストレーションです。Sinsyは、“調教”無しで人間のように歌う新しい歌声合成システムです。

 この投稿者コメントだけではなんとも判別しづらいですが、「調教なし」というところがポイントですかね。

 Sinsyに関して取り上げているのは:

隠れマルコフモデルベースの歌声合成システム Sinsy が「耳のあるロボットの唄」を唄っています(世界の片隅でVocal Synthesizerとか聴いて過ごすブログ)

なんだこれ。(UTAUについて)

謎の新型歌声合成システム「Sinsy」(しぃんしぃ)が話題になっている件(初音ミクみく)

隠されたマルコフさん(音楽とかソフトとか:耳ロボP)

 これらを読むと、名古屋工業大学の徳田恵一教授が関係しているようです。

 公式サイトとみられるwww.sinsy.jpが現在ダウン中で極端に情報不足に陥っているため、Webで調べられるところを探してみました。

 まずは、公式サイトのGoogleキャッシュから。

アップロードされた楽譜(MusicXML)に基づいて自由な歌声を生成するHMM歌声合成システム,Sinsy(しぃんしぃ)です. ボーカル. f001 (女性 合成可能音程: Gb3-Gb5 得意なテンポ: BPM100). 声質, (-0.8~0.8). ピッチシフト, (-24~24). 楽譜(.xml) .

というのが残っています。声質、ピッチシフトがパラメータとしてあるのですね。MusicXML形式の楽譜から歌声合成ができるようです。男性ボイスも用意されているのでしょうか?

 もう1つ、これが問題の「隠れマルコフモデル」かと。

隠れマルコフモデルに基づいた歌声合成システム(<特集>音楽情報科学)

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンヘの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.

名古屋工業大学大学院工学研究科 酒向 慎司、宮島 千代美、徳田 恵一、北村 正

 「楽譜から得られる音階と音長を考慮したコンテキスト依存モデル」。MusicXMLから得られた情報だけで「歌い手の特徴を再現し歌声の合成が可能」というわけです。MusicXMLにより歌声合成を行うという手法は、「ぼーか郎」でも実装されていますね。

 「未知の楽曲からの歌声合成が可能」とあるので、ぼかりすのように実際に人間の歌い手が歌唱手本を示したり、人間がエディタで調声しなくても自然な歌い方にいなる、というところがこの手法のポイントでしょうか。

 ほかのサンプル曲や公式サイトが明らかになるまではやはり謎のままですが、VOCALOID、UTAU、ぼかりす、SugarCape、そしてSinsyと、歌声合成はにぎわってきましたね。来年も人工ボーカルにとっていい年になりそうです。

追記:Sinsyの歌声合成のベースになったとみられる「隠れマルコフモデルに基づく音声合成方式」論文を見つけました(Google Docsで開く)。専門の方ならどういう意味なのか説明してくださると期待(他力本願)

追記:EjiwarpさんによるTwitterまとめ記事:
ついった節録:技術講習会「音声・歌唱合成の現状と将来」

 徳田恵一教授が参加した技術セミナーで語った内容がTwitterでtsudaられていて、「統計モデルによる柔軟な音声合成=HMM(隠れマルコフモデル)音声合成」について詳しく説明。文中に出てくるHTS、SPTKを含む「GalateaTalk用音声合成モデル 自動作成スクリプト」というのが、SourceForgeで公開されています。作者は「隠れマルコフモデルに基づいた歌声合成システム」の共著者である酒向慎司氏。

追記:ところで、PIAPROになる謎のアカウント「sinsy」のアイコンは何を意味しているのでしょうか?(無関係だったらごめんなさい
ニコニコ動画の投稿者プロフィールのアイコンも同じだったので、同一認定しました。ニコニコ動画の公開マイリストフィードはこちら

Sinsy

追記:いろいろ調べているうちに、自動作曲システム「Orpheus」というものにたどり着きました。

 歌詞を入力して、テンポ、歌手を指定するだけでメロディー、伴奏をつけて、しかも人間の歌声でうたってくれるというもの。これまで知らなかったとは……。ちなみに、「自動作曲」でググるとトップにでるほど有名らしいです。

 HMMに関わっているとみられる酒向氏がこの最初のバージョンで関わっており、論文「Orpheus: 歌詞の韻律を利用した Webベース自動作曲システム」(PDF)によれば歌声合成部分ではhts engineが使われているもよう。

追記:さらに資料を見つけました(2009-12-27)。

research map:徳田恵一
がけっこう有用な情報源になりそうです。Twitter上でアクティブな方の名前がここにあったりとかいろいろヒント多し。

声質と歌唱スタイルを自動学習可能な歌声合成システム(スペシャルセッション・歌情報処理2)


声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.

 VOCALOIDの「呪文」ではなく、実際に歌を60曲うたわせることで、別の曲を歌えるようにするわけですね。「歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化」というところがおもしろいです。

追記:信頼できる筋で推測してくださった方がいらっしゃいます

謎でもなんでもなくて,酒向慎司さんでしょ(^^;).

謎でもなんでもなくて,酒向慎司さんでしょ(^^;). 単に,いままでずっと「HMM-based Singing Voice Synthesis System」で名づけずに通してきたシステムに名前をつけたのだと思う. Singing の Sin と System の Sy なのかな. 「慎司」にも少しかけてあるのかもしれないですね.

 その酒向慎司さんの以前のものと思われるページがこちら。リップシンクはHMM歌声合成システムのデモがあります。

Eji さんとのチャットでいろいろ教えてもらって,状況把握(^^;).

 ここはあまり深追いしないほうがいいのかな……。

 正式な発表はどうやら来年のようですので、それまで待つことにしましょう。

追記:デモの2曲目が追加されました(2009-12-28):

 たぶん、こういう音質なんですね。ビブラートやプレパレーションの不安定なところも含めて人間らしさが出ているような気がします。

追記:デモの3曲目が追加されました(2009-12-31):

 今回は、「RWC研究用音楽データベース: ポピュラー音楽」から。産総研のぼかりす研究でも使われた、研究用オリジナル楽曲データベースを利用したようです。

 今後のSinsyの展開については、@ejiwarpさんが鋭い予想をされているので、そちらを紹介:

Zhuowareさんのvocaloforecast2010

 zhuoさんの「2010年 ボカロ界に起きる出来事大予想 募集」というTwitterメッセージに呼応して書かれたものですが、

SinsyとUTAUが(コミュニティレベルで)統合、もしくはSinsyと同等のHMM-based音声合成エンジンが開発され、UTAU音源を流用できるようにするツールセットがリリース。 これは半年内で発生可能と思います
Sinsyのデモはほぼ「UTAUコミュニティに対する呼びかけ」に見える

と大胆に予想。

追記:公開されました!
Sinsy
OSを問わず無料で使える歌声合成システム「Sinsy」が公開された

追記:自分でも検証してみました:

【Sinsy】「花紀行」を勝手にうたってもらった【荒井由実】

 ダブルラリアットのデモ曲も出ています:

Comment(2)

コメント

akira_you

galateaの学習スクリプトについて言及していますが、おそらくそこはニアミスです。
HTSはgalateaプロジェクト(http://hil.t.u-tokyo.ac.jp/~galatea/index-jp.html)の一部でテキストに字句解析・アクセント解析などを加えてHMM音声合成で音声を生成するものです。

そのための音声モデルとしてHMMを利用しています。
アクセント部分以外の音程などに関しては決め打ち固定です。
(デモサイト:http://www.sp.nitech.ac.jp/~demo/gtalk/demo.php)

大雑把に言って”声質”の学習です。これはHTSにもありますが。
歌声の自動生成になると、音の高さ・強さもコントロールする必要があるので、
おそらく、そこでもHMMによるモデルの学習及び合成をしていると思います。
(はずれてたらごめんなさい)

ちなみにHMMは隠れマルコフモデルの略です。大雑把には以下のような感じです。

例えばある人の懐具合がどの程度リッチなのかということが隠されている状態で
その人のランチを観察します。人間なので毎日吉牛という事はありません、
吉牛の翌日は肉の万世にいくかもしれません。

ただし、懐具合によってそのランチ連鎖の遷移確率は変わります。

このとき、ランチを観測して人間とはリッチなときはn%の確率で肉の万世に行き、どれくらい懐が寂しくなるというモデルと作るのがHMM学習です。
このモデルに当てはめることでランチを観測して人の懐具合を確率として探るのがHMM認識です。
逆にロボットにそのモデルを叩き込んで人間臭い動きをさせるのがHMM合成です。

同じように懐具合を楽譜に、ランチを出てくる音程・強さにすれば歌HMMですし。
音程・強さ・発音したい音素列を内部状態にもてば、歌HMMの結果を実際の音声に変換する
音声合成HMMになります。

ちなみにHMMによる認識を声に当てはめればそのまま音声認識になります。

(多分ね)
というか、真意は本人に取材したほうが早いかと思いますが。

koya

akira_youさん、隠れマルコフモデルについての分かりやすい説明ありがとうございます。galateaとの違いも理解できたと思います

コメントを投稿する