http://www.aspl.is.ritsumei.ac.jp/morise/world/
音声分析合成システム「WORLD」
基本周波数推定法「DIO: Distributed Inline-filter Operation」
スペクトル包絡推定法「STAR」
具体的内容は秘密「PLATINUM Act1, Act2」(今後大幅に仕様変更する可能性あり)
テスト用プログラムの配布を開始.(2010年6月5日)
—-
| m_morise | 暫定的にWORLDの実行ファイルを配布開始.分析・合成にかかる時間と品質の調査用です.また,まともな音が出ない音声や不正処理で落ちる状況になった場合教えてもらえると嬉しいです. | link | |
| m_morise | 注意事項.(1) 動作にはFFTWのdllが必須です. (2) 音声は出来るだけ高音質なものを使ってください.F0推定法DIOは,耐雑音性が皆無です.(3) F0の高い女性の声は多分品質が残念です.使い方は,readme.txtに書いています. | link | |
| m_morise | WORLDのテスト版は配布できたし,査読でも片付けるかな. | link | |
| shurabaP | あれ、WORLDのテストプログラムが動かない…FFTWのDLLだけだと何か足りないのかな。 | link | |
| m_morise | @shurabaP あら,エラーメッセージを教えてもらえませんか?実験用PCが今2台しかないので,OSのバージョンなどで不備が出ているかもしれないです. | link | |
| m_morise | @shurabaP それと.wavのロードは自作関数なので,拡張waveだった場合ロードで失敗するかもしれません. | link | |
| shurabaP | @m_morise エラーメッセージも出ていないです。OSはWindowsXP Professional SP2 です。FFTWは3.2.1のDLLをWORLDのディレクトリにコピーしました。 | link | |
| shurabaP | @m_morise 了解しました。ヘッダ調べてみます。 | link | |
| m_morise | @shurabaP エラーが出ていないということは,ファイル名指定でミスった可能性が大です.コンパイルはWindowsVista64bitですが,WindowsXP Professional SP2 (32bit)でも動作確認できました. | link | |
| m_morise | WORLDのトップにあるオリジナルの音声で動作できることは確認済みです.waveのヘッダが怪しい場合,その音声を使ってみてください. | link | |
| m_morise | @shurabaP 参考ですが,37~40 byteのデータが’d’ ‘a’ ‘t’ ‘a’であれば問題なくロードできるはずです.何もおきずに終了する条件は,引数が2, 3個以外であることと,指定したファイルが存在しない場合の2パターンなはずです. | link | |
| shurabaP | @m_morise あら…ファイルは存在するのですが、何も起きずに終了しているようです。何か他に足りていないのかしら… | link | |
| m_morise | @shurabaP 起動しているということは,dllやOSの問題は大丈夫そうです.例えば,ファイル名がtest.wavの場合 > test.exe test.wav です.これでも何もおきない場合ちょっと調査が必要ですね. |
link | |
| m_morise | エラーメッセージ表示版でも作るかな~.10分ほどお待ちを. | link | |
| shurabaP | @m_morise エラーも特に何も無く[test.exe test.wav]の形で何も起こらず終了してしまいます。テスト用のwaveファイルも拡張フォーマットではないです。 | link | |
| m_morise | @shurabaP エラーメッセージ表示版をアップロードしました.Webを再読み込みしてからダウンロードしてください.お手数おかけして申し訳ないです. | link | |
| shurabaP | @m_morise すばやい対応ありがとうございます。”指定されたファイルが存在しません。”となっているのでファイルが開けていないみたいですね;; 引数を直に指定しても、D&Dでもファイルが存在しませんのエラーが出ます。 | link | |
| m_morise | Webのoriginal.wavで分析合成したら品質が残念すぎることに気がついた.非周期性指標推定をやっぱり再度調整しよう. | link | |
| m_morise | @shurabaP OKです.もう少し詳細なエラーメッセージが出るようにします. | link | |
| shurabaP | 久々にDOS窓立ち上げたらlsって打ち込んでやんの…orz | link | |
| m_morise | @shurabaP 修正完了です.Waveファイルのロードミス時に生じたエラーを表示するようにしました. | link | |
| m_morise | これにて帰宅するので,次の修正は明日の夜になります.それにしてもoriginal.wavの分析合成音の品質が酷すぎる. | link | |
| shurabaP | @m_morise ステレオ非対応だったんですね!モノラルに変更しましたら動作確認できました。 | link | |
| m_morise | @shurabaP あ~,それすっかり忘れていました(笑)注意書きが必要ですね.品質はともかく速度面は大きく改善されていると思います.関数はdouble配列を引数にするので,ステレオでもモノラルでも対応できます. | link | |
| shurabaP | @m_morise 音質の劣化自体もですが、破裂音など子音の前後でクリックノイズは結構乗ってしまいますね。音が速く変わると少し弱いような印象をうけました。 | link | |
| m_morise | これにて帰宅.非周期性指標は光明が見えたと思ったけど,もう一回考え直します. | link | |
| shurabaP | @m_morise お疲れ様です。音程の変化等も試してみます。 | link | |
| shurabaP | ていうか分析めさめさ速いwwww | link | |
| shurabaP | 次の版のv.Connectは多分周波数軸伸縮関数を備えると思うんだけど、これって何に使えるんだろ?DPマッチングってつめていくと局所最適になりそうなんだよなぁ。 | link | |
| m_morise | @shurabaP 子音前後ということは無声音を有声と誤識別していると思われます。今の判定はかなり甘めなので調整すれば直るはず。 | link | |
| shurabaP | @m_morise 後は、音程を変更した際に若干リングモジュレータ的に元の音程が聞こえるのが少し気になる感じですね。しかし分析滅茶苦茶速いですね、びっくりしました。。 | link | |
| m_morise | @shurabaP リングモジュレータのノイズというのはこれまで確認されていない現象です。が、何となくそのバグの原因は予想がつきます。。。多分凡ミスです。 | link | |
| m_morise | @shurabaP ちなみに周波数伸縮ですが、線形伸縮の場合、大雑把に体格が変わったような声質変化になります。例えば半分に縮めた場合フォルマントが半分になるので、背の高い男性的な声になります。 | link | |
| shurabaP | @m_morise 音程を変化させて再合成時に一部分で加工元の音声が聞こえているのが、ノイズリダクション様のノイズと合わさってリングモジュレータのように聞こえているんだと思います。僕の耳だとざらっと触った感触はこんな感じみたいです。 | link | |
| shurabaP | @m_morise この間DPマッチングによる声質変換自体まではざっくり実装してみて結果が面白かったので何かのパラメータに応用できないかなぁ、と。声質変換よりも母音の変化のが精度が高いので何か面白い使い方が無いか考え中です。 | link | |
| m_morise | @shurabaP それは、ちょっと原因が謎ですね。合成の原理から元の音高が残るというのは考えにくいです。速度優先のWORLDですが、もう少しコストを割いて精度あげようかな。非周期性指標は確実に調整します。 | link | |
| m_morise | @shurabaP 同一話者のDPは結構うまくいきますが、他者になった瞬間難易度が跳ね上がります。その辺の補間が出来るようになったらかなり良い研究として成立します。 | link | |
| shurabaP | @m_morise 了解しました。使ってみてまた何かあったら連絡いたします。ここまで速いと実装時の実行時間が大分減らせて作るのが大分楽になりそうなので楽しみです(笑) | link | |
| shurabaP | @m_morise なるほど…やはり同一話者内ではかなり精度が高いんですね。LPC分析から特徴点を持ってきたりするには知識や技術が足りないので、話者変換自体をやろうとするとまだ時間が要りそうです。ただ現状ではDPで同一話者の声質を補間するときそれなりに結果が出ればいいかなぁと。 | link | |
| m_morise | @shurabaP もしSTRAIGHTライブラリと比較して圧倒的に劣化している音があった場合、それが著作権上問題なければ、どこかにアップロードして頂けると助かります。今のままじゃ速度以外は使い物にならなそうなので。。。 | link | |
| m_morise | @shurabaP 同一話者のDPを使うとなると母音を変える場合ですね。同一話者・同一母音で声質を変える条件だと、DPを使わずスペクトルの平均で十分だったりします。 | link | |
| shurabaP | @m_morise 了解しました。いくつか試してみた中で許可が取れるもので著しい劣化があればアップいたします。 | link | |
| shurabaP | @m_morise 基本的にはUTAU用の表情別ライブラリをうまく混ぜるやり方が欲しいのもあるのですが、全ての音源に表情別ライブラリがあるわけではないので組み合わせて使ったら強弱くらいは付くかなぁと淡い期待をしています。いかんせん有用な経時パラメータが少ないので… | link | |
| m_morise | うーん。非周期性指標のフォーマットが安定しないな。F0は単体で使えるからともかく、全体のソースコードのリリースは先送りにしたほうがいいかな。速度優先しすぎたと反省。 | link | |
| m_morise | 現場で使えるようにするというのは大変だなぁ。NTTオープンハウスで音声の残響除去のデモを見たけど、あのくらいやらないと売り物にはならないのだろう。 | link | |
| shurabaP | WORLDで劣化すると思ってSTRAIGHTに叩き込んだらSTRAIGHTの分析のが余計酷かった。録音状況なのかなんなのか。 | link | |
| m_morise | @shurabaP それでちょっと安心です。現状ですと、だみ声、かすれ声はお手上げです。それとWORLDのほうが雑音には弱いです。通常の室内で録音した歌声であれば問題ないはず。 | link | |
| m_morise | @shurabaP それとすでに出遅れていますが、殿堂入りおめでとうございます。 | link | |
| shurabaP | @m_morise STRAIGHTはTEMPOがよくこけるのでそちらの影響のような気もします。長いデータでは基本周波数の推定に失敗してf0=0Hzで無声化されることが多いような。成功区間ではWORLDは今まだリングモジュレータ様のノイズがあるのでちょっと分が悪い気がします。 | link | |
| m_morise | メモ:有声区間は12.5 msec詰める処理を追加。非周期性指標はTANDEM-STRAIGHTの移植も視野にいれる。速度の優位性が一気に失われるので避ける方針には変わり無いが。 | link | |
| shurabaP | @m_morise あの曲のお陰で色々な方たちとの繋がりが増えたので非常に感慨深いです。ありがとうございます。 | link | |
| m_morise | @shurabaP リングモジュレータはバグですね。生じる場所が有声音/無声音の切り替えタイミングに限定されるのであれば原因は分かります。有声音区間だと色々調査が必要です。 | link | |
| m_morise | そうか・・・、入力が女性声で高いほうにシフトしているのであれば、原因が分かったかもしれん。 | link | |
| m_morise | 追加メモ:分析のシフト幅のデフォルト値を5 msecから2 msecに変更。現状だと、F0=200 Hzで知覚される成分が混入する可能性がある。 | link | |
| shurabaP | @m_morise ほぼ前者のように感じます。一瞬だけ変化しているのか、それともずっと鳴っているのかちょっと分かりづらいので、前者だ!とは言いきれないのですが… | link | |
| shurabaP | @m_morise 元の声の人に許可を取れたのでちょっとまとめてアップいたしますね。 | link | |
| m_morise | @shurabaP 切り替え区間が原因とした場合、ちょっと厄介ですね。STRAIGHTでは、強い非周期性成分を含む有声音は無声と判断しF0情報を除去する傾向があります。WORLDは、そこを意図的に残しているので、元のF0がそのまま聞こえるのかもしれません。 | link | |
| m_morise | @shurabaP 有難うございます。本日は就寝しますが、明日以降ちょくちょく試してみます。 | link | |
| shurabaP | @m_morise ダイレクトメッセージにて送信いたしました。お休みなさいませ。 | link | |
| shurabaP | Harvestのメロの半分はララララソラで出来てます。いや、マジで。変形含めたら9割くらい。 | link |