音声分析合成システム「WORLD」 test用程式

http://www.aspl.is.ritsumei.ac.jp/morise/world/

音声分析合成システム「WORLD」

基本周波数推定法「DIO: Distributed Inline-filter Operation」

スペクトル包絡推定法「STAR」

具体的内容は秘密「PLATINUM Act1, Act2」(今後大幅に仕様変更する可能性あり)

テスト用プログラムの配布を開始.(2010年6月5日)

—-

m_morise 暫定的にWORLDの実行ファイルを配布開始.分析・合成にかかる時間と品質の調査用です.また,まともな音が出ない音声や不正処理で落ちる状況になった場合教えてもらえると嬉しいです. link
m_morise 注意事項.(1) 動作にはFFTWのdllが必須です. (2) 音声は出来るだけ高音質なものを使ってください.F0推定法DIOは,耐雑音性が皆無です.(3) F0の高い女性の声は多分品質が残念です.使い方は,readme.txtに書いています. link
m_morise WORLDのテスト版は配布できたし,査読でも片付けるかな. link
shurabaP あれ、WORLDのテストプログラムが動かない…FFTWのDLLだけだと何か足りないのかな。 link
m_morise @shurabaP あら,エラーメッセージを教えてもらえませんか?実験用PCが今2台しかないので,OSのバージョンなどで不備が出ているかもしれないです. link
m_morise @shurabaP それと.wavのロードは自作関数なので,拡張waveだった場合ロードで失敗するかもしれません. link
shurabaP @m_morise エラーメッセージも出ていないです。OSはWindowsXP Professional SP2 です。FFTWは3.2.1のDLLをWORLDのディレクトリにコピーしました。 link
shurabaP @m_morise 了解しました。ヘッダ調べてみます。 link
m_morise @shurabaP エラーが出ていないということは,ファイル名指定でミスった可能性が大です.コンパイルはWindowsVista64bitですが,WindowsXP Professional SP2 (32bit)でも動作確認できました. link
m_morise WORLDのトップにあるオリジナルの音声で動作できることは確認済みです.waveのヘッダが怪しい場合,その音声を使ってみてください. link
m_morise @shurabaP 参考ですが,37~40 byteのデータが’d’ ‘a’ ‘t’ ‘a’であれば問題なくロードできるはずです.何もおきずに終了する条件は,引数が2, 3個以外であることと,指定したファイルが存在しない場合の2パターンなはずです. link
shurabaP @m_morise あら…ファイルは存在するのですが、何も起きずに終了しているようです。何か他に足りていないのかしら… link
m_morise @shurabaP 起動しているということは,dllやOSの問題は大丈夫そうです.例えば,ファイル名がtest.wavの場合

> test.exe test.wav

です.これでも何もおきない場合ちょっと調査が必要ですね.
link
m_morise エラーメッセージ表示版でも作るかな~.10分ほどお待ちを. link
shurabaP @m_morise エラーも特に何も無く[test.exe test.wav]の形で何も起こらず終了してしまいます。テスト用のwaveファイルも拡張フォーマットではないです。 link
m_morise @shurabaP エラーメッセージ表示版をアップロードしました.Webを再読み込みしてからダウンロードしてください.お手数おかけして申し訳ないです. link
shurabaP @m_morise すばやい対応ありがとうございます。”指定されたファイルが存在しません。”となっているのでファイルが開けていないみたいですね;; 引数を直に指定しても、D&Dでもファイルが存在しませんのエラーが出ます。 link
m_morise Webのoriginal.wavで分析合成したら品質が残念すぎることに気がついた.非周期性指標推定をやっぱり再度調整しよう. link
m_morise @shurabaP OKです.もう少し詳細なエラーメッセージが出るようにします. link
shurabaP 久々にDOS窓立ち上げたらlsって打ち込んでやんの…orz link
m_morise @shurabaP 修正完了です.Waveファイルのロードミス時に生じたエラーを表示するようにしました. link
m_morise これにて帰宅するので,次の修正は明日の夜になります.それにしてもoriginal.wavの分析合成音の品質が酷すぎる. link
shurabaP @m_morise ステレオ非対応だったんですね!モノラルに変更しましたら動作確認できました。 link
m_morise @shurabaP あ~,それすっかり忘れていました(笑)注意書きが必要ですね.品質はともかく速度面は大きく改善されていると思います.関数はdouble配列を引数にするので,ステレオでもモノラルでも対応できます. link
shurabaP @m_morise 音質の劣化自体もですが、破裂音など子音の前後でクリックノイズは結構乗ってしまいますね。音が速く変わると少し弱いような印象をうけました。 link
m_morise これにて帰宅.非周期性指標は光明が見えたと思ったけど,もう一回考え直します. link
shurabaP @m_morise お疲れ様です。音程の変化等も試してみます。 link
shurabaP ていうか分析めさめさ速いwwww link
shurabaP 次の版のv.Connectは多分周波数軸伸縮関数を備えると思うんだけど、これって何に使えるんだろ?DPマッチングってつめていくと局所最適になりそうなんだよなぁ。 link
m_morise @shurabaP 子音前後ということは無声音を有声と誤識別していると思われます。今の判定はかなり甘めなので調整すれば直るはず。 link
shurabaP @m_morise 後は、音程を変更した際に若干リングモジュレータ的に元の音程が聞こえるのが少し気になる感じですね。しかし分析滅茶苦茶速いですね、びっくりしました。。 link
m_morise @shurabaP リングモジュレータのノイズというのはこれまで確認されていない現象です。が、何となくそのバグの原因は予想がつきます。。。多分凡ミスです。 link
m_morise @shurabaP ちなみに周波数伸縮ですが、線形伸縮の場合、大雑把に体格が変わったような声質変化になります。例えば半分に縮めた場合フォルマントが半分になるので、背の高い男性的な声になります。 link
shurabaP @m_morise 音程を変化させて再合成時に一部分で加工元の音声が聞こえているのが、ノイズリダクション様のノイズと合わさってリングモジュレータのように聞こえているんだと思います。僕の耳だとざらっと触った感触はこんな感じみたいです。 link
shurabaP @m_morise この間DPマッチングによる声質変換自体まではざっくり実装してみて結果が面白かったので何かのパラメータに応用できないかなぁ、と。声質変換よりも母音の変化のが精度が高いので何か面白い使い方が無いか考え中です。 link
m_morise @shurabaP それは、ちょっと原因が謎ですね。合成の原理から元の音高が残るというのは考えにくいです。速度優先のWORLDですが、もう少しコストを割いて精度あげようかな。非周期性指標は確実に調整します。 link
m_morise @shurabaP 同一話者のDPは結構うまくいきますが、他者になった瞬間難易度が跳ね上がります。その辺の補間が出来るようになったらかなり良い研究として成立します。 link
shurabaP @m_morise 了解しました。使ってみてまた何かあったら連絡いたします。ここまで速いと実装時の実行時間が大分減らせて作るのが大分楽になりそうなので楽しみです(笑) link
shurabaP @m_morise なるほど…やはり同一話者内ではかなり精度が高いんですね。LPC分析から特徴点を持ってきたりするには知識や技術が足りないので、話者変換自体をやろうとするとまだ時間が要りそうです。ただ現状ではDPで同一話者の声質を補間するときそれなりに結果が出ればいいかなぁと。 link
m_morise @shurabaP もしSTRAIGHTライブラリと比較して圧倒的に劣化している音があった場合、それが著作権上問題なければ、どこかにアップロードして頂けると助かります。今のままじゃ速度以外は使い物にならなそうなので。。。 link
m_morise @shurabaP 同一話者のDPを使うとなると母音を変える場合ですね。同一話者・同一母音で声質を変える条件だと、DPを使わずスペクトルの平均で十分だったりします。 link
shurabaP @m_morise 了解しました。いくつか試してみた中で許可が取れるもので著しい劣化があればアップいたします。 link
shurabaP @m_morise 基本的にはUTAU用の表情別ライブラリをうまく混ぜるやり方が欲しいのもあるのですが、全ての音源に表情別ライブラリがあるわけではないので組み合わせて使ったら強弱くらいは付くかなぁと淡い期待をしています。いかんせん有用な経時パラメータが少ないので… link
m_morise うーん。非周期性指標のフォーマットが安定しないな。F0は単体で使えるからともかく、全体のソースコードのリリースは先送りにしたほうがいいかな。速度優先しすぎたと反省。 link
m_morise 現場で使えるようにするというのは大変だなぁ。NTTオープンハウスで音声の残響除去のデモを見たけど、あのくらいやらないと売り物にはならないのだろう。 link
shurabaP WORLDで劣化すると思ってSTRAIGHTに叩き込んだらSTRAIGHTの分析のが余計酷かった。録音状況なのかなんなのか。 link
m_morise @shurabaP それでちょっと安心です。現状ですと、だみ声、かすれ声はお手上げです。それとWORLDのほうが雑音には弱いです。通常の室内で録音した歌声であれば問題ないはず。 link
m_morise @shurabaP それとすでに出遅れていますが、殿堂入りおめでとうございます。 link
shurabaP @m_morise STRAIGHTはTEMPOがよくこけるのでそちらの影響のような気もします。長いデータでは基本周波数の推定に失敗してf0=0Hzで無声化されることが多いような。成功区間ではWORLDは今まだリングモジュレータ様のノイズがあるのでちょっと分が悪い気がします。 link
m_morise メモ:有声区間は12.5 msec詰める処理を追加。非周期性指標はTANDEM-STRAIGHTの移植も視野にいれる。速度の優位性が一気に失われるので避ける方針には変わり無いが。 link
shurabaP @m_morise あの曲のお陰で色々な方たちとの繋がりが増えたので非常に感慨深いです。ありがとうございます。 link
m_morise @shurabaP リングモジュレータはバグですね。生じる場所が有声音/無声音の切り替えタイミングに限定されるのであれば原因は分かります。有声音区間だと色々調査が必要です。 link
m_morise そうか・・・、入力が女性声で高いほうにシフトしているのであれば、原因が分かったかもしれん。 link
m_morise 追加メモ:分析のシフト幅のデフォルト値を5 msecから2 msecに変更。現状だと、F0=200 Hzで知覚される成分が混入する可能性がある。 link
shurabaP @m_morise ほぼ前者のように感じます。一瞬だけ変化しているのか、それともずっと鳴っているのかちょっと分かりづらいので、前者だ!とは言いきれないのですが… link
shurabaP @m_morise 元の声の人に許可を取れたのでちょっとまとめてアップいたしますね。 link
m_morise @shurabaP 切り替え区間が原因とした場合、ちょっと厄介ですね。STRAIGHTでは、強い非周期性成分を含む有声音は無声と判断しF0情報を除去する傾向があります。WORLDは、そこを意図的に残しているので、元のF0がそのまま聞こえるのかもしれません。 link
m_morise @shurabaP 有難うございます。本日は就寝しますが、明日以降ちょくちょく試してみます。 link
shurabaP @m_morise ダイレクトメッセージにて送信いたしました。お休みなさいませ。 link
shurabaP Harvestのメロの半分はララララソラで出来てます。いや、マジで。変形含めたら9割くらい。 link

Google TV

三月底的時候流出的Google TV消息,本田雅一寫了這樣一篇評論。

http://av.watch.impress.co.jp/docs/series/avt/20100319_355783.html

ソニー+インテル+グーグル = ?

-Google TV報道から考えるソニーのテレビの今後

從這篇內容來看,其實硬體本身不是問題,占滿整個螢幕的電視本身就是個自我主張很大的媒體,看電視就沒辦法看別的、玩遊戲,一定要二擇一。nico的彈幕歐美的觀眾無法接受的話,twitter又怎麼能接受呢?

不過,實際上公開的Google TV似乎還是youtube main:

http://www.google.com/tv/

http://android.sonydeveloper.com/

http://japan.cnet.com/news/media/story/0,2000056023,20413776,00.htm

グーグル、「Google TV」プラットフォームを発表–テレビとウェブを融合

結果現有的電視和網路還是沒辦法結合嘍….?

不過它應該還是可以處理錄影之類的東西,然後包含搜尋local recorded之類的東西….

Torne, AVC 3倍模式支援

http://av.watch.impress.co.jp/docs/news/20100519_367998.html

PS3用地デジチューナ「torne」がAVC 3倍録画に対応

-Ver.2.00を6月公開。追いかけ再生にも対応

會不會太強大….

http://internet.watch.impress.co.jp/docs/news/20100520_368218.html

Googleがフリー動画フォーマット「WebM」を公開、MozillaやAdobeも支持

http://www.dspdesignline.com/showArticle.jhtml?articleID=214303691

The VP8 video codec: High compression+low complexity

http://vocaloid.blog120.fc2.com/blog-entry-5852.html

「Project DIVA Arcade-Original Song Collection」の収録曲が公開

http://internet.watch.impress.co.jp/docs/news/20100519_367945.html

児童ポルノのブロッキング、総務省が容認、「民間主導」で今年度中に開始へ

原來nico黑字化了

真不簡單….

http://blog.nicovideo.jp/niconews/2010/05/007484.html
ニコニコ動画が黒字化しました

http://blog.nicovideo.jp/niconews/2010/05/007519.html
【追記】iPhoneで生放送視聴&配信できます!

http://blog.nicovideo.jp/niconews/2010/05/007556.html
App store1位に!ニコニコ生放送iPhoneアプリ

然後「EXIT TUNES PRESENTS Vocalogenesis feat. 初音ミク」 オリコンディリー1位おめ!!

http://www.nicovideo.jp/watch/sm10765821
初音ミク巡音ルカオリジナル曲 「Genesis」

http://ext.nicovideo.jp/thumb/sm10765821

Crypton的多重配信系統「RouteR」

http://www.itmedia.co.jp/news/articles/1005/13/news063.html

自作曲をiTunes Storeなど複数サイトで配信できる「RouteR」、クリプトンが開始

http://twitpic.com/1n5gfd

思わずレシート二度見した

http://ascii.jp/elem/000/000/518/518284/

佐々木渉×浅井真紀 ロングインタビュー

初音ミク Appendに託された「ものづくりの心」

http://www.itmedia.co.jp/news/articles/1003/29/news045.html

ソフトバンクがUstream専用スタジオ 利用は無料

—–

http://eveningcall.blog6.fc2.com/blog-entry-6.html

ツインテールの歌姫抱き枕カバー店頭予約受付開始!

「実時間歌唱力補正のデモ」

http://www.aspl.is.ritsumei.ac.jp/morise/world/

音声分析合成システム「WORLD」

追加:即時歌唱能力補正demo

http://www.youtube.com/watch?v=GtzeDAJQ-oU

「実時間歌唱力補正のデモ」

超猛的啦XD

這好像還沒用到STAR和WORLD,用的還是TANDEM-STRAIGHT…..

嘿,STAR分析速度快很多耶。

以twitter上森勢老師的發言來看,WORLD應該是以自由使用為前提進行的。

接下來就是更可怕的進化嘍?

NEC的超高速動畫比對

http://ameblo.jp/ohkoshi/entry-10528174916.html

【東京都の青少年育成条例】「非実在青少年」の境界線を質問してみました。

東京都對SF還真沒辦法XD

—–

http://ameblo.jp/kenokun/entry-10521672550.html

田中公平のブログ My Quest for Beauty: どの世界も厳しい

—–

http://www.nec.co.jp/press/ja/1005/0701.html

NEC 瞬時に違法コピー動画を発見できる映像識別技術を開発

用亮度分布來做特徵辨識的關係,結果只要有個兩秒(60frame前後),重壓、類比擷取、上字幕通通認得出來。

而且每個frame只做了76byte的資料量,所以比對超高速(P4 3GHz 一秒比對1000小時)、

正確率96%、誤判率5ppm等等,目前為MPEG-7的 Video signature Tools規格。

5/12~14在東京embedded system技術展展出。

—-

http://togetter.com/li/18895

エロゲの違法コピーにまつわる話

http://togetter.com/li/19470

エロゲはオンゲーに出来るか?

現在只剩下黑歷史….