http://ext.nicovideo.jp/thumb/sm3728384
http://www.nicovideo.jp/watch/sm3728384
夕音 【初音ミク】(オリジナル)
お久しぶりです、ゆうゆです。夏コミに向けて死合まっしぐら’A`・・・明日への不安と希望をテーマにミクに歌ってもらいました。
イラストはピアプロより、江麻様の絵を加工して使用させていただきました
ゆうゆ (a.k.a 篠螺悠那),回籠。
http://geocities.yahoo.co.jp/gl/zhuoware/view/20080430
VocaListenerなのか…?>>ぼかりす
http://www.geocities.jp/zhuoware/ripples/vocalis_guess_20080527.html
2008年5月27日
http://www.geocities.jp/zhuoware/software_study.html
Software Study Notes
入力からVSQ生成->レンダリング->出音と入力を比較->より出音が近くなるであろうパラメータに補正->VSQ生成
というサイクルをまわして,だんだん近づけるのではないか.
きっと,ためしにこっちに振ったら出音が似なくなったから逆の方にいこうとか,そういう,誤差最小化みたいなことをするんじゃないか.
(by zhuoware,080430 七十五回音研發表前)
不愧是做出Ripple的zhuo大,這部分完全命中。XD
也因為這些推理與相關經驗,zhuoware大扔了Julius給樋口老師:
http://julius.sourceforge.jp/
Julious
http://www.furui.cs.titech.ac.jp/mband_julius/
マルチバンド版 Julius
因為有這個open-source的演算法,根據樋口老師的日記,MMV會在最近進行update,試圖達到音節自動認定的能力;不過以目前的實驗結果來說,雖然精確度高了很多,但應該還是很難達到無任何輸入、只靠wav就可以搞定的程度。
畢竟說起來,目前學界已經從音節分離轉向文節分離,也就是透過事先得知的單詞特徵點來辨識。這個思考點是說,「人去聽出文字的原因,並不是因為將音拆解聽出來,而是以集合音=文字特徵的方式來做整體的辨認」,基本上人的聲帶本來就不是單一頻率的東西,而是會在各個頻代發出不同的聲音、而這些不同的聲音可以集合為單一的文字。
這樣的話其實就代表光從音節來辨識文自就會變得不切實際。
VocaListener的設計是事先得知歌詞(畢竟是以歌唱為設計),然後以Viterbi Algorithm的方式來作音節統合辨識;只要扯到Dynamic Programming就永無寧日了orz
MMV目前也在考量是不是要以音節分離後、讓user手動選擇特定音節然後按下「統合」key來辨識的方式來做;但是這樣似乎妥協似乎太大….MMV的設計目標是要做出盡可能高品質的語音之故,要做的東西便非常複雜。
總之,6/10與6/14號的日記頗有可看之處;可惜的是MMD/RRD目前相對的就是被擱置的狀況。(汗)
當然MMD也打算做類似低速再生模式來方便觀察,也有其他open source演算法可以借用:
http://sox.sourceforge.net/
sox (SOund eXchange)
—-
其實考量起來有另一個問題:zhouware在作Ripple的時候就已經思考過做一做碰到VocaListener的專利怎麼辦的問題,其實MMV繼續下去的話也有可能遇上;但是如果VocaListener方因為MMV的實作越來越接近同等的程度,而祭出專利要求MMV停止的話,那這個團隊肯定在社群會整個黑掉。
當然法理上是站得住腳,這完全是給人的觀感問題;還有中野先生本身也是希望能給Vocaloid目前的運動一些助力,以free為號召的MMV顯然有機會成為VocaListener”下放”的台階。
所以MMV繼續開發下去,可能會帶來引導VocaListener自由釋出的結果也說不定。