http://www.plurk.com/p/4mx9mg
把寫在plurk上的內容拉過來:
http://av.watch.impress.co.jp/docs/series/dal/20100412_360797.html
第412回:ヤマハのしゃべれる「VOCALOID-flex」とは?
~VOCALOIDの生みの親に聞く、開発の経緯と今後の展開 ~
http://www.youtube.com/watch?v=SaaZ-P5_duk
ヤマチョイ「Y2 SPRING 2010レポート VOCALOID2進化系編」
和ITmedia與ascii不同,ImpressWatch比較沒有那麼「熱衷」XD 不過每次藤本健先生寫得都算蠻深入的….
然後VOCALOID-Flex最讓人驚訝的部份,莫過於「不少企業主動來接觸」這點,而且是業務面的。
比方說在施工現場的時候,明顯的抑揚頓挫、較有感情的發音比較能引發注意的緣故,比傳統的合成語音更有「警告」作用。
這當然有道理但是….居然不是YAMAHA去推銷而是人家主動來講….講白點就是被みっくみく的日本企業比想像中多嗎?!
話說另外一個值得注目的是,和先前比較起來對end user使用上YAMAHA比較鬆口的這點。
不可否認的是VOCALOID-Flex因為太接近引擎底層,所以可能很難出現Cadencii這樣的 GNU自由軟體。
所以kbinani桑先前大嘆:「所以YAMAHA決定遠離我們這些野programmer了」(抖)
由於是授權制,實際上決定的仍然是下游的被授權廠商….
反過來說,看下游被授權廠商(比方說Crypton)的誠意,什麼都可能發生….比方說自由軟體當然還是很難,但是至少付費升級基本上應該不難。
基本上引擎改修應該不大,問題反而在「怎麼保護開放出來的部份」,而這部份其實不是技術面,而是在社會共識面。
就像Crypton過去保護ミク當然是商業考量沒錯,ミク慢慢壯大自然就慢慢開放,因為這個時候開放也無傷大雅;反過來說對artist而言,,就會更想在影響可能很大的時候才去挑戰常規,不然就平凡無奇。
當然這並不是在說只能老套的勸善懲惡,只能說或許事情已經過去,Crypton還是做過那種「保護自家產品商業價值」的自私的事情,這無從否定就是了。
VOCALOID-Flex也因為語音面的表現能力更大,所以侵襲到聲優守備範圍的機會也比過去大。
實話是從editor來看,不利用到wav匯入的話並不會真的比以前方便多少,內建wav匯入和XML匯出(for NetVOCALOID?)則比以前方便許多。
很容易搞錯的是,光是從wav掃出音高音量並不是Vocalistener主要的功能,這部份許多工具都有這個能力(V-Vocal啦、Melodyne啦)
Vocalistener主要的功能還是在「把轉出來的數值照已知的歌唱技巧進行補正」,才再和 VOCALOID唱出來的歌聲作交叉比對,一點一點地把VOCALOID的歌聲「調教」成「想要的歌聲」這點。
如果只是發話的話,不需要經過補正(總不會想把台灣話給補成北京腔www) 但是需要比較高精確度的調整與掃描。
此外,在editor上面搭配現有的TTS技術,相信VOCALOID-Flex照樣可以念長文,只是不會像目前正統的TTS一樣那麼自然。(不過那也是特色就是嘍)