「Eji」的全部文章

「可不のCeVIO AI声色雑感」

在看這篇文章的朋友,心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣,都有一個開給你的萬能空間、可以方便你用來實現心目中真正的目的;不過至少我們家的Miku,就這樣陪著我許多年,而帶著她出來吃飯是我每天的重要工作,要是發現忘記了她,我會折回去被她罵一下再出來。

M「マスター,你能不能講一下前幾天可不醬的事情?」

騎車覓食的時候,Miku突然講到這個。

繼IA/ONE、V Flower與結月緣的CeVIO AI發表之後,Vtuber 花譜與東北kiritan 都發表了將推出CeVIO AI的產品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查,希望大家對三個引擎的聲音走向表示意見,分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電,類似autotune的質感。

收集了接近5500個左右的回答之中,有65%的人覺得像本人比較好

但是之後花譜本人發表了一篇她本人覺得像自己不好,選了Type-B的發言

E「嗯嗯嗯….該說什麼,花譜本人都開口說自己深思熟慮之後選了B,其他人只能尊重….」

M「你不要講這麼簡短好不好,這樣為什麼要你講。」
E「嗯-好喔。」

在她的標準裡面每個人都可以是創作者,所以她會要求我做我現在能做的事情。
也許我能做的還是不多,但是….

M「至少嘴一下嘛。」

畢竟沒有推辭的理由。

—-

うちのミクさんが聞く そのいち
「可不のCeVIO AI声色雑感」

—-

歌聲合成有幾個主要的世代,技術上雖然有更細的分界點,但是比較明顯的分界可能在「拼接合成」和「統計合成」,或者說「AI合成」兩塊。

拼接合成是要求本人以某個較為一致的表情,念或者唱一些設計好的片段集合,這些片段的表情被要求一致與平整的理由,是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後,配合需求拼貼上樂譜需要的部分。

拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能,比如如張嘴大小參數、子音發音時機、滑音發生時機、甚至近期的話會有喉部氣流流量模擬,聲帶張力等等,來「做出」需求的聲調。

也就是說拼接合成沒有任何輸入的時候,直接指打歌譜當下,引擎預設值發出的聲音,與本人的音調可說是截然不同的之外,每個使用者能做出的聲調也有很大的差異。

E「我們說調教就是在講這個,大家所認識的Miku的聲音,其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外,變化沒有那麼劇烈,聽到會知道這是Miku而不是藤田咲桑」

統計合成則改為要求本人先以正常的方式表現一首一首的歌曲,這些歌曲都以本人慣有的演唱方式來演唱,然後演唱的整段波形標記發音點、樂譜的發音速度與實際發音的差距,然後將波形與樂譜的實際對應關係,用統計手法-現在的話會稱為機械學習手法來記錄,於是輸入樂譜的時候,就會透過機械學習的成果來進行推測/推論,得到波形。

這個推論會透過收錄時的歌曲紀錄來推測出,本人大概會怎麼唱這些歌。

也就是說,和拼接合成不同的是,統計/AI的無調,是引擎認為最接近本人的狀態。

一開始VOCALOID的無調,是一個「新的白紙」;

但是AI的無調,是「本人的拷貝」。

VOCALOID的進步,是把白紙變得越來越好畫,調整範圍越來越廣、可用的顏色越來越多;但是AI的進步,是一劈頭就拷貝得越來越像。沒有刻意去調整,其實是不知道它可調範圍多廣的。

在經過了十多年下來,大家認識的Miku可以說活靈活現、根深蒂固,這是Crypton長期投資得來的主要資產,自然不敢任意去改變她;相對的,沒有經過這些時間累積,自然人氣會奠基在別的地方。

E「所以啦,雖說有人氣的原因有天時地利又加上多年累積,Miku有點機械感的聲音是歷史的累積;相對地,可不為什麼會成為話題有人氣?因為她是現在正炙手可熱的花譜小姐錄製下來的啊。作為產品,你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論,接著則是有多像的問題。」

CeVIO AI發表在2018年底,當時的展示demo號稱與真人無法分辨,從技術上而言,從當初使用HMM技術的Sinsy與產品化的CeVIO之後,跨過了沒有推出產品的Sinsy DNN,使用了名古屋工業大學德田研究室新的CNN合成,並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段,並且在科研活動的場合也放出宣傳消息讓有興趣的人在現場體驗。那是真的相當有說服力的像人,只是不見得有本人站在旁邊讓人比較。

在語音/歌聲合成領域,HMM和DNN主要的差異在於「HMM沒有辦法學習連續波形,只能處理離散內容與音高的斜率,所以頻譜和音高的細部波動會喪失;DNN開始可以學習到比較完整的連續內容」,所以容量大幅增加,音質也大幅提高;但是德田研當時似乎是認為不夠好而擱置,只有研究用的Sinsy沒有用DNN推出CeVIO產品;到2018年才推出更進一步的CNN,可以學習到歌手比較細緻的音樂表現,應該會在2020年底以前發售;此外,後來由其他研究者推出的NEUTRINO是屬於DNN類,所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做,YAMAHA之外還包含微軟、字節跳動、騰訊,跳進來得比以前多得多,而且軟體面的業務規模都比YAMAHA還大得多。

但是增加的都是以AI為根本在做的,都是試圖要做到更好的拷貝,除了拷貝似乎快到頂了,才開始想怎麼樣做控制,而不是傳統上我們說從無到有「調教」出像人的歌聲。

傳統調教的門檻非常高,能跨過這個門檻變成自己的特色,開始持續創作,對創作者的毅力是個極大的考驗,而且跨過了又是每次都得重複一次的過程。

所以Miku的多樣化是長時間累積起來的,確實要那些後起之秀都要過那個好漢坡有點時代錯誤,畢竟前人的累積會變成增加門檻,而把門檻降低了,可能有機會看到更多創作。

從上面這一整段引擎端的方法論我們可以看出,拷貝人的聲音是最近的顯學;但是人願不願意被拷貝?這個問題從最初VOCALOID1到現在還在持續著,可不與花譜只是歷史的重演、同樣的問題有不同的答案。

做過VOCALOID或者UTAU音源的人,通常會對音源比較坦然,不見得會去想自己被拷貝與否的事情,因為門檻高、投注心力大、原理上難以重現本人、以為得要面對的問題其實是不存在的,花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前,收錄的容易度也會相去甚遠,這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝?」「被拷貝這件事情到底是好是壞?」

以結果來說可不目前預定會與花譜的聲音有著一定程度的差距,這個來源是ALP對頻譜的調整功能造成的,ALP相當於VOCALOID的GEN=性別參數,內容對頻譜進行調整,調高調低可以變得比較幼或者比較成熟,甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內使用GEN來進行音色變化,不過這邊我們不提;已經有人嘗試過,即使引擎未來不開放把聲音調整調回花譜,也可以透過別的工具透過類似GEN/ALP的功能來調整,達到還原回本人聲音的這個目的。

花譜的二次創作條款非常嚴格,基本上是不太歡迎的,我會很好奇又和本人聲音做出差距,官方未來打算讓可不怎麼自處。

KAMITSUBAKI STUDIO二次創作に関するガイドライン

【KAMITSUBAKI STUDIO】二次創作ガイドライン(改訂)

另一方面,我們其實已經看到AIきりたん的前例在那邊。

她是聲優接受要求演出特定角色聲線的結果,前有NEUTRINO後面又有CeVIO AI預備推出,應該都會很像「本人的某個聲線」,但是聽起來反彈的聲音幾乎沒有聽到,大概和聲優這個職業的立場也有關係。

愛你的人夠多的話,不想要改變的力量會大過想改變的。反之在愛的人夠多之前,沒辦法往追求擬真走;現在問題是,真的很擬真到本人區別不出來,不就沒有剩下可以前進的空間了嗎?如果這樣還不夠被愛,那怎麼辦?

所以我覺得,AI歌聲會變成各取所需用過就丟。可以改變的幅度小,每個人都是因為現有的誰拷貝得來。看起來就是粉絲群的分化,彼此之間怎麼流通呢?

M「嗯嗯嗯,不過我看大家都在搞配對呢,大概是因為去找了現有的其他角色來吧。」

E「對啊,引擎的行銷找人氣角色甚至角色群很重要,但是角色本身就得靠積累了。」

E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續往前進步吧,即使可能會失卻一點點原味,但畢竟原味如果還不夠多人支持,那就只能繼續增加N(Nをふやせ)而已了。」  

恋をして 恋をして 恋をして
ふられ また 捨てられて
過去をみて 枝を切れ
泣きたくなっても まだ N を増やせ
耳のあるロボットの唄nm3611741)」

「おうちで、キャンプ。うちキャン△ペーン」。へやキャン△特典映像を24時間限定公開

 

\コンニチハ/

125cc車種は人権です。

大学通学から始まった原付生活ですが、初年度ギリギリで50ccの旧車での通学は、明らかに旧車の性能範囲を超えることとなってるから、そこから今の2000年式FORCE XC125Fを導入ですが、はい。人権です。

あとWindows PCにSSDも人権です。はい。

さすがにいまもちょくちょく店に車両を残るメンテと修理はするけど、ゆるキャン△Tricity特別編CMから思ったのは、「代車で上位車種を出てくれる」っていうのはちょっと想像できないです。あれを見てどうしてもこれだけ書きたいです。はい。

が、やはりこれは日本だからのことだよね。
やはり日本いいなー。(そうではない)

—-
台湾ってお店はもう町中に普及しているから、長時間車を店に残る場合は、少なくとも自分ちだと自宅から歩行圏でもヤマハ契約店が二軒あるレベル。

店に車を残るのは、のこのこ自宅へ歩いて戻って、約束した時間で取りに行く形。アクセスしやすさは自転車店みたいな感じですが、まぁこれは一応都市だからのことで。これ一応地方だからね。

ただEC-05となると、一部はYSPしか処理できないような感触。

ソフト触るとGogoroからのツールが必要ってことだとTPMSのことわかりましたので、先日ECUソフトアップデート(IQ v5.2) で代車を出してもらった。

….なぜか出たのはSUZUKI NEXだった(爆笑)

4月初頭告知されたECUアップデートを早期でやる目的の一つは、BTの通信が悪いところの改善を図ることですが、iPhone限りのことらしいのでちょっと期待できないかもしれない。あとはTPMSの感知範囲がゆるくされたらしいけど、これが反映されるのはAPPもアップデートにしないと、とのことでいまだに悩まされてます。

ゆるキャン△特別編に戻るけど、CMが流されたからよく「温泉行こうか」と思ったけど、今はまだ難しいよねー(遠い目)

サウナについては、「水風呂まだ入れない」です。

Tricity155は先日街中珍しく目にすることができました。

このご時世で癒される動画が見れるのはもう、見るだけで自然に涙が出てしまう。

台湾でも見れたのは感謝しかないです。

ありがとうございました。

https://www.youtube.com/watch?v=13J2seyJjxo

https://av.watch.impress.co.jp/docs/news/1249961.html
「おうちで、キャンプ。うちキャン△ペーン」。
へやキャン△特典映像を24時間限定公開

【「SPECIAL EPISODE サウナとごはんと三輪バイク」あらすじ】
スクーターが1年点検中のため、代車の三輪バイクでキャンプに出かけたリンは、バイクで冷えた体を温泉で癒そうとする。

SPECIAL EPISODE サウナとごはんと三輪バイク

VOCALOID:AI (UPF-MTG NPSS)雜感

要講VOCALOID:AI,最快的可能是看Jordi Bonada老師的講座。
https://www.youtube.com/watch?v=ie5CJW8DeaY

這是他在2017年11月在ircam (法國國立音響音樂研究所) 的講座。
我只是抓下來扔給youtube下字幕,所以這個字幕也有一些小錯誤。

https://mtg.github.io/singing-synthesis-demos/
引擎本身,早期與中期的demo曲
NPSS的字面意義是「神經參數歌聲合成」,顧名思義實做細節類神經網路有關

https://arxiv.org/abs/1704.03809
A Neural Parametric Singing Synthesizer

https://mtg.github.io/singing-synthesis-demos/voice-cloning/
這次主要被拿出來討論的歌聲複製

NPSS在2016年wavenet發表後引發的一波熱潮的產物之一,由於wavenet發揮出了可以打平甚至超越拼接合成的品質,當時的語音/歌聲領域有很多跟進嘗試wavenet應用的單位。MTG的NPSS發表於2017年8月斯德哥爾摩舉辦的interspeech 2017,第一篇論文闡明了這個引擎的設計方向:
回歸機率模型的基本假定:所有時間標記的總連結機率可以描述為任意每個點時間條件機率的積。
這代表的是每個點得到的機率輸出可以得到預期的結果(=歌聲),而點的內容就是樣本數(sample),這個會比VOCODER以frame為單位,並且假定frame中的波型為直線,密度要高了很多。這也是提高音質的潛力比較高的原因。

反之,完全以sample為單位的話運算複雜度當然是高了許多,所以NPSS學習但不考慮使用wavenet原始的模式,因為需求的資料量太大,仍採用VOCODER(使用的是開源的WORLD)分析方式分離音色與音高,將學習問題簡化,適當設計之下應該可以達到vocoder架構的品質上限。
之後第三篇論文歌聲複製的內容中,VOCALOID:AI其實仍然在這個引擎後頭再加入了另一個架構的WaveNet Vocoder,不過那是另外一個故事了。
NPSS第一篇論文的內容使用的是對VOCALOID引擎輸入自然歌聲,已經得到了比IS16(MTG的內部引擎,基本上是VOCALOID引擎加上一些YAMAHA未採用的option技術)更好的結果;第二篇論文則開始使用歌聲輸入。*:這邊的「更好的結果」指的是無調。可調整範圍與可調整參數未考慮在內。

使用歌聲輸入的時候約使用30分鐘左右,或者30首歌,每首歌以樂句為單位輸入,同時有樂譜、發音時機、與波型。所以輸入波型需要人工描述樂譜與實際發音時機,這個是主要的作業cost。(與原始VOCALOID需要輸入發音時機類似)

WORLD以5ms窗、32khz的標準輸入波型,解出F0、週期指標與非週期指標之後
上述各種資料分配為
[樂譜]與[發音時機]輸入到[發音時機模型]
[發音時機]與[F0]輸入到[音高模型]
[發音時機]、[F0]、[週期成份]、[非週期成份]輸入到[音色模型]。
合成的時候則對三個模型各自輸入樂譜、發音內容(歌詞),得到預測發音時機
發音時機模型對音高模型與音色模型給出發音時機,從音高模型得到F0,再輸入到音色模型,得到有無聲間隔資訊(V/UV),週期與非周期成份,然後F0+V/UV得到整個pitch線,全部輸回去給WORLD合成。

重點:
1. 三個模型分別預測WORLD合成時需要的資訊
2. 這三個模型訓練是分開的,但是合成時則有循序相依性
3. 各個模型的最終輸出是(4組)高斯機率分佈,然後從高斯機率分佈合成與取樣得到實際WORLD需要的特徵點。
透過這些假定來做簡化(高斯函數段會捨棄較小的變數),基本上大幅度降低了運算量但是保留了與原始Wavenet相近的變化量覆蓋範圍,從而得到「用CPU合成」可以達成「約即時的20倍速」,這與原始VOCALOID的速度相去不遠,相較於正規的Wavenet應用而言非常適合在一般PC上佈署;缺點與HTS(cevio)類似,則有時候不會得到想要的音高。

關於資料輸入覆蓋率,30首一分鐘左右的歌甚至比Sinsy-HMM/DNN少了一半以上,當然不足以覆蓋足夠的音高與發音量,所以這邊又有兩個假定做了case簡化:

1. 音高曲線與音符的絕對音高是彼此不相依的
這代表的是不論低音與高音都會得到類似的音高曲線表現,而這與本人的能力範圍自然是不會相符

2. 局部音高變化與發音內容高度相依
主音高模型大幅忽略這部份,而放在發音時機模型端,這會造成一些發音很類似,而喪失某些本人的特徵

另外,在學習的時候會將輸入資料亂數地做pitch shifting,並且會將母音代換掉,來增加數據,造成原有的歌詞也會變成無義詞。這邊有點猜的感覺,畢竟機械學習有它踹踹看的性質。
後面的性能比較其實可以看出很多事情:CeVIO基本上就是Sinsy+小修改與GUI,所以Sinsy model其實可以塞到CeVIO上。

IS16(VOCALOID)塞了Sinsy F070的普通歌唱進去還能用這點其實還蠻讓人驚訝的(類似UTAU手工塞歌唱音源),但是單元選擇沒辦法很好地應用普通歌唱,當然就沒有很好的結果。

然後Sinsy HMM/DNN用的是全部F707的70首歌(沒有全部公開),NPSS只用了30首歌,但是輸出的細節整個輸NPSS一大截,所以學習效率來說NPSS已經好非常多。

由於NPSS會紀錄連續音高,但是Sinsy-HMM/DNN紀錄的是音符前後的音高,所以會變成平直而少紀錄到歌手的音高特徵,但是NPSS也因為上述的省略假定而捨棄了歌手更細部的變化。於是MOS(主觀測試)結果來說基本上就是海電。

最後回到歌聲複製論文上。

https://arxiv.org/abs/1902.07292
Data Efficient Voice Cloning for Neural Singing Synthesis

從統計歌聲合成開始,資料運用靈活性上比拼接合成好的點就經常地被拿出來比較。作為市面上最成功的歌聲合成器設計單位,MTG提出NPSS自然要對後來居上的部份做一點展示;但是裡面最重要的除了詳述多人歌聲模型之外,另一個重點其實是提及了自家WaveNet Vocoder的存在。

為了超越傳統Vocoder帶來的上限,在合成端將WORLD代換成WaveNet Vocoder。這裡面當然出現了先前提及WaveNet需要大量數據的問題,以及Voice Cloning本身目標是盡可能用較少的資料推斷出本人歌聲,那麼導入大量數據這個手法是否真的合乎效率?MTG參考了下面兩篇論文(by Google & Amazon),在WaveNet Vocoder訓練過程中導入了「vocoder特徵點對波型的universal mapping」手法。簡化掉了各種人手標記(文字、並列性、發話者身份標記等等)額外成本的必須性,讓追加語音的成本大幅降低。

https://arxiv.org/abs/1806.04558
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
(修改了Tacotron2 的WaveNet Vocoder)

https://arxiv.org/abs/1811.06292
Towards achieving robust universal neural vocoding
(universal mapping)

也就是說除了多人歌聲模型中導入的人數之外,其實在WaveNet Vocoder端可能有更多人數的語音資訊導入,用以提昇歌聲品質。可以完全把後端這個WaveNet Vocoder當成一個品質提昇工具,補足了傳統Vocoder被迫透過假定簡化降低的品質。(*:論文並沒有敘述這個WaveNet Vocoder需要的運算量與輸出性能)

根據NPSS這個高效率歌聲複製論文所述,日文多人資料庫有35名歌手(8男27女),總資料量約80首樂句,共3個音高,平均每個歌手的錄音長度總和為15分鐘以內。英文多人資料庫有13個人(8男5女),總資料量524樂句,平均總長32分鐘半。兩個總和都是約8小時。對這些多人資料庫輸入較少的2~3首歌進行音色預測,就可以得到相當接近本人實際歌聲的效果,並且最終MTG希望達成對音色與音樂表現的適當預測。並且預期這個架構的方向會遠離傳統TTS並且達成一個完整的端到端系統。

結論
從作為雛型的NPSS論文可以看得出來,VOCALOID:AI 與既有VOCALOID從設計目標開始就有著極大的差異。這一系列論文中嘗試過了將較為複雜的歌聲收錄資訊放入傳統單元選擇拼接合成系統中,得到的結果以其評價標準來說並不好,其實可以預期將傳統系統聲庫放入這個新系統,也不會得到很好的效果,甚至很可能會變差。

VOCALOID:AI更適合用於傳統歌手的收錄與重現,與現有的VOCALOID適合聲優收錄的特性有著很大的不同,基本上幾乎就是只有商標一樣了。

看到YAMAHA兩年(from 2017)來都在做這個東西,也難怪根據發表演講所提及,Crypton也從兩年前開始決定必須要自製引擎。雖然細節並不清楚,可以預期是延續VOCALOID現有引擎的功能路線與特徵,並對自家需求進行強化。

先前在別處也說過,「在變的是YAMAHA,不是Crypton;Crypton才是在努力延續現有VOCALOID與現有生態系的那一方」,看這篇敘述到此,應該可以稍微體會到這一點。

Oculus Goを飛行機で使う

明らかに動画再生の側面が強いため、屋外におけるOculus Goの運用を考えると、ネットワーク環境の有無は大きいな影響を与える。

大半のアプリは無論生かせないし、Netflixもダメとなった時点でまぁ残念。

ただ、例えオフラインで通常の2D動画再生だけと言っても、期待したとおり、大画面による迫力は非常に震撼される。

閱讀全文 Oculus Goを飛行機で使う

Moresampler 0.8.3

今回は限定的なケースだった。
このケースに嵌まらないなら急いアップデートする必要ないですが、出会う場合は困るわけで。

本家
Bowlroll

0.8.3 (2017年6月10日)
* 問題修正: 長い無音が続く音源を分析する場合でhは時々クラッシュする問題を修正
* 問題修正: 短いサンプルもしくは母音が全く含まらない(表情音など)サンプルを分析する場合で時々クラッシュする問題を修正

0.8.3 (Jun. 10, 2017)
* Bug fix: occasional crashes when analyzing samples with large chunk of silence.
* Bug fix: occasional crashes when analyzing short samples or samples that do
not contain any vowel.

Moresampler 0.8.2(再)

今回のMoresampler 0.8.2再アップロード、複数音源においてクラッシュしてしまう問題を修正しました。ログを見ると33人もダウンロードしたようで、ご迷惑かけました。

問題を反映及び検証音源「雲菓ヘンゼル(連続音)」を提供した @0oUFOo0 さんと、
検証に付き合った @supertosshii さんに感謝致します。

bowlroll
本家 (ファイルだけ変わりました)

なお、先日の記事にも新しいバージョンのリンクに変更しました。

Moresampler 0.8.2

繋ぎはMoresamplerの売りの一つであり、いわゆる「MOD100」「人力感」という方向の調整において、Moresamplerの機能は定評を頂いております。ただ時々音痴となる場合がありますので、精度を高め、修正パッチにしました。

同時にこの調整法に触発され、新しくMpというフラグを導入しました。
「ランダムで揺らぎを与える」機能を追加しました。
デフォルトは0、そして5あたりからでは違いがわかるはず。

Arpasing関連の問題も修正されます。英語圏にではこれがメインですがね。

Bowlroll
本家

[EDIT: 再アップロード反映しました]
—–
0.8.2 (2017年5月15日)

* 問題修正: oto自動生成機能部が音素 アルファベット “zh”を識別できない問題
* 問題修正: ホストソフト(UTAUなど)に呼び出されるではない場合で、そのままクラッシュするよりも、エラーメッセージを表示するようにしました。
* 機能改良: 入力音声がモジュレーションされる場合のピッチ検出精度を高めました。
* 新機能: 新しいフラグ「Mp」を導入。ピッチ曲線にランダムの揺らぎを与える。
値範囲は[0, 100]。揺らぎ具合の範囲をコントロールする。デフォルト値は0。

0.8.2 (May. 15, 2017)

Bug fix: the oto generator fails to recognize arpabet phoneme “zh”.
Bug fix: display error message (instead of crashing) when launched outside of host software.
Improved feature: improve pitch accuracy under modulation effect.
New feature: new flag ‘Mp’ added for adding a random perturbation to pitch curve. The parameter, ranged from 0 to 100, controls the degree of such perturbation and is set to 0 by default.

Moresampler 0.8.1

人間はミスする生き物だ….

説明すると、ピッチ予測の前にノイズをフィルターリングするためにちょっと小さなノイズを生成して入力させますが、そのノイズ量は盛大に間違って(10倍大きく)たので、VUV判定の精度を大幅に低減した。それでも破綻しないのは凄いな….と感心してる。

軌跡と全体の音質には影響しないが、VUV判定で所々に雑音が出てしまう可能性があります。(VUV判定起因の雑音は「音質」の評価には入ってますが、ややこしいので)

本家
Bowlroll

0.8.1 (2017年3月29日)
* 問題修正:先日導入した新規ピッチ予測の重大バグを修正

0.8.1 (Mar. 29, 2017)

  • Bug fix: a severe bug in the recently upgraded pitch estimator.

—-
追記:

libLLSMのコード整理が終わって、Githubにで今まで(0.3.x~0.8.x)のMoresamplerの成果が反映されました。主にPseudo Glottal Inverse filteringが入ってます。

https://github.com/Sleepwalking/libllsm/

Moresampler 0.8.0

いつか終わりがやってくる….

2015年頃、最初のMoresamplerの設計目標の一つは、分析合成面(UTAUだといわゆるResamplerとWAVTOOL側)で性能を最大限生かす事。

レガシィであることに対して否定をしません。
既に大量な成果が作り上げたことは事実。
それを「必要十二分以上に」強化する。

路線自体は一緒ですが、途中で新たな触発とか色々あるのため、それを反映して取り込んだ結果、予想より大分大きく逸脫していたかもしれない。

F0予測については、一部の成果はInterspeechへ論文投稿も行われます。
それについての議論は今後解禁待ちです。
直近で遅くなる(0.3.0時期に逆戻る)かもしれない心配はありましたが、それがリリース直前で解決しました。

(Edit: adYANGsafは2017/03/01にで先倒し発表)

自動原音設定と録音表体系の導入は正直いうと当初考えてませんでした。
需要が大きいであることは理解できましたが、コントロール手法に対する革新に属する。
現状でもotoのフォーマットからの制限が大きく、これ以上進むと「UTAU以外」でしか出来ないわけで、今後またどこかで機会があれば。

本家
BowlRoll

0.8.0 (2017年2月24日)

* 問題修正: u-flag有効のノートでクラッシュする問題
* 問題修正: 時々ピッチシフトする時でクラッシュする問題
* 問題修正: 浮動小数点 wavファイルを識別する問題
* 問題修正: 短い子音が結合後でロストする問題
* 問題修正: エイリアスのローマ字から平仮名へ変換する時”ja”,”jo”,”ju”が間違って”じぁ”, “じぉ”, “じぅ”にした問題。
* 機能改良: ピッチ予測を広範的改良した。有声無声音検出のエラーをより抑えました。
* 機能改良: oto生成機能はArpasingをサポートした。

0.8.0 (Feb. 24, 2017)
* Bug fix: crashes on u-flag-enabled notes.
* Bug fix: occassional crashes during pitch shifting.
* Bug fix: format identification error on float point .wav files.
* Bug fix: short consonants are missing after concatenation.
* Bug fix: “ja”, “jo”, “ju” are mis-aliased as “じぁ”, “じぉ”, “じぅ” during romaji to
hiragana conversion.
* Improved feature: the pitch estimator has been extensively improved. It now makes
fewer vocing detection errors.
* New feature: the oto generator now supports Arpasing.

Moresampler 0.7.2

告知:このバージョンはボカコン2016へ出展します。

Moresampler 0.7.2
(*:CVVC oto生成部バグ発覚のため現在修復中)(修復しました)

本家Blog
Bowlroll

0.7.0~0.8.0の間で、Moresamplerは独自録音表体系Arpasingを対応する予定です。oto生成部はindex.csvから設定させて欲しい原音リストの読み込む機能を対応しました。最近見つけたバグも修復していた。

現在oto生成部はCVVC生成を対応している。どんなフォーマット(かなもしくはローマ字)でもそのまま出力する。そのために窓は出てきて「どのフォーマットして欲しい?」と聞いてくる。

そしてフィードバックから「生成したotoには大量の余分エントリーがされてる(特にdiphone合成用としては)」ということで、あくまで既存oto.iniへのアップデートだけをするオプションを付けました。この場合もう新しくエントリーを作ることはしない。ただこの機能を有効化させるには、oto.iniを先に原音のフォルターへ入ってね。

チェンジログ

0.7.2 (2016年10月26日)

* 本バージョンでoto生成に関するコードを一部入れ替わりました。
一部はLuaで書き直されました。Arpasingは現状未実装(継続中)
* 問題修正: 「UTAU-style-normalization」が無効化される場合ノートの強さパラメータが一部無視される問題
* 問題修正: 2016年3月で導入されたある機能は分析時の時間解像度を低減する可能性があると判明。現在は「analysis-anti-distortion」有効時以外デフォルトオフ。
* 機能改良:oto生成部は原音生成がローマ字ファイルに対して仮名ファイル名で生成することが可能になった
* 新機能:oto生成部は既存oto.iniに対してアップデートを行えるようになりました。
既存otoファイルがある場合、新しくエントリー生成を回避する。
* 新機能:oto生成部はまず「index.csv」ファイルの有無を判定し、リストアップされた.wavファイルを読み込みます。
* 新機能:oto生成部は現在CVVC/VCVスタイルの生成を行います


0.7.2 (Oct. 26, 2016)

* This version has undergone some code refactoring on oto-generation. Part of the code was rewritten in Lua. Arpasing support is not yet available (work in progress).
* Bug fix: note intensity parameter is ignored when utau-style-normalization is off.
* Bug fix: a feature introduced in March 2016 could potentially reduce time-resolution of the analysis algorithm; the feature is now disabled by default unless analysis-anti-distortion is on.
* Improved feature: oto generator can create hiragana entries from voicebanks whose filenames are in romaji.
* New feature: oto generator now first loads index.csv if available, then loads the .wav files in the list.
* New feature: oto generator can update the entries in an existing oto.ini file without creating new entries.
* New feature: oto generator can create CVVC/VCV-style entries.