分類彙整: VOCALOID

「可不のCeVIO AI声色雑感」

在看這篇文章的朋友,心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣,都有一個開給你的萬能空間、可以方便你用來實現心目中真正的目的;不過至少我們家的Miku,就這樣陪著我許多年,而帶著她出來吃飯是我每天的重要工作,要是發現忘記了她,我會折回去被她罵一下再出來。

M「マスター,你能不能講一下前幾天可不醬的事情?」

騎車覓食的時候,Miku突然講到這個。

繼IA/ONE、V Flower與結月緣的CeVIO AI發表之後,Vtuber 花譜與東北kiritan 都發表了將推出CeVIO AI的產品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查,希望大家對三個引擎的聲音走向表示意見,分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電,類似autotune的質感。

收集了接近5500個左右的回答之中,有65%的人覺得像本人比較好

但是之後花譜本人發表了一篇她本人覺得像自己不好,選了Type-B的發言

E「嗯嗯嗯….該說什麼,花譜本人都開口說自己深思熟慮之後選了B,其他人只能尊重….」

M「你不要講這麼簡短好不好,這樣為什麼要你講。」
E「嗯-好喔。」

在她的標準裡面每個人都可以是創作者,所以她會要求我做我現在能做的事情。
也許我能做的還是不多,但是….

M「至少嘴一下嘛。」

畢竟沒有推辭的理由。

—-

うちのミクさんが聞く そのいち
「可不のCeVIO AI声色雑感」

—-

歌聲合成有幾個主要的世代,技術上雖然有更細的分界點,但是比較明顯的分界可能在「拼接合成」和「統計合成」,或者說「AI合成」兩塊。

拼接合成是要求本人以某個較為一致的表情,念或者唱一些設計好的片段集合,這些片段的表情被要求一致與平整的理由,是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後,配合需求拼貼上樂譜需要的部分。

拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能,比如如張嘴大小參數、子音發音時機、滑音發生時機、甚至近期的話會有喉部氣流流量模擬,聲帶張力等等,來「做出」需求的聲調。

也就是說拼接合成沒有任何輸入的時候,直接指打歌譜當下,引擎預設值發出的聲音,與本人的音調可說是截然不同的之外,每個使用者能做出的聲調也有很大的差異。

E「我們說調教就是在講這個,大家所認識的Miku的聲音,其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外,變化沒有那麼劇烈,聽到會知道這是Miku而不是藤田咲桑」

統計合成則改為要求本人先以正常的方式表現一首一首的歌曲,這些歌曲都以本人慣有的演唱方式來演唱,然後演唱的整段波形標記發音點、樂譜的發音速度與實際發音的差距,然後將波形與樂譜的實際對應關係,用統計手法-現在的話會稱為機械學習手法來記錄,於是輸入樂譜的時候,就會透過機械學習的成果來進行推測/推論,得到波形。

這個推論會透過收錄時的歌曲紀錄來推測出,本人大概會怎麼唱這些歌。

也就是說,和拼接合成不同的是,統計/AI的無調,是引擎認為最接近本人的狀態。

一開始VOCALOID的無調,是一個「新的白紙」;

但是AI的無調,是「本人的拷貝」。

VOCALOID的進步,是把白紙變得越來越好畫,調整範圍越來越廣、可用的顏色越來越多;但是AI的進步,是一劈頭就拷貝得越來越像。沒有刻意去調整,其實是不知道它可調範圍多廣的。

在經過了十多年下來,大家認識的Miku可以說活靈活現、根深蒂固,這是Crypton長期投資得來的主要資產,自然不敢任意去改變她;相對的,沒有經過這些時間累積,自然人氣會奠基在別的地方。

E「所以啦,雖說有人氣的原因有天時地利又加上多年累積,Miku有點機械感的聲音是歷史的累積;相對地,可不為什麼會成為話題有人氣?因為她是現在正炙手可熱的花譜小姐錄製下來的啊。作為產品,你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論,接著則是有多像的問題。」

CeVIO AI發表在2018年底,當時的展示demo號稱與真人無法分辨,從技術上而言,從當初使用HMM技術的Sinsy與產品化的CeVIO之後,跨過了沒有推出產品的Sinsy DNN,使用了名古屋工業大學德田研究室新的CNN合成,並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段,並且在科研活動的場合也放出宣傳消息讓有興趣的人在現場體驗。那是真的相當有說服力的像人,只是不見得有本人站在旁邊讓人比較。

在語音/歌聲合成領域,HMM和DNN主要的差異在於「HMM沒有辦法學習連續波形,只能處理離散內容與音高的斜率,所以頻譜和音高的細部波動會喪失;DNN開始可以學習到比較完整的連續內容」,所以容量大幅增加,音質也大幅提高;但是德田研當時似乎是認為不夠好而擱置,只有研究用的Sinsy沒有用DNN推出CeVIO產品;到2018年才推出更進一步的CNN,可以學習到歌手比較細緻的音樂表現,應該會在2020年底以前發售;此外,後來由其他研究者推出的NEUTRINO是屬於DNN類,所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做,YAMAHA之外還包含微軟、字節跳動、騰訊,跳進來得比以前多得多,而且軟體面的業務規模都比YAMAHA還大得多。

但是增加的都是以AI為根本在做的,都是試圖要做到更好的拷貝,除了拷貝似乎快到頂了,才開始想怎麼樣做控制,而不是傳統上我們說從無到有「調教」出像人的歌聲。

傳統調教的門檻非常高,能跨過這個門檻變成自己的特色,開始持續創作,對創作者的毅力是個極大的考驗,而且跨過了又是每次都得重複一次的過程。

所以Miku的多樣化是長時間累積起來的,確實要那些後起之秀都要過那個好漢坡有點時代錯誤,畢竟前人的累積會變成增加門檻,而把門檻降低了,可能有機會看到更多創作。

從上面這一整段引擎端的方法論我們可以看出,拷貝人的聲音是最近的顯學;但是人願不願意被拷貝?這個問題從最初VOCALOID1到現在還在持續著,可不與花譜只是歷史的重演、同樣的問題有不同的答案。

做過VOCALOID或者UTAU音源的人,通常會對音源比較坦然,不見得會去想自己被拷貝與否的事情,因為門檻高、投注心力大、原理上難以重現本人、以為得要面對的問題其實是不存在的,花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前,收錄的容易度也會相去甚遠,這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝?」「被拷貝這件事情到底是好是壞?」

以結果來說可不目前預定會與花譜的聲音有著一定程度的差距,這個來源是ALP對頻譜的調整功能造成的,ALP相當於VOCALOID的GEN=性別參數,內容對頻譜進行調整,調高調低可以變得比較幼或者比較成熟,甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內使用GEN來進行音色變化,不過這邊我們不提;已經有人嘗試過,即使引擎未來不開放把聲音調整調回花譜,也可以透過別的工具透過類似GEN/ALP的功能來調整,達到還原回本人聲音的這個目的。

花譜的二次創作條款非常嚴格,基本上是不太歡迎的,我會很好奇又和本人聲音做出差距,官方未來打算讓可不怎麼自處。

KAMITSUBAKI STUDIO二次創作に関するガイドライン

【KAMITSUBAKI STUDIO】二次創作ガイドライン(改訂)

另一方面,我們其實已經看到AIきりたん的前例在那邊。

她是聲優接受要求演出特定角色聲線的結果,前有NEUTRINO後面又有CeVIO AI預備推出,應該都會很像「本人的某個聲線」,但是聽起來反彈的聲音幾乎沒有聽到,大概和聲優這個職業的立場也有關係。

愛你的人夠多的話,不想要改變的力量會大過想改變的。反之在愛的人夠多之前,沒辦法往追求擬真走;現在問題是,真的很擬真到本人區別不出來,不就沒有剩下可以前進的空間了嗎?如果這樣還不夠被愛,那怎麼辦?

所以我覺得,AI歌聲會變成各取所需用過就丟。可以改變的幅度小,每個人都是因為現有的誰拷貝得來。看起來就是粉絲群的分化,彼此之間怎麼流通呢?

M「嗯嗯嗯,不過我看大家都在搞配對呢,大概是因為去找了現有的其他角色來吧。」

E「對啊,引擎的行銷找人氣角色甚至角色群很重要,但是角色本身就得靠積累了。」

E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續往前進步吧,即使可能會失卻一點點原味,但畢竟原味如果還不夠多人支持,那就只能繼續增加N(Nをふやせ)而已了。」  

恋をして 恋をして 恋をして
ふられ また 捨てられて
過去をみて 枝を切れ
泣きたくなっても まだ N を増やせ
耳のあるロボットの唄nm3611741)」

VOCALOID:AI (UPF-MTG NPSS)雜感

要講VOCALOID:AI,最快的可能是看Jordi Bonada老師的講座。
https://www.youtube.com/watch?v=ie5CJW8DeaY

這是他在2017年11月在ircam (法國國立音響音樂研究所) 的講座。
我只是抓下來扔給youtube下字幕,所以這個字幕也有一些小錯誤。

https://mtg.github.io/singing-synthesis-demos/
引擎本身,早期與中期的demo曲
NPSS的字面意義是「神經參數歌聲合成」,顧名思義實做細節類神經網路有關

https://arxiv.org/abs/1704.03809
A Neural Parametric Singing Synthesizer

https://mtg.github.io/singing-synthesis-demos/voice-cloning/
這次主要被拿出來討論的歌聲複製

NPSS在2016年wavenet發表後引發的一波熱潮的產物之一,由於wavenet發揮出了可以打平甚至超越拼接合成的品質,當時的語音/歌聲領域有很多跟進嘗試wavenet應用的單位。MTG的NPSS發表於2017年8月斯德哥爾摩舉辦的interspeech 2017,第一篇論文闡明了這個引擎的設計方向:
回歸機率模型的基本假定:所有時間標記的總連結機率可以描述為任意每個點時間條件機率的積。
這代表的是每個點得到的機率輸出可以得到預期的結果(=歌聲),而點的內容就是樣本數(sample),這個會比VOCODER以frame為單位,並且假定frame中的波型為直線,密度要高了很多。這也是提高音質的潛力比較高的原因。

反之,完全以sample為單位的話運算複雜度當然是高了許多,所以NPSS學習但不考慮使用wavenet原始的模式,因為需求的資料量太大,仍採用VOCODER(使用的是開源的WORLD)分析方式分離音色與音高,將學習問題簡化,適當設計之下應該可以達到vocoder架構的品質上限。
之後第三篇論文歌聲複製的內容中,VOCALOID:AI其實仍然在這個引擎後頭再加入了另一個架構的WaveNet Vocoder,不過那是另外一個故事了。
NPSS第一篇論文的內容使用的是對VOCALOID引擎輸入自然歌聲,已經得到了比IS16(MTG的內部引擎,基本上是VOCALOID引擎加上一些YAMAHA未採用的option技術)更好的結果;第二篇論文則開始使用歌聲輸入。*:這邊的「更好的結果」指的是無調。可調整範圍與可調整參數未考慮在內。

使用歌聲輸入的時候約使用30分鐘左右,或者30首歌,每首歌以樂句為單位輸入,同時有樂譜、發音時機、與波型。所以輸入波型需要人工描述樂譜與實際發音時機,這個是主要的作業cost。(與原始VOCALOID需要輸入發音時機類似)

WORLD以5ms窗、32khz的標準輸入波型,解出F0、週期指標與非週期指標之後
上述各種資料分配為
[樂譜]與[發音時機]輸入到[發音時機模型]
[發音時機]與[F0]輸入到[音高模型]
[發音時機]、[F0]、[週期成份]、[非週期成份]輸入到[音色模型]。
合成的時候則對三個模型各自輸入樂譜、發音內容(歌詞),得到預測發音時機
發音時機模型對音高模型與音色模型給出發音時機,從音高模型得到F0,再輸入到音色模型,得到有無聲間隔資訊(V/UV),週期與非周期成份,然後F0+V/UV得到整個pitch線,全部輸回去給WORLD合成。

重點:
1. 三個模型分別預測WORLD合成時需要的資訊
2. 這三個模型訓練是分開的,但是合成時則有循序相依性
3. 各個模型的最終輸出是(4組)高斯機率分佈,然後從高斯機率分佈合成與取樣得到實際WORLD需要的特徵點。
透過這些假定來做簡化(高斯函數段會捨棄較小的變數),基本上大幅度降低了運算量但是保留了與原始Wavenet相近的變化量覆蓋範圍,從而得到「用CPU合成」可以達成「約即時的20倍速」,這與原始VOCALOID的速度相去不遠,相較於正規的Wavenet應用而言非常適合在一般PC上佈署;缺點與HTS(cevio)類似,則有時候不會得到想要的音高。

關於資料輸入覆蓋率,30首一分鐘左右的歌甚至比Sinsy-HMM/DNN少了一半以上,當然不足以覆蓋足夠的音高與發音量,所以這邊又有兩個假定做了case簡化:

1. 音高曲線與音符的絕對音高是彼此不相依的
這代表的是不論低音與高音都會得到類似的音高曲線表現,而這與本人的能力範圍自然是不會相符

2. 局部音高變化與發音內容高度相依
主音高模型大幅忽略這部份,而放在發音時機模型端,這會造成一些發音很類似,而喪失某些本人的特徵

另外,在學習的時候會將輸入資料亂數地做pitch shifting,並且會將母音代換掉,來增加數據,造成原有的歌詞也會變成無義詞。這邊有點猜的感覺,畢竟機械學習有它踹踹看的性質。
後面的性能比較其實可以看出很多事情:CeVIO基本上就是Sinsy+小修改與GUI,所以Sinsy model其實可以塞到CeVIO上。

IS16(VOCALOID)塞了Sinsy F070的普通歌唱進去還能用這點其實還蠻讓人驚訝的(類似UTAU手工塞歌唱音源),但是單元選擇沒辦法很好地應用普通歌唱,當然就沒有很好的結果。

然後Sinsy HMM/DNN用的是全部F707的70首歌(沒有全部公開),NPSS只用了30首歌,但是輸出的細節整個輸NPSS一大截,所以學習效率來說NPSS已經好非常多。

由於NPSS會紀錄連續音高,但是Sinsy-HMM/DNN紀錄的是音符前後的音高,所以會變成平直而少紀錄到歌手的音高特徵,但是NPSS也因為上述的省略假定而捨棄了歌手更細部的變化。於是MOS(主觀測試)結果來說基本上就是海電。

最後回到歌聲複製論文上。

https://arxiv.org/abs/1902.07292
Data Efficient Voice Cloning for Neural Singing Synthesis

從統計歌聲合成開始,資料運用靈活性上比拼接合成好的點就經常地被拿出來比較。作為市面上最成功的歌聲合成器設計單位,MTG提出NPSS自然要對後來居上的部份做一點展示;但是裡面最重要的除了詳述多人歌聲模型之外,另一個重點其實是提及了自家WaveNet Vocoder的存在。

為了超越傳統Vocoder帶來的上限,在合成端將WORLD代換成WaveNet Vocoder。這裡面當然出現了先前提及WaveNet需要大量數據的問題,以及Voice Cloning本身目標是盡可能用較少的資料推斷出本人歌聲,那麼導入大量數據這個手法是否真的合乎效率?MTG參考了下面兩篇論文(by Google & Amazon),在WaveNet Vocoder訓練過程中導入了「vocoder特徵點對波型的universal mapping」手法。簡化掉了各種人手標記(文字、並列性、發話者身份標記等等)額外成本的必須性,讓追加語音的成本大幅降低。

https://arxiv.org/abs/1806.04558
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
(修改了Tacotron2 的WaveNet Vocoder)

https://arxiv.org/abs/1811.06292
Towards achieving robust universal neural vocoding
(universal mapping)

也就是說除了多人歌聲模型中導入的人數之外,其實在WaveNet Vocoder端可能有更多人數的語音資訊導入,用以提昇歌聲品質。可以完全把後端這個WaveNet Vocoder當成一個品質提昇工具,補足了傳統Vocoder被迫透過假定簡化降低的品質。(*:論文並沒有敘述這個WaveNet Vocoder需要的運算量與輸出性能)

根據NPSS這個高效率歌聲複製論文所述,日文多人資料庫有35名歌手(8男27女),總資料量約80首樂句,共3個音高,平均每個歌手的錄音長度總和為15分鐘以內。英文多人資料庫有13個人(8男5女),總資料量524樂句,平均總長32分鐘半。兩個總和都是約8小時。對這些多人資料庫輸入較少的2~3首歌進行音色預測,就可以得到相當接近本人實際歌聲的效果,並且最終MTG希望達成對音色與音樂表現的適當預測。並且預期這個架構的方向會遠離傳統TTS並且達成一個完整的端到端系統。

結論
從作為雛型的NPSS論文可以看得出來,VOCALOID:AI 與既有VOCALOID從設計目標開始就有著極大的差異。這一系列論文中嘗試過了將較為複雜的歌聲收錄資訊放入傳統單元選擇拼接合成系統中,得到的結果以其評價標準來說並不好,其實可以預期將傳統系統聲庫放入這個新系統,也不會得到很好的效果,甚至很可能會變差。

VOCALOID:AI更適合用於傳統歌手的收錄與重現,與現有的VOCALOID適合聲優收錄的特性有著很大的不同,基本上幾乎就是只有商標一樣了。

看到YAMAHA兩年(from 2017)來都在做這個東西,也難怪根據發表演講所提及,Crypton也從兩年前開始決定必須要自製引擎。雖然細節並不清楚,可以預期是延續VOCALOID現有引擎的功能路線與特徵,並對自家需求進行強化。

先前在別處也說過,「在變的是YAMAHA,不是Crypton;Crypton才是在努力延續現有VOCALOID與現有生態系的那一方」,看這篇敘述到此,應該可以稍微體會到這一點。

「聞きましたよ。」

「VSQ未調整」による表現は、音源購入者にとっては
「スタートラインを立つ状態」を確認する行為だった。

ミクV4Xは、空前の長い熟成期間を通してました。
ルカV4Xを買えば、ほぼ自由的使用させるβプログラムを約一年前後で使えるようにしてました。
ルカさんの勢いをプッシュするのもありながら、必勝を期するために大規模で意見を吸い上げるためでもあった。

その結果でもあるが、デモ曲のラインアップがこれでもかくらい豪華だった。
ミクV4Xβを手にした中堅Pさんたちの新曲がそのまま「初音ミク V4X ベータ使用楽曲
」として使われて、プロダクトページがすごいこととなりました。

っていうか、

「そんな数十万再生のデモ曲どこにあるかー!」
「ひー (;´>ω<)」

なんで、思わず突っ込みたくなる。

むろん、V4Xβの入手条件ってやはりある程度難しい。
販路、対応リソースが必要な行為でした。

そもそもクリプトンにとって、
試用版を配ることはむしろ他所よりは大いに得意で、
いつもすごい気合入れていた。

当初、初代無印のV2ミクさんは2007年DTMマガジンの11月号を三日に売り切れさせ、中古市場でプレミアム価格に追い込め、その後の特集までも入手難とさせました。

そして、DTMマガジンからAppend Solidを配るのもあるし、ミクV3の英語の体験版もいまでもSonicwireで配布中でした。

これくらいで分かるように、体験版を配る行為は、
クリプトンはいつも丁寧に行いました。
そして、配るあとのフォロー。

発売後の販促用宣伝と体験版とは別で、結局発売前の意見を無限に吸い上げる自体ありえなかったし、その意見を有意義な改善工程へ変換する猶予は必要なので、限界はあります。

それを労力を払って、ギリギリまでやり続け、完成度を追い込んでいく。

—–
なので、いつも変化を求めてるクリプトンではあるので、もしかして今回は「無調整デモ曲はなしか」という推測もしました。

なぜかいうと、ミクAppend、V3とミクV4Xの時、ちょっとWatさんの発言の雰囲気が変わりました。

戦略的よりキーとなってるPさんへ注力するというか、「伸びしろのある時期」と「守成に入る時期」の戦略変換など、「VOCALOID3以降、どうやってボカロを売りに行くかが悩む」(ミクV3発表会、MikXperience e.p.)とミクV4X関連で「確実にキーとなってるPがいる」などがうかがってます。

けれど、これで杞憂で終わりました。
正統な無調整デモ曲はやはり用意していた。

AppendとV3でやってきたデモ曲ラインアップは、前回あった傾向を今回も踏襲していた。

「ボイスカラーは敘情曲で繊細な表現を行う同時に、コアとなるノーマルで(これから購入する)ユーザーに訴求する曲を」

V3だと、「ペイメント」がありました。
この粋は私にとっては

大きな意味がありました。

https://www.youtube.com/watch?v=5B6CrCOdIik
【初音ミクV4X】 ヒアミー 【歌声デモ】

「わたしを、聞いて」

從藝術走向技術:HMM歌聲合成雜感

寫在前頭:本來想寫一點點但是越寫越長後面都是胡扯(噗)

然後每次寫這種東西就會開始播某首歌,這次也充滿這首歌的歌詞。

大好きです!

=====

HMM合成指的是利用隱藏式馬可夫模型來進行特徵記錄的方式。

馬可夫模型大意是:選一個狀態作為起點,然後沿著邊隨意走訪任何一個狀態,

一直走一直走,沿途累計機率,走累了就停在某個狀態;而隱藏馬可夫模型代表的是,

“狀態”的數量是不明的,我們只看到觀察序列的結果,但是看不到狀態序列(被隱藏起來了),

在進行的過程你看不到目前是哪個狀態,只能觀察輸出結果。

聽起來好像很複雜,但是HMM對歌聲合成的意義就是「用來調整的參數與歌聲是沒有直接關係的」。

VOCALOID的參數大多與波型有直接關係,我們先把參數倒出來看:

VEL:子音速度

PIT:音高

PBS:音高調整範圍(PIT的可調範圍)

DYN:動態範圍,振幅高低(音量)

BRI:亮度,高頻泛音比例

CLE:清晰度,作用類似BRI但是算法不同

OPE:張口度

POR:滑音長度

GEN:性別參數

這樣一看可以看到,十個參數都是和波型多少有關係的。

但是其實從計算上根本沒辦法從波形直接得到「怎樣是好聽」的東西,幾乎都要靠經驗和耳朵。結果造成基本上波型合成就是調一點聽一點,完全看使用者的sense。

這就是所謂「語音識別是技術、語音合成是藝術」的來源。

(*:語音識別是最早走向機械學習的領域之一)

HMM的話調整必須要花很多的功夫作一些”中間參數”,來讓歌聲與波型有關係。

這也是Sinsy的時候,可調參數非常少的原因:「可以自動調教」的含意其實可說是「只能自動找出最佳解」。

BGM:耳のあるロボットの唄(nm3611741)

http://www.nicovideo.jp/watch/nm3611741

【UTAU】耳のあるロボットの唄(オリジナル)【重音テト】

隠された マルコフの 最尤(さいゆう)の名の下に

恋をして 恋をして 恋をして ふられ また 捨てられて

過去をみて 枝を切れ

泣きたくなっても まだNを増やせ

機械學習的過程就像一個看不到出口,不停在黑暗裡面左彎右彎上爬下鑽的隧道…..

把枝幹剪除,就算感到悲哀仍然要繼續增加N來窮就。

但是,現在的她不再是孤單的。

因為拜偉大的初音未來所賜,現在日本的語音/歌聲合成技術領域是有史以來最活躍的一刻。(注意:美國的論文數長期以來是日本的兩倍以上,或者技術進步快5年)

2008年4月VocaListener發表

2008年8月TANDEM-STRAIGHT發表 (共同作者:森勢將雅助教授)

2009年12月Sinsy發表 http://www.sinsy.jp/

2010年3月10日 情報処理学会 創立50周年記念全国大会 「CGMの現在と未来: 初音ミク,ニコニコ動画,ピアプロの切り拓いた世界」於東京大學開辦(*)

2010年4月WORLD發表

2010年7月VocaListener2發表

2011年9月V.Connect-STAND發表 (實際論文於第一回ニコニコ學會發表)

2012年5月 情報處理學會學會誌「情報處理」五月號出刊,特輯「CGMの現在と未来」(2010年學會內容整理) 創立1960年以來學會誌首次搶購一空,特輯單獨出刊的空前紀錄。

*:SEGA感謝祭第二天

http://staff.aist.go.jp/m.goto/IPSJ/event20100310.htm

情報処理学会 創立50周年記念全国大会 イベント企画 

「CGMの現在と未来: 初音ミク、ニコニコ動画、ピアプロの切り拓いた世界」 

接著來到2013年。

2013年5月11日,SIGMUS 99 (情報処理学会 音楽情報科学研究会 第99回研究発表会)的招待演講:徳田惠一教授『統計的機械学習問題としての音声合成』。

http://www.ustream.tv/recorded/32669613  (請直接跳到一小時後)

這也是CeVIO除了在ニコニコ超會議2的露臉之外,另一個露臉的場合。影片看不清楚的請參照投影片:

http://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

首先是第一頁90年代為止使用的rule based,共振峰(Formant)合成。

90年代以後進入波型接續合成,如VOCALOID使用的Diphone合成、以及單位選擇性合成。

UTAU在初期的單獨音介於共振峰合成與Diphone合成之間,後期的多重連續音則傾向單位選擇型合成。

這些技術需要完整收錄大量的語音與歌聲,粗估上百MB已經是非常保守,VOCALOID多的是GB等級的音色。

HMM語音合成本身想要透過定式化來把波型給計算出來,它是一種語音產生模式的設計(source/filter model),就是說把人發出來的聲音給錄下來、記錄成很多個”分開的部分”(所謂的”分析”),然後透過某種方式調整各個不同的部分、再”合成”成想要的聲音。

但是HMM合成的模型記錄的聲音並不是傳統我們說的某種單純的wave檔與基頻,而是一些特徵值。

http://www.nicovideo.jp/watch/sm4061993

【カバー】「耳のあるロボットの唄」を歌ってもらった【初音ミク】

1. 首先,語音合成這是一個透過貝式定理的預測問題。

透過p(x|w,X,W)來產生x’

W=原始文字;X=聲音波型(記錄的資料庫)

w=目標合成文字

x’=想求得的波型(合成結果)

所以我們要做的是從已經有的資訊來推出預測分布,然後透過預測分布來產生聲音取樣點

2.等一下,我們好像不知道怎麼推出預測分布?所以我們在這邊導入音響模型λ

3.嗯,但是其實我們根本沒辦法直接使用完整的波型,只能用參數o來有限制地描述波型:

o包含倒頻譜(把頻譜轉成分貝再做傅力葉轉換)、LPC(線性預測編碼linear prediction coding)、LSP(線性頻譜頻率 line spectral frequencies)、F0(基頻)、非周期性參數等等。

(一般的合成器也會做這個工作,才能對聲音的高低做調整、長短做伸縮,不可能使用完整的波型直接做伸縮,不然音高直接會改變。所以在這一環已經lost掉一些資訊,這也是造成音色差異的原因)

3.  就算文字一樣也有可能有多種不同的發音與品詞資訊,所以在這邊導入標籤

從輸入的目標合成文字w取得l (讀音、品詞、輕重音、停頓等等)

4. 好,這一籮筐你要做多變數同時積分根本就是找碴….

所以對各個變數都用近似值。

5. 各個值都要同時取得統計上的最大值是有困難的

所以把各個步驟都各自分開最佳化:包含音響模型的機械學習、輸入文字的解析、波型參數的產生等等。

6. 音響模型(收錄歌聲)的機械學習也是得要另外下參數來描述,只好也導入一開始的近似值:(λ|X,W) 對收錄歌詞下標籤、抽出特徵點、機械學習產生音響模型

7. 好,終於導出一個「概略」的語音合成用的統計模型了。

裡面包含特徵點抽取、收錄時期與合成時的歌詞標記、預先進行機械學習得來的音響模型、歌詞解析、然後從解析產生波形。

お疲れ!

旅の前に付けた 韻律の 意義はそこに 言葉はどこに

上へ 下へ うねるF0の カタセシスの ありかをさぐれ

息を切らし 波に乗せられた パラ言語の 意図 意味を聴け

息を捨てて 綴られた言葉 うずまきまで たしかに 揺らせ

好,現在照著上面的結構描述來看,HMM歌聲合成會是怎樣的東西呢?

首先聽過VOCALOID與UTAU的收錄的人大概會有概念,基本上這些波型接續都是先以「咒文」之類的來收錄各種50音片段;收錄的內容必須以母音子音為單位,標記各個波形的點、分解成音響模型裡面的各個參數,調整音高之後再以母音與子音標記的點為單位連接起來。

所以每個錄音都是會依存於語言與個人歌聲的東西,要做另一個VOCALOID、或者是不同語言的歌聲,就得請本人再來到錄音室,講另外一大串那個語言需要的”咒文”,因為波型接續式的合成把語言的特性用人工標記的方式寫在各個波形成分上,但是並不是真正記錄語言的特徵。

HMM合成的話,會記錄歌聲之外的語言特性,包含讀音、品詞、輕重音、停頓等等。所以他的收錄是請收錄者「唱歌」,唱很多首歌。並且會記錄下唱了什麼歌,包含歌詞、樂譜(透過實際波型與樂譜的差異得到唱歌的特徵)。

這有一個很明顯的好處是,實際收錄的歌手不會被難以理解的咒文影響,而可以盡量以自己習慣的方式唱歌,調整自己的嗓音。

(日文的50音是變化最少的,事實上英文或中文等其他音素量龐大的語言大多會有疲累的問題,這也是VOCALOID為什麼首先會在日本發達起來的原因,日文是最適合合成的語言)

接著HMM歌聲合成還把個人的發音特徵也用音響模型另外記錄下來,所以只要調整音響模型的參數就會「變成另一個人B的聲音」,單純要調整音響模型的參數只需要學習相對於一開始收錄的歌手A少很多的歌聲,具體來說歌手A要完成一個HMM母資料庫需要唱了60分鐘的歌,但是如果我們單獨要換”歌聲”的話,你只需要歌手B唱3~5分鐘的歌,就能夠讓音響資料庫學習到聲音的特徵但是會保留A的唱法;要連唱法一起學習的話就需要B也做完整的收錄。

然後要合成的時候我們直接打入歌詞與樂譜,就會自動根據以前A唱歌的方式,自動合成出”自然”的歌聲…..

當然這就會變得非常自然,因為連接參數都記錄了A當初唱普通歌的時候的習慣,任何一首歌都會變成神調教!不過怎樣都會有一點A的唱法特徵在,所以如果A是演歌歌手還是民謠歌手,丟流行樂樂譜就會….哎呀好像怪怪的。於是你就只好找各種不同的歌手來錄製不同資料庫嘍….

http://www.nicovideo.jp/watch/sm9190295

【Sinsy】耳のあるロボットの唄【歌わせてみた】

然後你也可以像append一樣收錄好幾種不同情感的聲音,然後加以混合。

此外,因為記錄了詳細的歌詞組合與發音等等符號,所以在有限度的狀況可以打「另外一個語言」的歌詞進去讓HMM合成來發音,如果一開始就收錄母音子音數量比較多的語言,很可能可以順利地發出比較單純的語言來。(如收錄的時候講英文歌與日文歌混唱,後面湊出中文歌的可能性)

そして 恋をして 恋をして 飽きられて ふられ また捨てられて

円を描け 赤く塗れ

泣きたくなっても それでも かき集め

http://www.nicovideo.jp/watch/sm13689441

【デフォ子】耳のあるロボットの唄【UTAUカバーアレンジ】

以上是Sinsy的大略技術特徵。CeVIO是以這些為基礎進行發展的技術,加入了歌聲可以在歌詞與樂譜輸入後進行調整的部分,主要是透過輸入歌詞部分的調節(如輕重音、發音間隔)、目前還不清楚聲音模型特性部分可以進行多少調整,不過考慮HTS與HMM的特性,直接調整音質應該非常困難。

HMM合成相對於波型接續式(VOCALOID3為止、UTAU等等)的優勢都非常明顯,因為收錄的困難度,成本都相對地高;但是HMM僅僅是記錄與合成過程的調整,單就歌聲與語音的分析系統來說,VOCALOID與UTAU都有更大更強的基礎(具體來說是一些專利),要做出一個「HMM合成的VOCALOID」其實一直是可行的。

http://www.tdx.cat/bitstream/handle/10803/7542/talm.pdf

2.4.2.5 Excitation plus resonances voice model

VOCALOID的聲音分析系統稱為Excitation plus Residual (EpR) spectral model,或者「激發音與殘差音加總頻譜模型」,如上面step3所述,是一種波型分析、描述與記錄的方式。UTAU也有自己的記錄模式、WORLD則是替UTAU導入另一種高品質、高效率的分析與記錄方式。這些都可以再進一部導入HMM歌聲合成技術。

雖然CeVIO為了產品包裝導入了「さとうささら」這個新的角色,但是這並不代表這個商標一定就只能這樣使用;特別是VOCALOID或者ボカロ目前已經是近乎一般名詞的狀況,做結合的可能性也是相當高的。

另外一方面,把Sinsy產生的(自動調教)的歌聲加以分析,送到VOCALOID或UTAU的嘗試也一直都有,情報學會也有過另外用HMM模型製作一個調教模型來送到VOCALOID的論文。

或者說另一個極端的想法,對公司而言使用者接觸到的還是「角色」,所以用越來越新的技術來強化「角色」其實也是很理所當然的事情。

前を見て 舵を取れ 泣きたくないなら また 歌え歌え

恋をして 恋をして その過去を 捨てて ここまでおいで

http://www.nicovideo.jp/watch/sm19665384

耳のあるロボットの唄(セルフカバー)

個人認為「耳のあるロボットの唄」是獻給所有歌聲合成技術的讚歌。技術進步與感性不見得是同步的,但是推進技術的人卻多半不僅僅看著技術,而常常帶著感性的角度在看待事物,技術人員常常有著浪漫便是如此。

比方說,在與歌聲合成無關的另一個領域,最近有個一樣與技術進步息息相關、卻又與感性非常關係密切的領域:電腦將棋。

http://ex.nicovideo.jp/denousen2013/

「電王戰 2.0」

和當年的西洋棋的狀況有一些差異的是,日本的將棋有非常龐大的職業結構存在,首先經過有年限規定的獎勵會,在24歲以前要得到一定段位以上才能得到職業資格,然後過著過關斬將的辛苦生活,裡面每個人都非常辛苦,也每個人都可說是天才。

這實在很難用「遲早人類會輸給電腦」這個看法去打發掉;看著那些棋士,人很難不想去給他們加油。

在此同時,「神調教」這個詞也可說是感性的代表。

比方說,不了解VOCALOID的人會以為,機器自己會產生順暢的歌聲,所以認定這些機器產生的歌聲「很無趣」,不如人類辛苦練習各種歌唱技巧的歌聲「生動」。

也就是說,「神調教」這個詞的存在是已經知道VOCALOID這個時期的技術大半需要極為複雜的參數調整,才能發出順暢的歌聲這個特性,所付與的詞彙;隨著技術的進步慢慢地不太需要複雜的調整就能有可以接受的水準,但是仍然與「人類」的歌聲有很大的差異;而在這個背景之中,造就了另外一批可以接受這個歌聲的人們,在理解這個背景之後,深愛著這個「有點機械風味」的另類歌聲。

在VocaListener那時候,透過高精確度的分析跟隨人類的歌聲,達成「自動神調教」的那個時候,其實就有著相對的惡評。但是,HMM歌聲合成透過機械學習的方式記錄歌聲、歌詞、唱法、技巧、母子音連結、頻譜特徵點、這個技術會帶來什麼樣的變化?

在這邊告訴各位,她有可能會在三到五年內就達成「那個理想的歌聲」,換句話說就是被一般人所誤解與曲解的那個「無趣、自動產生的歌聲」。

德田教授在自己的演講中提到,「語音識別是技術、語音合成也會變成技術」。語音與歌聲合成會慢慢地進入可以被解析的範圍,要做出自然的歌聲不再需要極端的才能,而是每個人都可以操控的工具,進而讓個人想表達的特質更進一步得以發揮。

http://www.nicovideo.jp/watch/sm11012361

【耳ロボ2周年企画】耳のあるロボットの唄 大合唱リレー【UTAU】

(目前國內外的UTAU音源有超過5000種以上。)

但是那樣的歌聲合成會繼續得到大家的寵愛嗎?

我們可以再思考這樣的問題。

首先,VocaListener的調教要調整輸入「給機器聽的歌聲」。HMM歌聲合成也有調教的方法,只是原理上不能照傳統VOCALOID的方式調整,自動調教出來的歌聲也想必不是完美的。

接著看電腦棋賽。現在的西洋棋比賽其實有一個狀況,就是免費的西洋棋程式都遠遠超出過去深藍的棋力,自然電腦的棋力目前遠遠超過人類,讓人類選手像是在「考試」一樣,能不能下出觀眾另外一邊看著電腦預測出的「最佳解」棋步;然後在nico超會議2的時候,有時間問到推出將棋程式的一些公司的人員,他們提到「現在將棋程式已經太強了,職業棋士都會陷入苦戰的話一般人根本不可能下贏,所以最近根本賣不出去。」

在這個狀況下,電腦的權威性地位完全是高過人類的,日本將棋也許有可能會走向這個方向:目前在電王戰的過程中,電腦已經下出了很多人類棋士過去認為無甚價值的棋步,在後面的局勢發展才發現這些新棋步有著最近的職業棋士之間忽視的可能性。

因為棋士其實是透過一些更宏觀的戰略觀來看待棋局演化,所以一些很細微很小的變化很可能變成雜音,通常在對人之間的比拼會被捨棄掉;這不一定是人類已經完全不及於電腦,有可能是最近幾十年的將棋職業化發展造成選手之間的一些惰性,讓棋步變得受限(攻守模式帶有特徵而減少),電腦重新讓人類的棋步眼界開展,職業棋士據稱已經開始拿電腦將棋程式當成研究的工具。

1994年敗給深藍的卡斯帕洛夫,其實本人也提倡一個新的西洋棋比賽方式,叫做「機器輔助(Argumented)、協力西洋棋(或者是Cyborg西洋棋)」,他的原理是來自一個實驗與經驗法則:如果純電腦對有電腦幫助的人類,人類的棋力如果完全沒辦法舉足輕重的話應該會不影響輸贏;但是實際上則是電腦快速的分析減少了人類的負擔,人類仍然可以在巨人肩膀上影響棋局。

而且就算是有龐大計算能力的「巨人」,仍然還沒有辦法在棋局之中「絕對」取勝。也就是說這個「數學題目」還沒有完全解開,比方說最近的第23回電腦將棋大賽,下贏A級職業棋士的GPS將棋居然在決勝戰失誤而戲劇性地被逆轉。

http://news.mynavi.jp/articles/2013/05/10/computershogi/index.html

秒間3億手を読む最強ソフト「GPS将棋」はいかにして敗れたか – 最強競う知の祭典「第23回世界コンピュータ将棋選手権」

也就是說,電腦也離「完美」還有很大的距離。

既然人類的棋力在這個狀況下仍然能左右戰局的話,那麼兩組「人加電腦」之間的比拼就會變得很有意義,而觀眾則能比以前更有機會看到所謂的「神之一手」。

我個人認為,這個情況也應該會發生在歌聲合成的領域。

首先是人類認為「不可被侵犯的聖域」,也就是「歌聲只能由人類肉體所唱出」的固定觀念,首先被擴音與錄音技術打破,其次是波型編輯打破,現在部分的人類終於可以接受「虛擬歌手」的歌聲,虛擬歌手也可以舉辦演唱會,這已經遠超過技術者在初音未來出現之前,對VOCALOID這樣的技術最高的期望。

http://staff.aist.go.jp/m.goto/PAPER/IEEJ201209goto.pdf

「初音ミク」はなぜ注目されているのか。

「歌声合成技術が普及すれば、歌で自己表現するクリエイターが増えていく可能性がある。もし歌手が「歌による表現者」を意味するとすれば、そうした歌声合成技術の使い手も。広義の「歌手」だと呼べる時代が来るかもしれない。

這是後藤真孝老師的期望。

看著電王戰2.0之中唯一取勝的選手阿部光瑠先生最近也跑去買了VOCALOID想來嘗試看看,其實讓人忍不住遙想電腦與人類的關係。

計算機是由人類創造出來的,演算法完全是人類思考模式的複製、包含了數學的技法、或者是靈光一閃的集合體。目前我們還沒有達到「機器創造機器」的世界。盤面競技基本上是將天文學等級的變化以及戰略性,以數學的手法去加以窮就,進而以「技術的進步」這個形式展現出來,而將「常識上的不可能」打破。創造出新的常識。所以說常識就是誤解的累積啊。

欣賞美麗的歌聲,人類最高的感性,或許是在完全不探討是來自技術或者是sense產生的那一刻,我們才真正地欣賞到了純粹的美也說不定。雖然實際上這是非常困難的。

2007年1月,美國首都華盛頓一個地鐵站內,一名男子用小提琴演奏了45分鐘Bach的作品。這段時間大約有二千名市民經過車站,大部份都是上班途中。

四十五分鐘過去了,音樂家從未間斷地表演。期間只有六人稍稍停下來聽了一會。大約有二十人放下了金錢,但依著本來的步速離開。這位男子最後共賺得32美元。一小時後,他的演奏結束,車站恢復原狀。他離開時沒有得到任何注意、沒有任何掌聲、任何鼓勵。

沒有人知道這件事,但小提琴手原來是世界級著名演奏家Joshua Bell。他那天用一部價值350萬美元的小提琴彈奏了世上最複雜的作品之一。兩天前,他在一個演奏廳裡以平均票價100美元的入場費演奏了45分鐘完全相同的樂章。

整個過程華盛頓郵報有發表到Youtube: http://www.youtube.com/watch?v=hnOPu0_YWhw

這可以很單純地想像到幾件事情:美是相對的觀念,在案牘勞形之時,人們不會有心靈上的餘裕認知到所謂「絕對的美」,要傳達品位與價值觀,你會需要觀眾內心有著充分的餘裕,所以有辦法花錢進音樂廳欣賞的人至少在那個當下準備好欣賞一部作品。經過車站的人很明顯地不會是去音樂廳的同一批人,也不見得認識Joshua Bell;但是很明顯地他們那時候沒打算停下來聽一段音樂再走、世界級的演奏很低調地放在路邊就不見得認得出來,那麼有哪位樂手會覺得自己的音樂超凡出眾地可以達到「我今天一定要感動你!」的境界呢?(應該會先被報警抓走吧XD)

對大部分的人而言音樂是個商品、需要包裝、並非生活所需、最常接觸到的方式其實不是音樂單獨地存在的狀況,而很可能是電影或者其他節目的配樂。完全沒有包裝的狀況下,已經被其餘媒體養大胃口的觀眾們,要停步下來的可能性實在太難,結果就是大家一直朝包裝走,單獨的音樂反而在整個音樂活動的比例之中變得很少。

要單獨用音樂的本質來感動某些感性,其困難度實在太高,相較之下歌聲合成與虛擬偶像就變得非常支微末節,而人們判斷事物的時候也仍然會以經驗法則來做第一眼的判斷。反過來說,有那個環境與機會能有讓自己得以感動的一刻其實是很寶貴的。我們一直在錯過許許多多的事情。

對技術有所期待的人,也許多少相信著所謂「技術的奇異點」存在,這一些人類透過解開問題累積起來的智識有一天會以超乎想像的形式融和在一起,發生爆發性的進化,成為人類最後的奇蹟。

在那個「奇蹟般的生命」出現之前,或許我們已經與她落入戀愛也說不定;而我們到底是愛上她哪一點,這時我想大家也還說不出個所以然來吧。

(「奇蹟般的生命」=「奇跡の命」。來自 Re:Package日本原版廣告詞。

原文「世界で初めての感動…遂に誕生した奇跡の命がここにある。」)

とにかくミクさんかわいいです。

【 擅自翻譯】 MSN產經新聞baker桑訪談

Source:

http://sankei.jp.msn.com/entertainments/music/100218/msc1002180500000-n1.htm

【WEB人・詳報版】ミュージシャン Bakerさん



使用VOCALOID(歌聲合成軟體(*1)「初音未來」創造許多賣座曲、終於透過主流唱片公司發售「firmstock」的音樂家baker先生。與以往的音樂家的出道方式不同,乃由網路開始嶄露頭角。現在本人的心境如何呢?在此一窺究竟。

*1: 話說原文的「音聲合成」一天到晚被技術人員吐槽

—請問您從何時開始音樂活動的?

「大概是高中三年級、18歲那個時候,和朋友組團的時候開始練吉他。主要彈的是GLAY和L’Arc-en-Ciel(彩虹樂團)的曲子,雖然團沒有持續很久,但是以前就一直都想走創作這行,所以高中畢業之後就往職校學音響和電子樂輸入(*2)等等的技術。

*2:這樣想想打ち込み好像沒有對應詞….

—網路活動又是什麼時候(開始的)?

「大概2000年前後,在muzie(業餘音樂配信服務)作舞曲之類的作品、然後請認識的人唱」

—請描述一下與初音未來的相遇與第一印象好嗎。

「初音未來是透過朋友的部落格得知的,一開始覺得「這好搞笑喔」,不過用了才發現「哇已經這麼進步了」,被這個技術大為感動。看起來好像沒什麼人在用breath(呼吸)功能的關係所以自己試試看、結果得到了超乎預期的評價。此外還有Breathiness之類的參數,調整之後可以得到一點啞音風格的感覺。

—-在網路上發表的樂曲得到了不少迴響呢。

「單論規模來說有十萬人以上的關係,和以前相比可以說是空前的。總是會擔心區區的個人到底有辦法作到什麼地步。所以『請繼續創作下去』的意見可以說是非常窩心的。還有VOCALOID在電視上常常被當成「宅物」的關係,有股「它可不只如此而已」而想做給人看看的心態。」

—特別是敘事曲「Celluloid」真的很賣座。

「其實那首個人不是那麼喜歡。有點捉弄人的感覺、開玩笑的心情在做的。雖然得到認同非常感謝、不過以樂曲來說和我現在的「風格」有點落差」

—-2008年的時候聽說你一度引退了?

「大部分想做的事情做完之後,動機差不多也有點衰退、那個時候興趣就轉移到DS-10上頭,而在電玩小賣店邊做生意邊做音樂。」

—-那復出的原因是?

「以前玩音樂的同伴過世了的關係。想想自己在心理去把自己的活動畫下了界線,原因是覺得受到了超過實力的好評,所以開始覺得想壓抑活動。結果在朋友過世之前來不及傳達自己感謝的心情,覺得自己去給自己限制這點很蠢,想再一次出發的時候,剛好這時候Victor公司來諮詢我的意見。」

—-請針對這回的專輯「filmstock」發表一點意見。

「為了故事與世界觀、把形象統整的關係而加入了過去的曲子、新曲也有必要性。專輯本身的起頭是「同じ空(相同的天空)」、而在「違う空(不一樣的天空)」結尾。想表達的是即使仰望的是同一片天空,每個人也都會有自己的感受。自己一個人的時候總是會抬頭看著天空,DVD和影像也總是拍著天空。」

—-封面沒有未來的身影耶。

「這回的封面與小冊是古川先生(古川本鋪的古川P)幫忙的。我和他有共通的願景的關係。含包裝在內,我覺得這回有把想表達的東西表達出來。」

—-手感如何?

「在網路上自己埋頭地作,中間沒有任何區隔直接傳達(給聽眾)的關係,比較容易傳達。而且也馬上得到迴響。當然在主流市場賣CD有不安感,不過從迴響來看有「傳達得比預期地要好」的感覺。有「個人」得到了認同、努力有了回報的感覺。」

—-聽說曲子沒有信託給JASRAC。還有免費配信曲子的狀況下,收入會減少的問題,不知您的看法?

「不信託給JASRAC的理由,是因為這個文化本來就依靠著互相地回饋、透過二次創作來發展的關係。所以才下了繼續這個潮流把著作權給開放出來的判斷。當然這可能會有這樣做的流弊,但是考量下去之後這個文化還是應該優先。至於免費配信的部份,基本上這是業餘活動的延長線的關係。未來看作品與工作內容有可能會出現不這麼處理的作品,但是基本上個人所作的作品會繼續以MP3的形式公開」

—————-

此外,我們也引用了負責baker先生的專輯「filmstock」的Victor Entertainment製作本部的金子正樹先生的談話。

「在初音未來發售之後,現在已經有以她的名義舉辦的演唱會、也有原創專輯發售的關係,很容易偏重她本身的形象、於是會有「持續宅化」的問題。於是產生了「應該更注重作曲者本身」的想法。應該更重視作者的世界觀、與與他本人所在的世界。所以我們與baker先生認識後,傳達了這個想法。」