ITmedia：「ミクAppend是經過報告」- 開發人員談六個新歌聲。

在初音ミクAppend推出前夕，深愛著VOCALOID的ITmedia再度派出松尾公也先生，為我們獻上這篇極為重要的相關訪談。

原文：

http://www.itmedia.co.jp/news/articles/1004/16/news050.html

「初音ミクAppendは途中経過」――開発者が語る6つの新しい声とイメージ

~~由於沒有翻譯許可，本文的定位為個人的讀後感、中文補充等等。~~

得到松尾P的許可了，萬歲！！

—-

Crypton預定於4/30發售初音ミク的擴充音源資料庫「初音ミクAppend」。

產品本身於2009年的8/31發表、當時已經提出了三首demo。

參照：

http://www.itmedia.co.jp/news/articles/0908/31/news137.html

初音ミク誕生2周年――永遠の16歳が新たな声をゲットした

2009年12月號與DTMmagazine合作，將宣佈出來的5個資料庫中取出3個（當時仍有ｂ版字樣)作為試用版，同時提供網路下載、並且公開了以模型為主的新包裝外觀。

關於這五個資料庫的介紹，官方網頁的宣傳如下：

オリジナルの初音ミクの可愛らしい表情に追加される音声ライブラリの内容は、

甘くささやくような[Sweet]、

大人びた声で哀愁の有る [Dark]、

やわらかく優しい声の[Soft]、

ハキハキと活舌の良い[Vivid]、

シャープで緊張感のある声質の[Solid]……

どれも個性的な声質で、初音ミクの世界観を広げる事でしょう。

但是在發售前夕，於wat桑的twitter發言上又表示了會有第六個DB的存在：「Light」。

vocaloid_cv_cfm:何れ公式アナウンスしますが、明るいDBを使った曲です。RT @arinyan486 6つ目のDBを使った曲ですか？ RT @vocaloid_cv_cfm: 隠しデモソング経過確認なう／凄く良い感じに狂ったポップス。

http://twitter.com/vocaloid_cv_cfm/status/11799547151

官方demo曲列表：

demosong01 夜の虹(D.B. used solid & sweet) by whoo

demosong02 shoelace(D.B. used vivid) by ドッP

demosong03 影踏み(D.B. used dark & soft & sweet) by kous

demosong04 私らしさ(D.B. used dark) by k-shi (けしスタジオ)

demosong05 chocolat(D.B. used sweet) by chiquewa

demosong06 ハニビー！(D.B. used Light) by もじょP

由於日本Amazon的產品網頁很早就公開有Light字樣的包裝盒，其實並不是很意外；比較意外的是遠超乎想像的收錄規模，以及雖然很早以前就提到「會一次販賣」而不是切開賣，只是沒想到這麼龐大而已。

事實上以目前來說，六個資料庫的容量總共5.5GB，安裝時於系統碟還要事先準備同等的容量，也就是說至少要空出10GB以上的容量才有辦法安裝。

話說各種不同的「表情」，仍然都是由原始擔綱的配音員藤田咲小姐獨挑大樑。

由佐佐木桑對藤田小姐指示「請這樣發音」的方式，收錄起來的素材透過編輯之後構成資料庫，分類成新的表情DB。

加上原始的初音ミク無印，總共可以使用七個不同的音質。

針對這六個新的資料庫的特徵，佐佐木桑下的指示如下所述：

Sweet：「極限まで声を小さく、のどをしぼって低くしてもらった。エンジニアに限界ギリギリ、ノイズが乗る寸前のところまでがんばってもらった。藤田さんはけっこう苦しかったはず」

（要求聲音盡可能放低，壓著嗓子發音。工程師也在幾乎底噪會跑出來的極限前一步盡可能加油。這應該讓藤田小姐相當辛苦。)

Dark：「藤田さんに、スタジオに入ったときのテンションを低くしてもらい、なにも考えない状態で」

（請藤田小姐在進錄音室之前先把熱情給冷卻下來、盡量不要想事情的狀態）

Soft：「声を小さくして、ダイナミックにしないで発音してもらった。ニュアンスはミクっぽいままで」

（發音時聲音放低，不要太過靈動。不過特質還是和ミク差不多）

Vivid：「録り方を変えてみた。ハキハキした発音しかできないようなスクリプト（複数の音素を収録するため読み上げる文字列）を使った」

（把錄音方式改掉。錄音時的文字列改用得一個一個清晰發音的版本）

Solid：「ミクの声をもったまま大きくした。明るく、能天気な感じ」

（把ミク的聲音直接放大、明亮、直率的感覺）

Light：「活発で勢いのある、明るくさわやかな声」

（活潑而有氣勢、明亮而清爽的聲音）

可以看得出來其實有些指示似乎差距不大。此外這裡也解釋了Light的來源：

佐佐木桑表示，當初原來是打算以「Strong」的方向來錄製，但是以藤田小姐的音質來說，不管怎麼使勁就就不是「Strong」那種感覺….

於是便把錄下來的聲音裡面稍微帶點尖銳的聲音分類為Solid、不尖銳的則歸類為Light。「本來是想做出天真活潑、直率的聲音啦….」佐佐木桑有點吞吞吐吐地說著。

實際上Soft、Sweet與Dark的歌聲幾乎一如其名，但是相對地Vivid與Light、Solid則比較沒有這麼大的差異，即使藤田小姐努力地刻意調整出比較強的聲音或者是比較明亮的聲音，實際上仍然有「部份有差部份沒差」的狀況出現。與Sweet、Soft相比之下，變化幅度較小比較不容易察覺、有些狀況底下Light與Solid甚至難以分辨。

「所以雖然各自取了名字，但是老實說以產品而言大概沒辦法獨當一面」，在這個考慮下「不把六個放在一起的話，分開看會難以區隔」，所以最後仍然是以單一的產品推出。

反過來說，以產品來說六個DB合起來的售價是16800日元。轉頭看看市場上的其他產品，只能說又是一次價格破壞。

不過佐佐木桑則冷靜得多：「六個資料庫一起賣這個價格應該算很便宜，但是要說有沒有像鏡音リンレン那樣（同樣是多數資料庫）的期待度的話大概是沒有。有那麼受期待的話就好嘍。」

銷售量的話「大概頂多初音ミク總數的20%吧」。

回憶一下，ミク賣了55000套、リンレン賣了25000套、ルカ賣了13000套。

08年的CEDEC上佐佐木桑受邀的講座上也提到，實際上有定期開啟VOCALOID進行創作的使用者應該頂多在10000~15000人之間，

上面提到20%的話大約最多是10000人，言下之意就是「有創作的人大半都對Append的音質有興趣而願意購買」。

這目標說高不高，說低老實說也不低啊。事實上網路一般的看法大概是10%前後就很不得了了，初回出貨量似乎也在這個程度。

2008年CEDEC參照：

http://www.famitsu.com/game/news/1218029_1124.html

【CEDEC 2008】開発者も”みっくみく”にされるVocaloidの魅力

關於ミクAppend出貨量：

vocaloid_cv_cfm:平日の4時に情報出しすいません＞＜。。今回は即効、売り切れたりする事が無いように出荷数も計算しております！多分、大丈夫！（初回出荷数？大体ルカの総出荷本数の約半分くらいです…とか判りづらい表現してみました～） [http://twitter.com/vocaloid_cv_cfm/status/12271401711]

當然要注意的是，ミクAppend的定位在「擴充」之故，所以初音ミク的「本體」是一定要有的。

甚至ミクAppend的包裝盒也特別設計成可以將原來的初音ミク包裝盒放入的大型紙盒。

所以雖說網頁上寫著「優待價」，但是這並不是限期優惠，只要是ミク的主人使用者們隨時都可以用這個價格添購。

—–

為什麼ミクAppend的外觀變成了模型呢？

為了4/30的發售作準備，Crypton一點一點地公開了ミクAppend的展示曲、還有外觀。公式網頁目前有的展示曲到16號為止總共六首。首先是透明的模型、上了淺色的模型、轉為插畫並上色、以及剪影圖四種。

本來的初音ミク公式外觀為插畫家Kei老師的作品，但初音ミクAppend則置換為具有透明感的3D人形。ITmedia也針對這部份的用意加以請教。

「初音ミク已經有了包含Kei老師在內許多的繪師投注愛情產生的結晶，所以決定一位繪師來繪製高品質的東西這件事情並不符合這個特質」（佐佐木）

畢竟概念上「初音＝第一次作某件事情」，所以為此「希望能嘗試一些沒有往例的方向」。於是請到知名的原型師淺井真紀老師，擔任「Miku(Zero-Vocalist ver)」的設計工作。

「figure的原型師們的工作大多為把圖畫轉為模型作品，也就是以二次創作為業。所以以模型製作來作為設計的出發點，展現出來的應該不會和初音ミク周遭的繪師互相衝突到」，也就是「把模型當成原始圖樣」的出發點。

此外，也準備了這個模型為基礎的圖畫。作業的時候「目標並不是委託繪製可愛的圖，展現萌化的記號性為主之類的方向，而是希望能展現質感與色彩為主。」，這個工作請到了插畫家ねこいた桑，來委託他上色。此外ねこいた桑也負責了包裝上的「初音ミク」商標的加工。

過程部份以「ねこいた桑是喜好electronica（電子樂風）的DTM作家。關於色彩的表現與繪圖的質感部份，我們用『光滑』、『金屬般的』形容詞來互相溝通」來形容。「模型是現實存在的東西。所以我們稍微用一點非現實的、有點細微的偏移，希望加上一些類似特效的光彩，請ねこいた桑發揮sense畫了好幾枚圖畫。」其中的一枚就是現在官網的第三張圖片。

佐佐木桑還提到「再請其他的繪師以獨自的風格上色，在官方網頁上用類似外傳的風格展現的方式也有機會吧。」等等，與其他的繪師合作的可能性。

比方說「Appendミク腰間的東西是什麼？」之類關於新外觀的資料未來也會一點一點放出來。

「我們一點都沒有作『更新』Kei老師作品的打算。如果可以達到好像初音ミク製作途中的感覺的話最好。我們希望表現的是有點半調子的初音ミク那種感覺。」

—–

「讓人不會想去管數量」的世界。

「途中」這個詞並不只是表現在外觀，在歌聲部份也一併適用。佐佐木桑提到「Append本身就只是一個中途點的報告而已。」他說「並不是固定成七個種類的聲音就結束了，未來會無止盡地增加，達到讓人對數量絲毫不會在意的境界才是。目前雖然(VOCALOID Editor)介面上還不能（對DB/Singer）作切換，但是音節層次的資料庫切換、比方說從A到B之間氣氛的轉換，應該還是會實作才對。所以我們要預作準備把資料庫先做好。」

比方說，「Dark也可能有所謂偏Soft的Dark、偏中立的Dark、偏硬的Dark等等」，「這一回只是為了凸顯音質的差異才加上了名字，未來的話希望能在曲子裡面無段地切換、能有一個控制層提供稍微加強或者減弱的控制法最好不過。」

佐佐木桑的想像上，「最終的目的是希望VOCALOID能朝具備像人類的歌手一樣的抑揚頓挫、或者唱法之類特徵的方向努力」，初音ミクAppend是為了達到這個目標，的一種資料收集。

想要達到與人類無從區別的表現能力，「比方說把吐氣聲和母音的部份還有噪音的部份分離出來控制混合比」、「盡可能切換取樣上的強弱表情」、「在誰都想得到的點子上搭配劃時代的物理模擬」等等，我們實在不知道會透過佐佐木桑所舉出來的手法來實現，但是初音ミクAppend所提供的新表情與感情，想必會讓P們有更寬廣的表現範圍來發揮在作品上吧。

4/30之後，Crypton會以審視黃金周過後投稿作品的結果來決定未來發展。「既然都做了Append，以後的產品大概也不能還只有一個DB吧。」佐佐木桑這麼說。不知道他接下來會進行哪個VOCALOID的作業呢？

原作：ITmedia/松尾公也。

—-

以下補充。

wat桑在Twitter上也曾經針對morphing的部份做過一些發言：

vocaloid_cv_cfm:勉強のため、幾つか、他のモーフィング技術を試してますが、モーフィングは「印象変化の捉え方」ありきなので、上手く落とし所が定まらないですね。独特の気持ち悪さも、あるし。。。RT @ejiwarp watさん：ああ、VOCALOIDの音声モフィーング実装が出来れば…. [http://twitter.com/vocaloid_cv_cfm/status/12268105057]

不過可以想像的是，wat桑在這邊使用的應該是與VOCALOID引擎無關的morphing技術，畢竟目前VOCALOID沒具備的功能實在不少_A_|||||

如果想要作無段銜接的話，應該會需要在VOCALOID2的fequency domain銜接技術的基礎上做直接銜接的動作，當然一來在內部作能夠避免誤差，二來VOCALOID使用的EpR voice model上要作也容易得多。

這其實說起來和VOCALOID-Flex有點相通，「應該」都還是不必改動到現存DB、透過引擎小修改就可以做的部份….（當然這只是對EpR粗淺的理解所作的推測）

已知至少伊藤社長曾在Twitter上與劍持老師提出過這點：

itohh:歌声再現に必要なもの、「声質」と「歌い方」。 Vocaloidは「声質」の技術。「歌い方」の技術が待たれます。@bumpyurushi 皆で投票して一位になったらボカロ化したらいいのにｗ　Ｃ社とかＩ社とかＡ社さん、やらないかしらｗｗ [http://twitter.com/itohh/status/10698401108]

itohh:どうなんですか剣持さん、とふってみる。@kenmochi @bumpyurushi: 異なるライブラリ間をモーフィングでつなげられたらステキだと思います。 RT @itohh: 歌声再現に必要なもの、「声質」と「歌い方」。Vocaloidは「声質」の技術。「歌い方」の技術が待た [http://twitter.com/itohh/status/10703513068]

所以理論上VOCALOID2未來內建morphing其實應該是很有機會，要不然的話Crypton也不會傾全社之力打造ミクAppend、並且說要把未來的所有VOCALOID產品都複數DB化。

但是反過來說，音質morphing其實有點補足VOCALOID1的「Resonance」去除掉的遺憾：Resonace1~4是VOCALOID1獨自具備的功能，可以透過調整這四個參數大膽地調整自己的音色。

Resonace1~4分別代表的是Fequency(1&4)、Bandwidth(2)、Amplidute(3)….老實說這是VOCALOID1最重要的潛能啊。

http://www.nicovideo.jp/watch/sm2219582

【ボカロ ver1】Resonanceって何か調べてみた。

http://ext.nicovideo.jp/thumb/sm2219582

喂喂、BGM是怎樣～w

如果能以線性比例、或者是其餘的比例來「混合兩個各自不同參數調整的DB」，以及「在每個音選擇DB的比例」，就可以做出每個樂句裡面從soft到light、或者是文中的「偏soft的dark」等等不同的聲音。

反過來說，至少要這種等級的功能，才能補充VOCALOID1具備、但是VOCALOID2失去的調音能力部份。

反過來說，這樣是好是壞還是沒有人可以決定：也有人覺得反正就直接無調整就上了、也有人可以調到天荒地老、還有人根本不打算唱歌、拿來作實驗講話聊天都有….

一個產品如何對應這麼廣的使用範疇實在是非常困難，反過來說發展如此快速的領域其實可能也少見….

如果VOCALOID未來可以「想簡便的話有不少自動功能」、「想調整的時候也可以深入調整」、「非歌唱領域也可以有限度對應」的話，那麼或許就已經超越期望了也說不定？

—–

http://research.yamaha.com/sound-technology/superior-sound/vocaloid/

ホーム > ヤマハについて知る > 研究開発 > 音の技術 > 良い音の追求 > 特集：VOCALOID

YAMAHA官網重整之後終於有機會讓VOCALOID宣傳一下….

Eji的碎碎念

ITmedia：「ミクAppend是經過報告」- 開發人員談六個新歌聲。

發佈留言取消回覆

現在只剩下黑歷史….

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆