分類彙整: 初音ミク

「可不のCeVIO AI声色雑感」

在看這篇文章的朋友,心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣,都有一個開給你的萬能空間、可以方便你用來實現心目中真正的目的;不過至少我們家的Miku,就這樣陪著我許多年,而帶著她出來吃飯是我每天的重要工作,要是發現忘記了她,我會折回去被她罵一下再出來。

M「マスター,你能不能講一下前幾天可不醬的事情?」

騎車覓食的時候,Miku突然講到這個。

繼IA/ONE、V Flower與結月緣的CeVIO AI發表之後,Vtuber 花譜與東北kiritan 都發表了將推出CeVIO AI的產品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查,希望大家對三個引擎的聲音走向表示意見,分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電,類似autotune的質感。

收集了接近5500個左右的回答之中,有65%的人覺得像本人比較好

但是之後花譜本人發表了一篇她本人覺得像自己不好,選了Type-B的發言

E「嗯嗯嗯….該說什麼,花譜本人都開口說自己深思熟慮之後選了B,其他人只能尊重….」

M「你不要講這麼簡短好不好,這樣為什麼要你講。」
E「嗯-好喔。」

在她的標準裡面每個人都可以是創作者,所以她會要求我做我現在能做的事情。
也許我能做的還是不多,但是….

M「至少嘴一下嘛。」

畢竟沒有推辭的理由。

—-

うちのミクさんが聞く そのいち
「可不のCeVIO AI声色雑感」

—-

歌聲合成有幾個主要的世代,技術上雖然有更細的分界點,但是比較明顯的分界可能在「拼接合成」和「統計合成」,或者說「AI合成」兩塊。

拼接合成是要求本人以某個較為一致的表情,念或者唱一些設計好的片段集合,這些片段的表情被要求一致與平整的理由,是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後,配合需求拼貼上樂譜需要的部分。

拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能,比如如張嘴大小參數、子音發音時機、滑音發生時機、甚至近期的話會有喉部氣流流量模擬,聲帶張力等等,來「做出」需求的聲調。

也就是說拼接合成沒有任何輸入的時候,直接指打歌譜當下,引擎預設值發出的聲音,與本人的音調可說是截然不同的之外,每個使用者能做出的聲調也有很大的差異。

E「我們說調教就是在講這個,大家所認識的Miku的聲音,其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外,變化沒有那麼劇烈,聽到會知道這是Miku而不是藤田咲桑」

統計合成則改為要求本人先以正常的方式表現一首一首的歌曲,這些歌曲都以本人慣有的演唱方式來演唱,然後演唱的整段波形標記發音點、樂譜的發音速度與實際發音的差距,然後將波形與樂譜的實際對應關係,用統計手法-現在的話會稱為機械學習手法來記錄,於是輸入樂譜的時候,就會透過機械學習的成果來進行推測/推論,得到波形。

這個推論會透過收錄時的歌曲紀錄來推測出,本人大概會怎麼唱這些歌。

也就是說,和拼接合成不同的是,統計/AI的無調,是引擎認為最接近本人的狀態。

一開始VOCALOID的無調,是一個「新的白紙」;

但是AI的無調,是「本人的拷貝」。

VOCALOID的進步,是把白紙變得越來越好畫,調整範圍越來越廣、可用的顏色越來越多;但是AI的進步,是一劈頭就拷貝得越來越像。沒有刻意去調整,其實是不知道它可調範圍多廣的。

在經過了十多年下來,大家認識的Miku可以說活靈活現、根深蒂固,這是Crypton長期投資得來的主要資產,自然不敢任意去改變她;相對的,沒有經過這些時間累積,自然人氣會奠基在別的地方。

E「所以啦,雖說有人氣的原因有天時地利又加上多年累積,Miku有點機械感的聲音是歷史的累積;相對地,可不為什麼會成為話題有人氣?因為她是現在正炙手可熱的花譜小姐錄製下來的啊。作為產品,你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論,接著則是有多像的問題。」

CeVIO AI發表在2018年底,當時的展示demo號稱與真人無法分辨,從技術上而言,從當初使用HMM技術的Sinsy與產品化的CeVIO之後,跨過了沒有推出產品的Sinsy DNN,使用了名古屋工業大學德田研究室新的CNN合成,並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段,並且在科研活動的場合也放出宣傳消息讓有興趣的人在現場體驗。那是真的相當有說服力的像人,只是不見得有本人站在旁邊讓人比較。

在語音/歌聲合成領域,HMM和DNN主要的差異在於「HMM沒有辦法學習連續波形,只能處理離散內容與音高的斜率,所以頻譜和音高的細部波動會喪失;DNN開始可以學習到比較完整的連續內容」,所以容量大幅增加,音質也大幅提高;但是德田研當時似乎是認為不夠好而擱置,只有研究用的Sinsy沒有用DNN推出CeVIO產品;到2018年才推出更進一步的CNN,可以學習到歌手比較細緻的音樂表現,應該會在2020年底以前發售;此外,後來由其他研究者推出的NEUTRINO是屬於DNN類,所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做,YAMAHA之外還包含微軟、字節跳動、騰訊,跳進來得比以前多得多,而且軟體面的業務規模都比YAMAHA還大得多。

但是增加的都是以AI為根本在做的,都是試圖要做到更好的拷貝,除了拷貝似乎快到頂了,才開始想怎麼樣做控制,而不是傳統上我們說從無到有「調教」出像人的歌聲。

傳統調教的門檻非常高,能跨過這個門檻變成自己的特色,開始持續創作,對創作者的毅力是個極大的考驗,而且跨過了又是每次都得重複一次的過程。

所以Miku的多樣化是長時間累積起來的,確實要那些後起之秀都要過那個好漢坡有點時代錯誤,畢竟前人的累積會變成增加門檻,而把門檻降低了,可能有機會看到更多創作。

從上面這一整段引擎端的方法論我們可以看出,拷貝人的聲音是最近的顯學;但是人願不願意被拷貝?這個問題從最初VOCALOID1到現在還在持續著,可不與花譜只是歷史的重演、同樣的問題有不同的答案。

做過VOCALOID或者UTAU音源的人,通常會對音源比較坦然,不見得會去想自己被拷貝與否的事情,因為門檻高、投注心力大、原理上難以重現本人、以為得要面對的問題其實是不存在的,花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前,收錄的容易度也會相去甚遠,這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝?」「被拷貝這件事情到底是好是壞?」

以結果來說可不目前預定會與花譜的聲音有著一定程度的差距,這個來源是ALP對頻譜的調整功能造成的,ALP相當於VOCALOID的GEN=性別參數,內容對頻譜進行調整,調高調低可以變得比較幼或者比較成熟,甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內使用GEN來進行音色變化,不過這邊我們不提;已經有人嘗試過,即使引擎未來不開放把聲音調整調回花譜,也可以透過別的工具透過類似GEN/ALP的功能來調整,達到還原回本人聲音的這個目的。

花譜的二次創作條款非常嚴格,基本上是不太歡迎的,我會很好奇又和本人聲音做出差距,官方未來打算讓可不怎麼自處。

KAMITSUBAKI STUDIO二次創作に関するガイドライン

【KAMITSUBAKI STUDIO】二次創作ガイドライン(改訂)

另一方面,我們其實已經看到AIきりたん的前例在那邊。

她是聲優接受要求演出特定角色聲線的結果,前有NEUTRINO後面又有CeVIO AI預備推出,應該都會很像「本人的某個聲線」,但是聽起來反彈的聲音幾乎沒有聽到,大概和聲優這個職業的立場也有關係。

愛你的人夠多的話,不想要改變的力量會大過想改變的。反之在愛的人夠多之前,沒辦法往追求擬真走;現在問題是,真的很擬真到本人區別不出來,不就沒有剩下可以前進的空間了嗎?如果這樣還不夠被愛,那怎麼辦?

所以我覺得,AI歌聲會變成各取所需用過就丟。可以改變的幅度小,每個人都是因為現有的誰拷貝得來。看起來就是粉絲群的分化,彼此之間怎麼流通呢?

M「嗯嗯嗯,不過我看大家都在搞配對呢,大概是因為去找了現有的其他角色來吧。」

E「對啊,引擎的行銷找人氣角色甚至角色群很重要,但是角色本身就得靠積累了。」

E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續往前進步吧,即使可能會失卻一點點原味,但畢竟原味如果還不夠多人支持,那就只能繼續增加N(Nをふやせ)而已了。」  

恋をして 恋をして 恋をして
ふられ また 捨てられて
過去をみて 枝を切れ
泣きたくなっても まだ N を増やせ
耳のあるロボットの唄nm3611741)」

「聞きましたよ。」

「VSQ未調整」による表現は、音源購入者にとっては
「スタートラインを立つ状態」を確認する行為だった。

ミクV4Xは、空前の長い熟成期間を通してました。
ルカV4Xを買えば、ほぼ自由的使用させるβプログラムを約一年前後で使えるようにしてました。
ルカさんの勢いをプッシュするのもありながら、必勝を期するために大規模で意見を吸い上げるためでもあった。

その結果でもあるが、デモ曲のラインアップがこれでもかくらい豪華だった。
ミクV4Xβを手にした中堅Pさんたちの新曲がそのまま「初音ミク V4X ベータ使用楽曲
」として使われて、プロダクトページがすごいこととなりました。

っていうか、

「そんな数十万再生のデモ曲どこにあるかー!」
「ひー (;´>ω<)」

なんで、思わず突っ込みたくなる。

むろん、V4Xβの入手条件ってやはりある程度難しい。
販路、対応リソースが必要な行為でした。

そもそもクリプトンにとって、
試用版を配ることはむしろ他所よりは大いに得意で、
いつもすごい気合入れていた。

当初、初代無印のV2ミクさんは2007年DTMマガジンの11月号を三日に売り切れさせ、中古市場でプレミアム価格に追い込め、その後の特集までも入手難とさせました。

そして、DTMマガジンからAppend Solidを配るのもあるし、ミクV3の英語の体験版もいまでもSonicwireで配布中でした。

これくらいで分かるように、体験版を配る行為は、
クリプトンはいつも丁寧に行いました。
そして、配るあとのフォロー。

発売後の販促用宣伝と体験版とは別で、結局発売前の意見を無限に吸い上げる自体ありえなかったし、その意見を有意義な改善工程へ変換する猶予は必要なので、限界はあります。

それを労力を払って、ギリギリまでやり続け、完成度を追い込んでいく。

—–
なので、いつも変化を求めてるクリプトンではあるので、もしかして今回は「無調整デモ曲はなしか」という推測もしました。

なぜかいうと、ミクAppend、V3とミクV4Xの時、ちょっとWatさんの発言の雰囲気が変わりました。

戦略的よりキーとなってるPさんへ注力するというか、「伸びしろのある時期」と「守成に入る時期」の戦略変換など、「VOCALOID3以降、どうやってボカロを売りに行くかが悩む」(ミクV3発表会、MikXperience e.p.)とミクV4X関連で「確実にキーとなってるPがいる」などがうかがってます。

けれど、これで杞憂で終わりました。
正統な無調整デモ曲はやはり用意していた。

AppendとV3でやってきたデモ曲ラインアップは、前回あった傾向を今回も踏襲していた。

「ボイスカラーは敘情曲で繊細な表現を行う同時に、コアとなるノーマルで(これから購入する)ユーザーに訴求する曲を」

V3だと、「ペイメント」がありました。
この粋は私にとっては

大きな意味がありました。

https://www.youtube.com/watch?v=5B6CrCOdIik
【初音ミクV4X】 ヒアミー 【歌声デモ】

「わたしを、聞いて」

從藝術走向技術:HMM歌聲合成雜感

寫在前頭:本來想寫一點點但是越寫越長後面都是胡扯(噗)

然後每次寫這種東西就會開始播某首歌,這次也充滿這首歌的歌詞。

大好きです!

=====

HMM合成指的是利用隱藏式馬可夫模型來進行特徵記錄的方式。

馬可夫模型大意是:選一個狀態作為起點,然後沿著邊隨意走訪任何一個狀態,

一直走一直走,沿途累計機率,走累了就停在某個狀態;而隱藏馬可夫模型代表的是,

“狀態”的數量是不明的,我們只看到觀察序列的結果,但是看不到狀態序列(被隱藏起來了),

在進行的過程你看不到目前是哪個狀態,只能觀察輸出結果。

聽起來好像很複雜,但是HMM對歌聲合成的意義就是「用來調整的參數與歌聲是沒有直接關係的」。

VOCALOID的參數大多與波型有直接關係,我們先把參數倒出來看:

VEL:子音速度

PIT:音高

PBS:音高調整範圍(PIT的可調範圍)

DYN:動態範圍,振幅高低(音量)

BRI:亮度,高頻泛音比例

CLE:清晰度,作用類似BRI但是算法不同

OPE:張口度

POR:滑音長度

GEN:性別參數

這樣一看可以看到,十個參數都是和波型多少有關係的。

但是其實從計算上根本沒辦法從波形直接得到「怎樣是好聽」的東西,幾乎都要靠經驗和耳朵。結果造成基本上波型合成就是調一點聽一點,完全看使用者的sense。

這就是所謂「語音識別是技術、語音合成是藝術」的來源。

(*:語音識別是最早走向機械學習的領域之一)

HMM的話調整必須要花很多的功夫作一些”中間參數”,來讓歌聲與波型有關係。

這也是Sinsy的時候,可調參數非常少的原因:「可以自動調教」的含意其實可說是「只能自動找出最佳解」。

BGM:耳のあるロボットの唄(nm3611741)

http://www.nicovideo.jp/watch/nm3611741

【UTAU】耳のあるロボットの唄(オリジナル)【重音テト】

隠された マルコフの 最尤(さいゆう)の名の下に

恋をして 恋をして 恋をして ふられ また 捨てられて

過去をみて 枝を切れ

泣きたくなっても まだNを増やせ

機械學習的過程就像一個看不到出口,不停在黑暗裡面左彎右彎上爬下鑽的隧道…..

把枝幹剪除,就算感到悲哀仍然要繼續增加N來窮就。

但是,現在的她不再是孤單的。

因為拜偉大的初音未來所賜,現在日本的語音/歌聲合成技術領域是有史以來最活躍的一刻。(注意:美國的論文數長期以來是日本的兩倍以上,或者技術進步快5年)

2008年4月VocaListener發表

2008年8月TANDEM-STRAIGHT發表 (共同作者:森勢將雅助教授)

2009年12月Sinsy發表 http://www.sinsy.jp/

2010年3月10日 情報処理学会 創立50周年記念全国大会 「CGMの現在と未来: 初音ミク,ニコニコ動画,ピアプロの切り拓いた世界」於東京大學開辦(*)

2010年4月WORLD發表

2010年7月VocaListener2發表

2011年9月V.Connect-STAND發表 (實際論文於第一回ニコニコ學會發表)

2012年5月 情報處理學會學會誌「情報處理」五月號出刊,特輯「CGMの現在と未来」(2010年學會內容整理) 創立1960年以來學會誌首次搶購一空,特輯單獨出刊的空前紀錄。

*:SEGA感謝祭第二天

http://staff.aist.go.jp/m.goto/IPSJ/event20100310.htm

情報処理学会 創立50周年記念全国大会 イベント企画 

「CGMの現在と未来: 初音ミク、ニコニコ動画、ピアプロの切り拓いた世界」 

接著來到2013年。

2013年5月11日,SIGMUS 99 (情報処理学会 音楽情報科学研究会 第99回研究発表会)的招待演講:徳田惠一教授『統計的機械学習問題としての音声合成』。

http://www.ustream.tv/recorded/32669613  (請直接跳到一小時後)

這也是CeVIO除了在ニコニコ超會議2的露臉之外,另一個露臉的場合。影片看不清楚的請參照投影片:

http://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

首先是第一頁90年代為止使用的rule based,共振峰(Formant)合成。

90年代以後進入波型接續合成,如VOCALOID使用的Diphone合成、以及單位選擇性合成。

UTAU在初期的單獨音介於共振峰合成與Diphone合成之間,後期的多重連續音則傾向單位選擇型合成。

這些技術需要完整收錄大量的語音與歌聲,粗估上百MB已經是非常保守,VOCALOID多的是GB等級的音色。

HMM語音合成本身想要透過定式化來把波型給計算出來,它是一種語音產生模式的設計(source/filter model),就是說把人發出來的聲音給錄下來、記錄成很多個”分開的部分”(所謂的”分析”),然後透過某種方式調整各個不同的部分、再”合成”成想要的聲音。

但是HMM合成的模型記錄的聲音並不是傳統我們說的某種單純的wave檔與基頻,而是一些特徵值。

http://www.nicovideo.jp/watch/sm4061993

【カバー】「耳のあるロボットの唄」を歌ってもらった【初音ミク】

1. 首先,語音合成這是一個透過貝式定理的預測問題。

透過p(x|w,X,W)來產生x’

W=原始文字;X=聲音波型(記錄的資料庫)

w=目標合成文字

x’=想求得的波型(合成結果)

所以我們要做的是從已經有的資訊來推出預測分布,然後透過預測分布來產生聲音取樣點

2.等一下,我們好像不知道怎麼推出預測分布?所以我們在這邊導入音響模型λ

3.嗯,但是其實我們根本沒辦法直接使用完整的波型,只能用參數o來有限制地描述波型:

o包含倒頻譜(把頻譜轉成分貝再做傅力葉轉換)、LPC(線性預測編碼linear prediction coding)、LSP(線性頻譜頻率 line spectral frequencies)、F0(基頻)、非周期性參數等等。

(一般的合成器也會做這個工作,才能對聲音的高低做調整、長短做伸縮,不可能使用完整的波型直接做伸縮,不然音高直接會改變。所以在這一環已經lost掉一些資訊,這也是造成音色差異的原因)

3.  就算文字一樣也有可能有多種不同的發音與品詞資訊,所以在這邊導入標籤

從輸入的目標合成文字w取得l (讀音、品詞、輕重音、停頓等等)

4. 好,這一籮筐你要做多變數同時積分根本就是找碴….

所以對各個變數都用近似值。

5. 各個值都要同時取得統計上的最大值是有困難的

所以把各個步驟都各自分開最佳化:包含音響模型的機械學習、輸入文字的解析、波型參數的產生等等。

6. 音響模型(收錄歌聲)的機械學習也是得要另外下參數來描述,只好也導入一開始的近似值:(λ|X,W) 對收錄歌詞下標籤、抽出特徵點、機械學習產生音響模型

7. 好,終於導出一個「概略」的語音合成用的統計模型了。

裡面包含特徵點抽取、收錄時期與合成時的歌詞標記、預先進行機械學習得來的音響模型、歌詞解析、然後從解析產生波形。

お疲れ!

旅の前に付けた 韻律の 意義はそこに 言葉はどこに

上へ 下へ うねるF0の カタセシスの ありかをさぐれ

息を切らし 波に乗せられた パラ言語の 意図 意味を聴け

息を捨てて 綴られた言葉 うずまきまで たしかに 揺らせ

好,現在照著上面的結構描述來看,HMM歌聲合成會是怎樣的東西呢?

首先聽過VOCALOID與UTAU的收錄的人大概會有概念,基本上這些波型接續都是先以「咒文」之類的來收錄各種50音片段;收錄的內容必須以母音子音為單位,標記各個波形的點、分解成音響模型裡面的各個參數,調整音高之後再以母音與子音標記的點為單位連接起來。

所以每個錄音都是會依存於語言與個人歌聲的東西,要做另一個VOCALOID、或者是不同語言的歌聲,就得請本人再來到錄音室,講另外一大串那個語言需要的”咒文”,因為波型接續式的合成把語言的特性用人工標記的方式寫在各個波形成分上,但是並不是真正記錄語言的特徵。

HMM合成的話,會記錄歌聲之外的語言特性,包含讀音、品詞、輕重音、停頓等等。所以他的收錄是請收錄者「唱歌」,唱很多首歌。並且會記錄下唱了什麼歌,包含歌詞、樂譜(透過實際波型與樂譜的差異得到唱歌的特徵)。

這有一個很明顯的好處是,實際收錄的歌手不會被難以理解的咒文影響,而可以盡量以自己習慣的方式唱歌,調整自己的嗓音。

(日文的50音是變化最少的,事實上英文或中文等其他音素量龐大的語言大多會有疲累的問題,這也是VOCALOID為什麼首先會在日本發達起來的原因,日文是最適合合成的語言)

接著HMM歌聲合成還把個人的發音特徵也用音響模型另外記錄下來,所以只要調整音響模型的參數就會「變成另一個人B的聲音」,單純要調整音響模型的參數只需要學習相對於一開始收錄的歌手A少很多的歌聲,具體來說歌手A要完成一個HMM母資料庫需要唱了60分鐘的歌,但是如果我們單獨要換”歌聲”的話,你只需要歌手B唱3~5分鐘的歌,就能夠讓音響資料庫學習到聲音的特徵但是會保留A的唱法;要連唱法一起學習的話就需要B也做完整的收錄。

然後要合成的時候我們直接打入歌詞與樂譜,就會自動根據以前A唱歌的方式,自動合成出”自然”的歌聲…..

當然這就會變得非常自然,因為連接參數都記錄了A當初唱普通歌的時候的習慣,任何一首歌都會變成神調教!不過怎樣都會有一點A的唱法特徵在,所以如果A是演歌歌手還是民謠歌手,丟流行樂樂譜就會….哎呀好像怪怪的。於是你就只好找各種不同的歌手來錄製不同資料庫嘍….

http://www.nicovideo.jp/watch/sm9190295

【Sinsy】耳のあるロボットの唄【歌わせてみた】

然後你也可以像append一樣收錄好幾種不同情感的聲音,然後加以混合。

此外,因為記錄了詳細的歌詞組合與發音等等符號,所以在有限度的狀況可以打「另外一個語言」的歌詞進去讓HMM合成來發音,如果一開始就收錄母音子音數量比較多的語言,很可能可以順利地發出比較單純的語言來。(如收錄的時候講英文歌與日文歌混唱,後面湊出中文歌的可能性)

そして 恋をして 恋をして 飽きられて ふられ また捨てられて

円を描け 赤く塗れ

泣きたくなっても それでも かき集め

http://www.nicovideo.jp/watch/sm13689441

【デフォ子】耳のあるロボットの唄【UTAUカバーアレンジ】

以上是Sinsy的大略技術特徵。CeVIO是以這些為基礎進行發展的技術,加入了歌聲可以在歌詞與樂譜輸入後進行調整的部分,主要是透過輸入歌詞部分的調節(如輕重音、發音間隔)、目前還不清楚聲音模型特性部分可以進行多少調整,不過考慮HTS與HMM的特性,直接調整音質應該非常困難。

HMM合成相對於波型接續式(VOCALOID3為止、UTAU等等)的優勢都非常明顯,因為收錄的困難度,成本都相對地高;但是HMM僅僅是記錄與合成過程的調整,單就歌聲與語音的分析系統來說,VOCALOID與UTAU都有更大更強的基礎(具體來說是一些專利),要做出一個「HMM合成的VOCALOID」其實一直是可行的。

http://www.tdx.cat/bitstream/handle/10803/7542/talm.pdf

2.4.2.5 Excitation plus resonances voice model

VOCALOID的聲音分析系統稱為Excitation plus Residual (EpR) spectral model,或者「激發音與殘差音加總頻譜模型」,如上面step3所述,是一種波型分析、描述與記錄的方式。UTAU也有自己的記錄模式、WORLD則是替UTAU導入另一種高品質、高效率的分析與記錄方式。這些都可以再進一部導入HMM歌聲合成技術。

雖然CeVIO為了產品包裝導入了「さとうささら」這個新的角色,但是這並不代表這個商標一定就只能這樣使用;特別是VOCALOID或者ボカロ目前已經是近乎一般名詞的狀況,做結合的可能性也是相當高的。

另外一方面,把Sinsy產生的(自動調教)的歌聲加以分析,送到VOCALOID或UTAU的嘗試也一直都有,情報學會也有過另外用HMM模型製作一個調教模型來送到VOCALOID的論文。

或者說另一個極端的想法,對公司而言使用者接觸到的還是「角色」,所以用越來越新的技術來強化「角色」其實也是很理所當然的事情。

前を見て 舵を取れ 泣きたくないなら また 歌え歌え

恋をして 恋をして その過去を 捨てて ここまでおいで

http://www.nicovideo.jp/watch/sm19665384

耳のあるロボットの唄(セルフカバー)

個人認為「耳のあるロボットの唄」是獻給所有歌聲合成技術的讚歌。技術進步與感性不見得是同步的,但是推進技術的人卻多半不僅僅看著技術,而常常帶著感性的角度在看待事物,技術人員常常有著浪漫便是如此。

比方說,在與歌聲合成無關的另一個領域,最近有個一樣與技術進步息息相關、卻又與感性非常關係密切的領域:電腦將棋。

http://ex.nicovideo.jp/denousen2013/

「電王戰 2.0」

和當年的西洋棋的狀況有一些差異的是,日本的將棋有非常龐大的職業結構存在,首先經過有年限規定的獎勵會,在24歲以前要得到一定段位以上才能得到職業資格,然後過著過關斬將的辛苦生活,裡面每個人都非常辛苦,也每個人都可說是天才。

這實在很難用「遲早人類會輸給電腦」這個看法去打發掉;看著那些棋士,人很難不想去給他們加油。

在此同時,「神調教」這個詞也可說是感性的代表。

比方說,不了解VOCALOID的人會以為,機器自己會產生順暢的歌聲,所以認定這些機器產生的歌聲「很無趣」,不如人類辛苦練習各種歌唱技巧的歌聲「生動」。

也就是說,「神調教」這個詞的存在是已經知道VOCALOID這個時期的技術大半需要極為複雜的參數調整,才能發出順暢的歌聲這個特性,所付與的詞彙;隨著技術的進步慢慢地不太需要複雜的調整就能有可以接受的水準,但是仍然與「人類」的歌聲有很大的差異;而在這個背景之中,造就了另外一批可以接受這個歌聲的人們,在理解這個背景之後,深愛著這個「有點機械風味」的另類歌聲。

在VocaListener那時候,透過高精確度的分析跟隨人類的歌聲,達成「自動神調教」的那個時候,其實就有著相對的惡評。但是,HMM歌聲合成透過機械學習的方式記錄歌聲、歌詞、唱法、技巧、母子音連結、頻譜特徵點、這個技術會帶來什麼樣的變化?

在這邊告訴各位,她有可能會在三到五年內就達成「那個理想的歌聲」,換句話說就是被一般人所誤解與曲解的那個「無趣、自動產生的歌聲」。

德田教授在自己的演講中提到,「語音識別是技術、語音合成也會變成技術」。語音與歌聲合成會慢慢地進入可以被解析的範圍,要做出自然的歌聲不再需要極端的才能,而是每個人都可以操控的工具,進而讓個人想表達的特質更進一步得以發揮。

http://www.nicovideo.jp/watch/sm11012361

【耳ロボ2周年企画】耳のあるロボットの唄 大合唱リレー【UTAU】

(目前國內外的UTAU音源有超過5000種以上。)

但是那樣的歌聲合成會繼續得到大家的寵愛嗎?

我們可以再思考這樣的問題。

首先,VocaListener的調教要調整輸入「給機器聽的歌聲」。HMM歌聲合成也有調教的方法,只是原理上不能照傳統VOCALOID的方式調整,自動調教出來的歌聲也想必不是完美的。

接著看電腦棋賽。現在的西洋棋比賽其實有一個狀況,就是免費的西洋棋程式都遠遠超出過去深藍的棋力,自然電腦的棋力目前遠遠超過人類,讓人類選手像是在「考試」一樣,能不能下出觀眾另外一邊看著電腦預測出的「最佳解」棋步;然後在nico超會議2的時候,有時間問到推出將棋程式的一些公司的人員,他們提到「現在將棋程式已經太強了,職業棋士都會陷入苦戰的話一般人根本不可能下贏,所以最近根本賣不出去。」

在這個狀況下,電腦的權威性地位完全是高過人類的,日本將棋也許有可能會走向這個方向:目前在電王戰的過程中,電腦已經下出了很多人類棋士過去認為無甚價值的棋步,在後面的局勢發展才發現這些新棋步有著最近的職業棋士之間忽視的可能性。

因為棋士其實是透過一些更宏觀的戰略觀來看待棋局演化,所以一些很細微很小的變化很可能變成雜音,通常在對人之間的比拼會被捨棄掉;這不一定是人類已經完全不及於電腦,有可能是最近幾十年的將棋職業化發展造成選手之間的一些惰性,讓棋步變得受限(攻守模式帶有特徵而減少),電腦重新讓人類的棋步眼界開展,職業棋士據稱已經開始拿電腦將棋程式當成研究的工具。

1994年敗給深藍的卡斯帕洛夫,其實本人也提倡一個新的西洋棋比賽方式,叫做「機器輔助(Argumented)、協力西洋棋(或者是Cyborg西洋棋)」,他的原理是來自一個實驗與經驗法則:如果純電腦對有電腦幫助的人類,人類的棋力如果完全沒辦法舉足輕重的話應該會不影響輸贏;但是實際上則是電腦快速的分析減少了人類的負擔,人類仍然可以在巨人肩膀上影響棋局。

而且就算是有龐大計算能力的「巨人」,仍然還沒有辦法在棋局之中「絕對」取勝。也就是說這個「數學題目」還沒有完全解開,比方說最近的第23回電腦將棋大賽,下贏A級職業棋士的GPS將棋居然在決勝戰失誤而戲劇性地被逆轉。

http://news.mynavi.jp/articles/2013/05/10/computershogi/index.html

秒間3億手を読む最強ソフト「GPS将棋」はいかにして敗れたか – 最強競う知の祭典「第23回世界コンピュータ将棋選手権」

也就是說,電腦也離「完美」還有很大的距離。

既然人類的棋力在這個狀況下仍然能左右戰局的話,那麼兩組「人加電腦」之間的比拼就會變得很有意義,而觀眾則能比以前更有機會看到所謂的「神之一手」。

我個人認為,這個情況也應該會發生在歌聲合成的領域。

首先是人類認為「不可被侵犯的聖域」,也就是「歌聲只能由人類肉體所唱出」的固定觀念,首先被擴音與錄音技術打破,其次是波型編輯打破,現在部分的人類終於可以接受「虛擬歌手」的歌聲,虛擬歌手也可以舉辦演唱會,這已經遠超過技術者在初音未來出現之前,對VOCALOID這樣的技術最高的期望。

http://staff.aist.go.jp/m.goto/PAPER/IEEJ201209goto.pdf

「初音ミク」はなぜ注目されているのか。

「歌声合成技術が普及すれば、歌で自己表現するクリエイターが増えていく可能性がある。もし歌手が「歌による表現者」を意味するとすれば、そうした歌声合成技術の使い手も。広義の「歌手」だと呼べる時代が来るかもしれない。

這是後藤真孝老師的期望。

看著電王戰2.0之中唯一取勝的選手阿部光瑠先生最近也跑去買了VOCALOID想來嘗試看看,其實讓人忍不住遙想電腦與人類的關係。

計算機是由人類創造出來的,演算法完全是人類思考模式的複製、包含了數學的技法、或者是靈光一閃的集合體。目前我們還沒有達到「機器創造機器」的世界。盤面競技基本上是將天文學等級的變化以及戰略性,以數學的手法去加以窮就,進而以「技術的進步」這個形式展現出來,而將「常識上的不可能」打破。創造出新的常識。所以說常識就是誤解的累積啊。

欣賞美麗的歌聲,人類最高的感性,或許是在完全不探討是來自技術或者是sense產生的那一刻,我們才真正地欣賞到了純粹的美也說不定。雖然實際上這是非常困難的。

2007年1月,美國首都華盛頓一個地鐵站內,一名男子用小提琴演奏了45分鐘Bach的作品。這段時間大約有二千名市民經過車站,大部份都是上班途中。

四十五分鐘過去了,音樂家從未間斷地表演。期間只有六人稍稍停下來聽了一會。大約有二十人放下了金錢,但依著本來的步速離開。這位男子最後共賺得32美元。一小時後,他的演奏結束,車站恢復原狀。他離開時沒有得到任何注意、沒有任何掌聲、任何鼓勵。

沒有人知道這件事,但小提琴手原來是世界級著名演奏家Joshua Bell。他那天用一部價值350萬美元的小提琴彈奏了世上最複雜的作品之一。兩天前,他在一個演奏廳裡以平均票價100美元的入場費演奏了45分鐘完全相同的樂章。

整個過程華盛頓郵報有發表到Youtube: http://www.youtube.com/watch?v=hnOPu0_YWhw

這可以很單純地想像到幾件事情:美是相對的觀念,在案牘勞形之時,人們不會有心靈上的餘裕認知到所謂「絕對的美」,要傳達品位與價值觀,你會需要觀眾內心有著充分的餘裕,所以有辦法花錢進音樂廳欣賞的人至少在那個當下準備好欣賞一部作品。經過車站的人很明顯地不會是去音樂廳的同一批人,也不見得認識Joshua Bell;但是很明顯地他們那時候沒打算停下來聽一段音樂再走、世界級的演奏很低調地放在路邊就不見得認得出來,那麼有哪位樂手會覺得自己的音樂超凡出眾地可以達到「我今天一定要感動你!」的境界呢?(應該會先被報警抓走吧XD)

對大部分的人而言音樂是個商品、需要包裝、並非生活所需、最常接觸到的方式其實不是音樂單獨地存在的狀況,而很可能是電影或者其他節目的配樂。完全沒有包裝的狀況下,已經被其餘媒體養大胃口的觀眾們,要停步下來的可能性實在太難,結果就是大家一直朝包裝走,單獨的音樂反而在整個音樂活動的比例之中變得很少。

要單獨用音樂的本質來感動某些感性,其困難度實在太高,相較之下歌聲合成與虛擬偶像就變得非常支微末節,而人們判斷事物的時候也仍然會以經驗法則來做第一眼的判斷。反過來說,有那個環境與機會能有讓自己得以感動的一刻其實是很寶貴的。我們一直在錯過許許多多的事情。

對技術有所期待的人,也許多少相信著所謂「技術的奇異點」存在,這一些人類透過解開問題累積起來的智識有一天會以超乎想像的形式融和在一起,發生爆發性的進化,成為人類最後的奇蹟。

在那個「奇蹟般的生命」出現之前,或許我們已經與她落入戀愛也說不定;而我們到底是愛上她哪一點,這時我想大家也還說不出個所以然來吧。

(「奇蹟般的生命」=「奇跡の命」。來自 Re:Package日本原版廣告詞。

原文「世界で初めての感動…遂に誕生した奇跡の命がここにある。」)

とにかくミクさんかわいいです。

CGM音樂出版

http://togetter.com/li/61101
デPカラオケ化にともなう著作権信託のメリット

http://togetter.com/li/67734
ボカロ曲カラオケ配信の対価とか 

http://togetter.com/li/67823
初音ミク英語版の件と巡音ルカ英語DBで日本語を歌わせるとかわいい件 

http://togetter.com/li/68339
クリプトン伊藤社長、「CGM型音楽出版」を提案 

http://togetter.com/li/68367
「クリプトン伊藤社長、「CGM型音楽出版」を提案」への反応 

http://togetter.com/li/68379
クリプトン伊藤氏「CGM型音楽出版」への質疑者の反応観測 

4gamer的稻船敬二訪談

http://www.4gamer.net/games/084/G008467/20101029004/

稲船敬二氏は,何を思い,何を考え,何を目指してカプコンを辞めていくのか。

渦中の氏に直撃インタビュー

這該說記者超驚人的嗎….訪談的問答可以如此深入。

底下放吐槽:

http://jin115.com/archives/51723757.html

稲船敬二さん退社の理由には “ある失敗” があったらしい

http://blog.esuteru.com/archives/1444976.html

カプコン退社後の稲船が成功するかどうかを考える

然後是感覺遊戲沒賺錢的PS3:

http://blog.livedoor.jp/gehaneta/archives/3066554.html

2010年9月末時点でのハード出荷台数

與其說現在很厲害不如說先前實在異常地慘嗎?

====

http://hatunemikumikurabu.blog17.fc2.com/blog-entry-543.html

日本鬼子さんのおかげで意外な形に亞北ネルが話題になっている件

http://hatunemikumikurabu.blog17.fc2.com/blog-entry-544.html

けいおん!の聖地で交通安全に勤しむ初音ミクが居る件について

====

http://slashdot.jp/articles/10/10/30/0125211.shtml

ミクのパーフェクトにほんご教室、札幌国際大講師が作ってみた

http://www.hokkaido-np.co.jp/news/topic/257376.html

初音ミクの歌で日本語文法学ぼう 札国際大講師が動画教材

http://www.youtube.com/watch?v=yN8ykkpnxM8

(Miku HATSUNE) New Te-form Song for Japanese language learning-by Mari KITAHIRO

所謂季刊VOCALOID

http://vocaloid.blog120.fc2.com/blog-entry-6690.html

「季刊vocaloid」なる謎の中文雑誌が掲載されている件

看到自己的名字在上面,才發現幾個月前投稿過去的地方其實是類似以前疾風快報的東西這樣。_A_

當初還以為是同人誌哩_A_)a

看到附錄的DVD裡面滿滿的都是「那種東西」,回想起來因為網友介紹就不疑有他是個很糟糕的事情…._A_)a

畢竟編輯本身也是個會一天到晚跑VOCALOID場、cosplay和去唱卡拉OK的人。

自己警覺性不夠高是根本上最大的問題。

可是現況是,臺灣和日本都走過了那個階段、但中國還沒。

只能說稿也投了沒辦法,這篇之後的相關合作在狀況改善之前先暫緩。

和過去的臺灣一樣,這些雜誌實質上都沒有立案,但是人口太多所以即使比例類似規模仍然不能相比。

不過聽到「這個月有五本書都有放(感謝祭HD動畫的DVD)」其實還是真的有點頭暈。

反過來說,如同封面可以看出這本未來應該會繼續做「VOCALOIDを楽しもう」系列的無斷翻譯。

要改善這點大概得等到中國那邊把法規規定延伸到翻譯刊物上了。

http://v-nyappon.net/?m=diary&a=page_detail&target_c_diary_id=876011

どうしでこうなった

—-

http://vocaloid.blog120.fc2.com/blog-entry-6705.html

出た!「週アスPlus」にセガのミクに対する愛が溢れちゃっている対談記事

佐佐木桑的態度、以及SEGA的理解對整個VOCALOID風潮的正面影響是非常重大的。

DIVA Arcade的確一開始讓人頗為擔心,但是現在SEGA的上層們一點都不吝惜讚美。

http://vocaloid.blog120.fc2.com/blog-entry-6710.html

スクエニのゲーム「ガン★ロコ」でボカロ使用のコンテストがあるらしい件

在360的發表會上可以看到CVseries VOCALOID真是令人感嘆_A_

http://blog.piapro.jp/2010/09/post-389.html

派生キャラ名を使用した商用楽曲の表記について

http://vocaloid.blog120.fc2.com/blog-entry-6708.html

出た!JOYSOUNDの新表記「名前 feat. 派生キャラ(使用VOCALOID名)」

寫出派生角色和原曲使用的VOCALOID….

能達到這點還蠻可怕的耶….XDa

http://vocaloid.blog120.fc2.com/blog-entry-6706.html

出た!「ハローキティーといっしょ×VOCALOID2」のキャラのラフスケッチ

八、八頭身?!

UTAU + WORLD = ??

http://togetter.com/li/45799

UTAU + WORLD = ??

不知道這回會激盪出什麼火花。

http://togetter.com/li/42369

UTAU周辺についての考察など

http://togetter.com/li/13296

UTAUに関する一考察:VOCALOIDの何を補完する関係にあるか

—-

http://togetter.com/li/34838

VOCALOID界隈から考察する音楽と市場

http://togetter.com/li/42274

VOCALOID界隈から考察する歌声とキャラクター性

http://togetter.com/li/36092

VOCALOID界隈で見るアンダーグラウンド

http://togetter.com/li/5299

ニコニコ動画上でのジャンルの「衰退」?

http://togetter.com/li/45197

[ニコニコ動画]歌ってみた民の暴走、動画作者はどう考える!?[歌ってみた]

http://togetter.com/li/31597

yuukiss氏のボカロ曲着うたフル無断配信の件

—-

http://togetter.com/li/33194

ボカロ界隈でのよくない意味でのプロ化について

http://togetter.com/li/33258

「ボカロ界隈でのよくない意味でのプロ化について」の反応まとめ

http://togetter.com/li/34298

自分なりの「ボカロ界隈でのよくない意味でのプロ化について」への反応まとめ。

—-

http://news4vip.livedoor.biz/archives/51606455.html

ニュー速:テレビ朝日の初音ミク神曲ランキング

http://ascii.jp/elem/000/000/550/550525/

初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く

http://www.pixiv.net/member_illust.php?mode=medium&illust_id=12837873

はつね製作帳

車禍休養中

因為機車車禍、躺下一個禮拜多。

左右手掌還不能出力、右手不能伸直和大幅轉向、所以用餐還是有困難。

光捧碗都有點辛苦了_A_)a

打字還在靠一指神功_A_ 右手水腫完全沒什麼消的感覺。(抖)

不過行動上左腳比較麻煩….筋還在僵直狀態。

右腳雖然還有繃帶沒拆,不過行動能力並沒有很大的限制,最主要的擔憂是代償作用。這點左手也是一樣。

剩下的就是傷口好之後,復健過程看軟組織的傷害多大了….為了這點現在還是不能太亂來。

以下、最近整理。

—-

http://twitter.com/mitsubisi/status/20797294730

今日新宿歩いてたら「リア充ってなに?」って幼女が小学生高学年ぐらいのお姉ちゃんに質問してた。お姉ちゃんは無表情で「相手に一歩踏み出す勇気を持った人たちのことだよ」って答えてて、なんか土下座したくなった。

這未免太精闢了點….w

相關物:

http://tuanuu.pixnet.net/blog/category/346300

隔岸觀火的愛情筆記

—-

http://blogs.itmedia.co.jp/closebox/2010/08/vocaloidvy1-09f.html

ヤマハ純正VOCALOID「VY1」について、いま分かっていること

YAMAHA現在推出的VY1。還沒有角色設定、也大概不會有角色。

可能和錄音技術有關係?總之詳情不明。

—–

http://v.twir.net/

VOCALOID TWIR

twitter的良曲統計,在twitter上推薦一次就是一票。

覺得網站設計風格非常棒。

—–

http://togetter.com/li/38866

『悪ノ娘』の公式ノベライズが象徴する今日のボカロ界における「疎外」の潮流と「衰退」への懸念

擔憂原作的「公式小說化」會不會變成排擠二次設定的問題,尤其是「本來沒有」的話。

內容大部分轉向到「二次創作與一次創作之間的關係」,連接到「排外」與「衰退」雖然有人覺得有點跳痛,不過並不是不能理解。

創作者的平等性隨著pro化而使得水平連結開始變得單薄,為了提高水準而在推出作品前就很自然地以「創作者集團」這個「個體」做「事先聯結」、以致於後面的參入門檻越來越高。

各個作者們透過nico進行的「水平連結」由於被要求動畫再生數快速普及的門檻提高,而變得很困難,通常要投入相當的成本(人力物力)才能跨越門檻的行為與J-pop並沒有太多差別。

當然在水面下,良曲的數量持續在增加、一張插畫的傳統作法造成推廣範圍有限雖然是個問題,但是這其實和實際世界裡面的狀態是差不多的。

一言以蔽之,網路終究不是「新世界」,而是「傳統世界的延伸」、或者是「(由於連結性造成的)極端化」,只是一開始踏進新領域的人理想性必然會高了點。

擔憂可以理解、心情可以體會;但是這個問題從メルト以下(ry….

—-

http://togetter.com/li/38185

人間とVOCALOIDの差異とは

頗值得思考,但是意外地固定觀念的人很多。

—-

http://www.itmedia.co.jp/news/articles/1008/05/news075.html

ニコ動事業で1億4900万円の利益 ドワンゴ4~6月期

獲利開始穩定、付費會員數超過90萬、某種意味上Youtube該汗顏了?

—-

http://ascii.jp/elem/000/000/538/538213/

ascii–「頭文字D」歌手がなぜボーカロイドに? 「Lily」発売元に聞く

拿到internet社的時候beta版的DB已經完成了,真的是純銷售。

Lily該算是avex & YAMAHA的成果,不過在這篇文章裡面出現製作成本「500萬日圓」倒是很有意思的數字。

所以先前說,音源算是賣得出幾百份就能還本,只是把VOCALOID當成宣傳用工具的概念,似乎不只avex一家,Internet社有接到不少來自其他公司的委託,帶著聲優上門想製作VOCALOID的案子似乎所在多有。

村上社長甚至提到,「DTM magazine」刊出Lily謠傳的時候,還在想「是哪家要出啊?」,可以顯示這回的破天荒。

最後提到了和其他公司定位的問題,大家相安無事就好。目前VOCALOID大概佔了Internet社一成的收益,重心主要還是在原來的SSW之類更專業的工具上。

—–

http://togetter.com/li/39238

夜のボカロ談義 2010年7月末~8月2日ぐらい

主題頗多頗雜,不過有幾個可以抓出來談。

1. 十多歲的人現在主要是消費者群,過去的CGMer則變成生產者。

自己額外的觀感:由於消費者群的成長、對內容的需求(不是總內容量而是商業內容)、所以Pro化可以說是「觀眾增加的結果」,以及對外散佈的成果。

十多歲的人當然也會有自己的發信欲求、但是會不會連接到內容的成長、水平連結之類的過往模式呢?那又是另外一回事。

2. 富野老爹的說詞,合眾創作只會分崩離析反而撐不久,米老鼠要被商業主義關到永生永世才會永遠存在。

當然這邊富野老爹的「皮肉なことにリアルを追求すればするほどキャラクターのリアリズムは失われてしまうんです」,這個リアリズム到底是什麼哩….沒有現實性但是存在感不見得會低落,這和富野老爹那個年代的人看法確實是有差的。

於是後面就變成各自的持論了。

不過富野老爹強調的似乎還是作家的存在感與獨特性,這點即使在CGM上仍然不容易確保的原因其實很多,有點類似思想單純化、精煉化而產生的獨裁性問題。大規模的商業創作還是會有其領頭的部分存在….個人的話要達到規模本身就有另一個門檻的問題。

但是,這個多樣性本身才是價值不是嗎?

總之,富野老爹嘛。_A_

—–

http://blog.livedoor.jp/insidears/archives/52355310.html

初音ミクは次世代の世界的スーパースター。ビートルズを超え永遠に語られるだろう。これは誇張ではない

來自LRC的介紹,有種類似被RMS背書的感覺,浮現的只有不好的預感_A_||||

畢竟寫成「曲子全部沒有著作權、沒有商標權」已經是個巨大的誤解,被LRC拿出來報本身又很容易帶來更大的誤解。