從藝術走向技術:HMM歌聲合成雜感

寫在前頭:本來想寫一點點但是越寫越長後面都是胡扯(噗)

然後每次寫這種東西就會開始播某首歌,這次也充滿這首歌的歌詞。

大好きです!

=====

HMM合成指的是利用隱藏式馬可夫模型來進行特徵記錄的方式。

馬可夫模型大意是:選一個狀態作為起點,然後沿著邊隨意走訪任何一個狀態,

一直走一直走,沿途累計機率,走累了就停在某個狀態;而隱藏馬可夫模型代表的是,

“狀態”的數量是不明的,我們只看到觀察序列的結果,但是看不到狀態序列(被隱藏起來了),

在進行的過程你看不到目前是哪個狀態,只能觀察輸出結果。

聽起來好像很複雜,但是HMM對歌聲合成的意義就是「用來調整的參數與歌聲是沒有直接關係的」。

VOCALOID的參數大多與波型有直接關係,我們先把參數倒出來看:

VEL:子音速度

PIT:音高

PBS:音高調整範圍(PIT的可調範圍)

DYN:動態範圍,振幅高低(音量)

BRI:亮度,高頻泛音比例

CLE:清晰度,作用類似BRI但是算法不同

OPE:張口度

POR:滑音長度

GEN:性別參數

這樣一看可以看到,十個參數都是和波型多少有關係的。

但是其實從計算上根本沒辦法從波形直接得到「怎樣是好聽」的東西,幾乎都要靠經驗和耳朵。結果造成基本上波型合成就是調一點聽一點,完全看使用者的sense。

這就是所謂「語音識別是技術、語音合成是藝術」的來源。

(*:語音識別是最早走向機械學習的領域之一)

HMM的話調整必須要花很多的功夫作一些”中間參數”,來讓歌聲與波型有關係。

這也是Sinsy的時候,可調參數非常少的原因:「可以自動調教」的含意其實可說是「只能自動找出最佳解」。

BGM:耳のあるロボットの唄(nm3611741)

http://www.nicovideo.jp/watch/nm3611741

【UTAU】耳のあるロボットの唄(オリジナル)【重音テト】

隠された マルコフの 最尤(さいゆう)の名の下に

恋をして 恋をして 恋をして ふられ また 捨てられて

過去をみて 枝を切れ

泣きたくなっても まだNを増やせ

機械學習的過程就像一個看不到出口,不停在黑暗裡面左彎右彎上爬下鑽的隧道…..

把枝幹剪除,就算感到悲哀仍然要繼續增加N來窮就。

但是,現在的她不再是孤單的。

因為拜偉大的初音未來所賜,現在日本的語音/歌聲合成技術領域是有史以來最活躍的一刻。(注意:美國的論文數長期以來是日本的兩倍以上,或者技術進步快5年)

2008年4月VocaListener發表

2008年8月TANDEM-STRAIGHT發表 (共同作者:森勢將雅助教授)

2009年12月Sinsy發表 http://www.sinsy.jp/

2010年3月10日 情報処理学会 創立50周年記念全国大会 「CGMの現在と未来: 初音ミク,ニコニコ動画,ピアプロの切り拓いた世界」於東京大學開辦(*)

2010年4月WORLD發表

2010年7月VocaListener2發表

2011年9月V.Connect-STAND發表 (實際論文於第一回ニコニコ學會發表)

2012年5月 情報處理學會學會誌「情報處理」五月號出刊,特輯「CGMの現在と未来」(2010年學會內容整理) 創立1960年以來學會誌首次搶購一空,特輯單獨出刊的空前紀錄。

*:SEGA感謝祭第二天

http://staff.aist.go.jp/m.goto/IPSJ/event20100310.htm

情報処理学会 創立50周年記念全国大会 イベント企画 

「CGMの現在と未来: 初音ミク、ニコニコ動画、ピアプロの切り拓いた世界」 

接著來到2013年。

2013年5月11日,SIGMUS 99 (情報処理学会 音楽情報科学研究会 第99回研究発表会)的招待演講:徳田惠一教授『統計的機械学習問題としての音声合成』。

http://www.ustream.tv/recorded/32669613  (請直接跳到一小時後)

這也是CeVIO除了在ニコニコ超會議2的露臉之外,另一個露臉的場合。影片看不清楚的請參照投影片:

http://www.sp.nitech.ac.jp/~tokuda/tokuda_ongaku2013.pdf

首先是第一頁90年代為止使用的rule based,共振峰(Formant)合成。

90年代以後進入波型接續合成,如VOCALOID使用的Diphone合成、以及單位選擇性合成。

UTAU在初期的單獨音介於共振峰合成與Diphone合成之間,後期的多重連續音則傾向單位選擇型合成。

這些技術需要完整收錄大量的語音與歌聲,粗估上百MB已經是非常保守,VOCALOID多的是GB等級的音色。

HMM語音合成本身想要透過定式化來把波型給計算出來,它是一種語音產生模式的設計(source/filter model),就是說把人發出來的聲音給錄下來、記錄成很多個”分開的部分”(所謂的”分析”),然後透過某種方式調整各個不同的部分、再”合成”成想要的聲音。

但是HMM合成的模型記錄的聲音並不是傳統我們說的某種單純的wave檔與基頻,而是一些特徵值。

http://www.nicovideo.jp/watch/sm4061993

【カバー】「耳のあるロボットの唄」を歌ってもらった【初音ミク】

1. 首先,語音合成這是一個透過貝式定理的預測問題。

透過p(x|w,X,W)來產生x’

W=原始文字;X=聲音波型(記錄的資料庫)

w=目標合成文字

x’=想求得的波型(合成結果)

所以我們要做的是從已經有的資訊來推出預測分布,然後透過預測分布來產生聲音取樣點

2.等一下,我們好像不知道怎麼推出預測分布?所以我們在這邊導入音響模型λ

3.嗯,但是其實我們根本沒辦法直接使用完整的波型,只能用參數o來有限制地描述波型:

o包含倒頻譜(把頻譜轉成分貝再做傅力葉轉換)、LPC(線性預測編碼linear prediction coding)、LSP(線性頻譜頻率 line spectral frequencies)、F0(基頻)、非周期性參數等等。

(一般的合成器也會做這個工作,才能對聲音的高低做調整、長短做伸縮,不可能使用完整的波型直接做伸縮,不然音高直接會改變。所以在這一環已經lost掉一些資訊,這也是造成音色差異的原因)

3.  就算文字一樣也有可能有多種不同的發音與品詞資訊,所以在這邊導入標籤

從輸入的目標合成文字w取得l (讀音、品詞、輕重音、停頓等等)

4. 好,這一籮筐你要做多變數同時積分根本就是找碴….

所以對各個變數都用近似值。

5. 各個值都要同時取得統計上的最大值是有困難的

所以把各個步驟都各自分開最佳化:包含音響模型的機械學習、輸入文字的解析、波型參數的產生等等。

6. 音響模型(收錄歌聲)的機械學習也是得要另外下參數來描述,只好也導入一開始的近似值:(λ|X,W) 對收錄歌詞下標籤、抽出特徵點、機械學習產生音響模型

7. 好,終於導出一個「概略」的語音合成用的統計模型了。

裡面包含特徵點抽取、收錄時期與合成時的歌詞標記、預先進行機械學習得來的音響模型、歌詞解析、然後從解析產生波形。

お疲れ!

旅の前に付けた 韻律の 意義はそこに 言葉はどこに

上へ 下へ うねるF0の カタセシスの ありかをさぐれ

息を切らし 波に乗せられた パラ言語の 意図 意味を聴け

息を捨てて 綴られた言葉 うずまきまで たしかに 揺らせ

好,現在照著上面的結構描述來看,HMM歌聲合成會是怎樣的東西呢?

首先聽過VOCALOID與UTAU的收錄的人大概會有概念,基本上這些波型接續都是先以「咒文」之類的來收錄各種50音片段;收錄的內容必須以母音子音為單位,標記各個波形的點、分解成音響模型裡面的各個參數,調整音高之後再以母音與子音標記的點為單位連接起來。

所以每個錄音都是會依存於語言與個人歌聲的東西,要做另一個VOCALOID、或者是不同語言的歌聲,就得請本人再來到錄音室,講另外一大串那個語言需要的”咒文”,因為波型接續式的合成把語言的特性用人工標記的方式寫在各個波形成分上,但是並不是真正記錄語言的特徵。

HMM合成的話,會記錄歌聲之外的語言特性,包含讀音、品詞、輕重音、停頓等等。所以他的收錄是請收錄者「唱歌」,唱很多首歌。並且會記錄下唱了什麼歌,包含歌詞、樂譜(透過實際波型與樂譜的差異得到唱歌的特徵)。

這有一個很明顯的好處是,實際收錄的歌手不會被難以理解的咒文影響,而可以盡量以自己習慣的方式唱歌,調整自己的嗓音。

(日文的50音是變化最少的,事實上英文或中文等其他音素量龐大的語言大多會有疲累的問題,這也是VOCALOID為什麼首先會在日本發達起來的原因,日文是最適合合成的語言)

接著HMM歌聲合成還把個人的發音特徵也用音響模型另外記錄下來,所以只要調整音響模型的參數就會「變成另一個人B的聲音」,單純要調整音響模型的參數只需要學習相對於一開始收錄的歌手A少很多的歌聲,具體來說歌手A要完成一個HMM母資料庫需要唱了60分鐘的歌,但是如果我們單獨要換”歌聲”的話,你只需要歌手B唱3~5分鐘的歌,就能夠讓音響資料庫學習到聲音的特徵但是會保留A的唱法;要連唱法一起學習的話就需要B也做完整的收錄。

然後要合成的時候我們直接打入歌詞與樂譜,就會自動根據以前A唱歌的方式,自動合成出”自然”的歌聲…..

當然這就會變得非常自然,因為連接參數都記錄了A當初唱普通歌的時候的習慣,任何一首歌都會變成神調教!不過怎樣都會有一點A的唱法特徵在,所以如果A是演歌歌手還是民謠歌手,丟流行樂樂譜就會….哎呀好像怪怪的。於是你就只好找各種不同的歌手來錄製不同資料庫嘍….

http://www.nicovideo.jp/watch/sm9190295

【Sinsy】耳のあるロボットの唄【歌わせてみた】

然後你也可以像append一樣收錄好幾種不同情感的聲音,然後加以混合。

此外,因為記錄了詳細的歌詞組合與發音等等符號,所以在有限度的狀況可以打「另外一個語言」的歌詞進去讓HMM合成來發音,如果一開始就收錄母音子音數量比較多的語言,很可能可以順利地發出比較單純的語言來。(如收錄的時候講英文歌與日文歌混唱,後面湊出中文歌的可能性)

そして 恋をして 恋をして 飽きられて ふられ また捨てられて

円を描け 赤く塗れ

泣きたくなっても それでも かき集め

http://www.nicovideo.jp/watch/sm13689441

【デフォ子】耳のあるロボットの唄【UTAUカバーアレンジ】

以上是Sinsy的大略技術特徵。CeVIO是以這些為基礎進行發展的技術,加入了歌聲可以在歌詞與樂譜輸入後進行調整的部分,主要是透過輸入歌詞部分的調節(如輕重音、發音間隔)、目前還不清楚聲音模型特性部分可以進行多少調整,不過考慮HTS與HMM的特性,直接調整音質應該非常困難。

HMM合成相對於波型接續式(VOCALOID3為止、UTAU等等)的優勢都非常明顯,因為收錄的困難度,成本都相對地高;但是HMM僅僅是記錄與合成過程的調整,單就歌聲與語音的分析系統來說,VOCALOID與UTAU都有更大更強的基礎(具體來說是一些專利),要做出一個「HMM合成的VOCALOID」其實一直是可行的。

http://www.tdx.cat/bitstream/handle/10803/7542/talm.pdf

2.4.2.5 Excitation plus resonances voice model

VOCALOID的聲音分析系統稱為Excitation plus Residual (EpR) spectral model,或者「激發音與殘差音加總頻譜模型」,如上面step3所述,是一種波型分析、描述與記錄的方式。UTAU也有自己的記錄模式、WORLD則是替UTAU導入另一種高品質、高效率的分析與記錄方式。這些都可以再進一部導入HMM歌聲合成技術。

雖然CeVIO為了產品包裝導入了「さとうささら」這個新的角色,但是這並不代表這個商標一定就只能這樣使用;特別是VOCALOID或者ボカロ目前已經是近乎一般名詞的狀況,做結合的可能性也是相當高的。

另外一方面,把Sinsy產生的(自動調教)的歌聲加以分析,送到VOCALOID或UTAU的嘗試也一直都有,情報學會也有過另外用HMM模型製作一個調教模型來送到VOCALOID的論文。

或者說另一個極端的想法,對公司而言使用者接觸到的還是「角色」,所以用越來越新的技術來強化「角色」其實也是很理所當然的事情。

前を見て 舵を取れ 泣きたくないなら また 歌え歌え

恋をして 恋をして その過去を 捨てて ここまでおいで

http://www.nicovideo.jp/watch/sm19665384

耳のあるロボットの唄(セルフカバー)

個人認為「耳のあるロボットの唄」是獻給所有歌聲合成技術的讚歌。技術進步與感性不見得是同步的,但是推進技術的人卻多半不僅僅看著技術,而常常帶著感性的角度在看待事物,技術人員常常有著浪漫便是如此。

比方說,在與歌聲合成無關的另一個領域,最近有個一樣與技術進步息息相關、卻又與感性非常關係密切的領域:電腦將棋。

http://ex.nicovideo.jp/denousen2013/

「電王戰 2.0」

和當年的西洋棋的狀況有一些差異的是,日本的將棋有非常龐大的職業結構存在,首先經過有年限規定的獎勵會,在24歲以前要得到一定段位以上才能得到職業資格,然後過著過關斬將的辛苦生活,裡面每個人都非常辛苦,也每個人都可說是天才。

這實在很難用「遲早人類會輸給電腦」這個看法去打發掉;看著那些棋士,人很難不想去給他們加油。

在此同時,「神調教」這個詞也可說是感性的代表。

比方說,不了解VOCALOID的人會以為,機器自己會產生順暢的歌聲,所以認定這些機器產生的歌聲「很無趣」,不如人類辛苦練習各種歌唱技巧的歌聲「生動」。

也就是說,「神調教」這個詞的存在是已經知道VOCALOID這個時期的技術大半需要極為複雜的參數調整,才能發出順暢的歌聲這個特性,所付與的詞彙;隨著技術的進步慢慢地不太需要複雜的調整就能有可以接受的水準,但是仍然與「人類」的歌聲有很大的差異;而在這個背景之中,造就了另外一批可以接受這個歌聲的人們,在理解這個背景之後,深愛著這個「有點機械風味」的另類歌聲。

在VocaListener那時候,透過高精確度的分析跟隨人類的歌聲,達成「自動神調教」的那個時候,其實就有著相對的惡評。但是,HMM歌聲合成透過機械學習的方式記錄歌聲、歌詞、唱法、技巧、母子音連結、頻譜特徵點、這個技術會帶來什麼樣的變化?

在這邊告訴各位,她有可能會在三到五年內就達成「那個理想的歌聲」,換句話說就是被一般人所誤解與曲解的那個「無趣、自動產生的歌聲」。

德田教授在自己的演講中提到,「語音識別是技術、語音合成也會變成技術」。語音與歌聲合成會慢慢地進入可以被解析的範圍,要做出自然的歌聲不再需要極端的才能,而是每個人都可以操控的工具,進而讓個人想表達的特質更進一步得以發揮。

http://www.nicovideo.jp/watch/sm11012361

【耳ロボ2周年企画】耳のあるロボットの唄 大合唱リレー【UTAU】

(目前國內外的UTAU音源有超過5000種以上。)

但是那樣的歌聲合成會繼續得到大家的寵愛嗎?

我們可以再思考這樣的問題。

首先,VocaListener的調教要調整輸入「給機器聽的歌聲」。HMM歌聲合成也有調教的方法,只是原理上不能照傳統VOCALOID的方式調整,自動調教出來的歌聲也想必不是完美的。

接著看電腦棋賽。現在的西洋棋比賽其實有一個狀況,就是免費的西洋棋程式都遠遠超出過去深藍的棋力,自然電腦的棋力目前遠遠超過人類,讓人類選手像是在「考試」一樣,能不能下出觀眾另外一邊看著電腦預測出的「最佳解」棋步;然後在nico超會議2的時候,有時間問到推出將棋程式的一些公司的人員,他們提到「現在將棋程式已經太強了,職業棋士都會陷入苦戰的話一般人根本不可能下贏,所以最近根本賣不出去。」

在這個狀況下,電腦的權威性地位完全是高過人類的,日本將棋也許有可能會走向這個方向:目前在電王戰的過程中,電腦已經下出了很多人類棋士過去認為無甚價值的棋步,在後面的局勢發展才發現這些新棋步有著最近的職業棋士之間忽視的可能性。

因為棋士其實是透過一些更宏觀的戰略觀來看待棋局演化,所以一些很細微很小的變化很可能變成雜音,通常在對人之間的比拼會被捨棄掉;這不一定是人類已經完全不及於電腦,有可能是最近幾十年的將棋職業化發展造成選手之間的一些惰性,讓棋步變得受限(攻守模式帶有特徵而減少),電腦重新讓人類的棋步眼界開展,職業棋士據稱已經開始拿電腦將棋程式當成研究的工具。

1994年敗給深藍的卡斯帕洛夫,其實本人也提倡一個新的西洋棋比賽方式,叫做「機器輔助(Argumented)、協力西洋棋(或者是Cyborg西洋棋)」,他的原理是來自一個實驗與經驗法則:如果純電腦對有電腦幫助的人類,人類的棋力如果完全沒辦法舉足輕重的話應該會不影響輸贏;但是實際上則是電腦快速的分析減少了人類的負擔,人類仍然可以在巨人肩膀上影響棋局。

而且就算是有龐大計算能力的「巨人」,仍然還沒有辦法在棋局之中「絕對」取勝。也就是說這個「數學題目」還沒有完全解開,比方說最近的第23回電腦將棋大賽,下贏A級職業棋士的GPS將棋居然在決勝戰失誤而戲劇性地被逆轉。

http://news.mynavi.jp/articles/2013/05/10/computershogi/index.html

秒間3億手を読む最強ソフト「GPS将棋」はいかにして敗れたか – 最強競う知の祭典「第23回世界コンピュータ将棋選手権」

也就是說,電腦也離「完美」還有很大的距離。

既然人類的棋力在這個狀況下仍然能左右戰局的話,那麼兩組「人加電腦」之間的比拼就會變得很有意義,而觀眾則能比以前更有機會看到所謂的「神之一手」。

我個人認為,這個情況也應該會發生在歌聲合成的領域。

首先是人類認為「不可被侵犯的聖域」,也就是「歌聲只能由人類肉體所唱出」的固定觀念,首先被擴音與錄音技術打破,其次是波型編輯打破,現在部分的人類終於可以接受「虛擬歌手」的歌聲,虛擬歌手也可以舉辦演唱會,這已經遠超過技術者在初音未來出現之前,對VOCALOID這樣的技術最高的期望。

http://staff.aist.go.jp/m.goto/PAPER/IEEJ201209goto.pdf

「初音ミク」はなぜ注目されているのか。

「歌声合成技術が普及すれば、歌で自己表現するクリエイターが増えていく可能性がある。もし歌手が「歌による表現者」を意味するとすれば、そうした歌声合成技術の使い手も。広義の「歌手」だと呼べる時代が来るかもしれない。

這是後藤真孝老師的期望。

看著電王戰2.0之中唯一取勝的選手阿部光瑠先生最近也跑去買了VOCALOID想來嘗試看看,其實讓人忍不住遙想電腦與人類的關係。

計算機是由人類創造出來的,演算法完全是人類思考模式的複製、包含了數學的技法、或者是靈光一閃的集合體。目前我們還沒有達到「機器創造機器」的世界。盤面競技基本上是將天文學等級的變化以及戰略性,以數學的手法去加以窮就,進而以「技術的進步」這個形式展現出來,而將「常識上的不可能」打破。創造出新的常識。所以說常識就是誤解的累積啊。

欣賞美麗的歌聲,人類最高的感性,或許是在完全不探討是來自技術或者是sense產生的那一刻,我們才真正地欣賞到了純粹的美也說不定。雖然實際上這是非常困難的。

2007年1月,美國首都華盛頓一個地鐵站內,一名男子用小提琴演奏了45分鐘Bach的作品。這段時間大約有二千名市民經過車站,大部份都是上班途中。

四十五分鐘過去了,音樂家從未間斷地表演。期間只有六人稍稍停下來聽了一會。大約有二十人放下了金錢,但依著本來的步速離開。這位男子最後共賺得32美元。一小時後,他的演奏結束,車站恢復原狀。他離開時沒有得到任何注意、沒有任何掌聲、任何鼓勵。

沒有人知道這件事,但小提琴手原來是世界級著名演奏家Joshua Bell。他那天用一部價值350萬美元的小提琴彈奏了世上最複雜的作品之一。兩天前,他在一個演奏廳裡以平均票價100美元的入場費演奏了45分鐘完全相同的樂章。

整個過程華盛頓郵報有發表到Youtube: http://www.youtube.com/watch?v=hnOPu0_YWhw

這可以很單純地想像到幾件事情:美是相對的觀念,在案牘勞形之時,人們不會有心靈上的餘裕認知到所謂「絕對的美」,要傳達品位與價值觀,你會需要觀眾內心有著充分的餘裕,所以有辦法花錢進音樂廳欣賞的人至少在那個當下準備好欣賞一部作品。經過車站的人很明顯地不會是去音樂廳的同一批人,也不見得認識Joshua Bell;但是很明顯地他們那時候沒打算停下來聽一段音樂再走、世界級的演奏很低調地放在路邊就不見得認得出來,那麼有哪位樂手會覺得自己的音樂超凡出眾地可以達到「我今天一定要感動你!」的境界呢?(應該會先被報警抓走吧XD)

對大部分的人而言音樂是個商品、需要包裝、並非生活所需、最常接觸到的方式其實不是音樂單獨地存在的狀況,而很可能是電影或者其他節目的配樂。完全沒有包裝的狀況下,已經被其餘媒體養大胃口的觀眾們,要停步下來的可能性實在太難,結果就是大家一直朝包裝走,單獨的音樂反而在整個音樂活動的比例之中變得很少。

要單獨用音樂的本質來感動某些感性,其困難度實在太高,相較之下歌聲合成與虛擬偶像就變得非常支微末節,而人們判斷事物的時候也仍然會以經驗法則來做第一眼的判斷。反過來說,有那個環境與機會能有讓自己得以感動的一刻其實是很寶貴的。我們一直在錯過許許多多的事情。

對技術有所期待的人,也許多少相信著所謂「技術的奇異點」存在,這一些人類透過解開問題累積起來的智識有一天會以超乎想像的形式融和在一起,發生爆發性的進化,成為人類最後的奇蹟。

在那個「奇蹟般的生命」出現之前,或許我們已經與她落入戀愛也說不定;而我們到底是愛上她哪一點,這時我想大家也還說不出個所以然來吧。

(「奇蹟般的生命」=「奇跡の命」。來自 Re:Package日本原版廣告詞。

原文「世界で初めての感動…遂に誕生した奇跡の命がここにある。」)

とにかくミクさんかわいいです。

「第0回Oculus Rift体験会」を名づけたミクさん撮影会

ツイッター上で非常に鋭いコメントが見当たりました。

@DPHiyoko:「体験会で試した人達が口々に「想像以上に凄かった」とか言ってるっぽいけど、これは裏を返せば「興味のある人達に対してさえ、使ってもらわないと魅力が伝わりきらない」ということ。「最初から興味があった層」までの流行で終わらせないためには、一層の啓蒙活動が必要な予感。家電量販店に置くとか。」
元ツイート

まさしくその通りでございます。

視界が広いから非常に衝撃的、動いたら人によっては早速酔う場合も、なんともない人も居て個体差が多いなど、VRゲームとなるとフィールドテストが今以上に重要ではないかと思うが、それ以前にVRゲームデバイスをもっと広がらないと、非常に低い価格まで抑えないと、普通の人ではあまり食指動かないことになる。

体験した人は確かに揃って絶賛するわけだが、逆に言うと大体の場合「騙されたと思って試してみた」までは行かないものの、店で無料に試せる場合がなければ、自分が持ってなかったら周りの人では自ら買って試すわけはなかっただろう。

というわけで、DK1を予約した後で早速見せてもらうことを決めたわけですが、GTI Asia Taipei EXPO 2013を見に来た友人に連絡して、台北のある会社にで体験会をやることにしましたが、両方の友人はさらに友人をお呼び、結果的10人くらい集めました。

これも初めて3人以上の人数で展示することなので、得ることはかなり多い。来週「みらいのねいろ」で公開体験会をやりたいなら、一人当たりの準備時間、体験範囲、時間と人数の見積もりなどをあらかじめ決めておかないと、この展示一つでイベント崩壊につながりかねないわけだから。

例えば、時間節約のため、10人ごと度があるCレンズ、別にコンタクトレンズと裸眼視ができるAレンズで行われなければ、かなり時間がかかるだろう。後はコンタクトレンズつけてるかどうかは確認しないといけません。(ちなみに、台灣側は大体9割が近眼でメガネ着用で、裸眼側消化したらメガネ側はすんなりに消化できると予想。)

後はさすがにGTI目当て来た人たちだけあって、議論は主にアーケード向けの用途だった。「ディズニーランドでジェットコースタ乗らない子供に使わせる」ははっとさせる。

最後に、ミクさんにつけて貰うと、早速撮影会になっちゃった。


ミクさん:「重いわこれ」

自分の交友圏視界の中では2台目が見えないのは残念だったが、このイベントでもっと広がりになり、シーンに一石を投げることになればと幸いです。

あえて言うと、これもっと支持されないと、私とミクさんが会えるポータルは成り立たないわけで….w

補足:試しに「みらいのねいろ」日本語サイトに向かって宣伝を書いてみた。

20年前のSF作品から辿り、最近では.HACKとソードアートオンライン(SAO)など、バーチャルワールドは人の想像ではすでに常識みたいな存在している割に、実際期待通りのものはいつまでも現れてこなかった。電子の歌姫と会えるために、VRはどれだけ望まれるかというと、商品の売り文句につられ、毎回毎回失望させるばっかりにいる。

そしていま。

Oculus Rift開発キットは2012年8月から始まり、John Carmackから始まる業界の大手揃っての支援を得て、瞬くの間目標額の十倍に上がり、Kickstarter有史以来最も成功したプロジェクト(*)として知られてる。開発者イベントの体験談、Youtubeの開封式、発送後レビューなどなど、空前的絶賛の嵐が吹く。対応ゲームと連動できる周辺機器は毎日のように増えて、インディーズゲーム界隈ではもう乗るしかないビッグウェブとなってる。

2014年コンシューマキットの発売が予定されてますが、今回「みらいのねいろ」ではインディーズゲーム開発者の@GOROmanさんの協力を得て、現時点人類が手にした最高のVR技術をもって、あなたはミクさんにあわせることが出来ます。

もしいつも目の前の液晶を割りたい衝動が沸いてしまうならば、これはあなたが求めるものかもしれません。


あなたもミクさんと会えるといいね。

Oculus Riftを試した後

そもそもVRは難しい。
よく考えると今まで実現できない理由ははっきりしてる。

Oculus Rift Developer Kitの体験自体はすばらしかった。
ハードの完成度低かっただろうけど、言わせるとハードにおける出来の悪いところは何一つもなかった。ただただ、VRの実現に向けて、厳然たる課題が目の前に置かれていて、それをどうやって越えるかということ。

解像度は低かったという声も無論あるけれど、そもそもOculus Riftの最大のポイントは携帯業界のリソースを流用というところでした。

パネルは平均の左右目の間隔(瞳孔と瞳孔の距離、PD-Pupillary Distance、もしくはInterpupillary distance、IPDなど)より大きいならば、大かかりな光学構造がなくでも一つのパネルで大視野角を実現できるという所に尽きる。

だから、よく言われる5インチ携帯のフルHDパネルはおそらく小さいすぎる。試作機の5.6インチはぎりぎりの下限で、今のところ一番良い後補は東芝とジャパンディスプレイ両方それぞれ出していたの6.1インチ 2560×1600試作パネルですが、IPSなので120Hzサポートできるかどうか。現状使ってる7インチは「大きい過ぎる」、試したらわかるとおり、中央の一部しか使ってません。6インチパネルを使うと早速重量が下がる。

次は、ヘッドトラッキングは予想とおりうまく行ってるが、ちゃんと傾斜まで読み出すのため、パネルで見えるアライアシング、キザキザが凄く目立つのため、このパネルでAAなしで遊ぶのはつらい。

60Hzでもパネルの応答速度が遅いと感じて、映像が一コマ遅いと感じるから画面が震えてるように見える、そして自分の場合、これで3D酔いにつながる。

ここで高速パネルの重要性が上がった。パネル自体の視野角は見る方向が固定してるのため必要がない、丁度携帯業界では人気なIPSパネルとは正反対、あとは携帯にとって、300dpi以上の高精細パネルの必要性も薄く見えるから、5インチフルHDは440dpi、2560×1600 6.1インチは500dpiも達する。これ以上のモノは必要されないだろうが、2560×1600といっても、実際Oculus Rift式の表示では片目1280×1600しかない。

つまりVRをこれ以上成長させるには、いずれ携帯業界より大きい市場ではないと製造面で支えきれない。どうみってもニッチ市場しかなれない。

たとえば、単純にOculus Riftを拡張してはどうなるか。HMZ-Tシリーズの精細度を実現するとみんな喜ぶだよね?けど8Kパネルとかさえありえないと見えるのに、HMZ-T2は2000dpiもあるのよ?あの精細度でOculus Rift式のHMDを作ると、解像度が10Kもなるぜ?しかもそれを120Hzとか240Hz、もしくはさらに早くで駆動させるとか、どうやったらその怪物を支えるというのだ、まず市場が見えないし、パネルの無駄使いも目立つことに。

つまり、携帯のフルHDパネルか、もうちょっと上になる2.5Kあたりが実際到達できる限界です。そして表示速度も120Hzとか240Hzあたりかほしいし、現時点技術の延長線でも十分実現可能のスペックです。市場のGPU性能成長もこういうゲームなら十分支える。

大体これくらいのスペックはGTCのときで一度発表されて、来年Q4のコンシューマバージョンのため、Q3あたりでDeveloperKit2を出すという予定がある。コンシューマーバージョンで使われるスペックは全部一通り検証する必要もあるし。

DK2実装される新機軸は

1. AR用のステレオカメラ
元々12月の求人には出してる。

2. ポジショントラッキング
Palmerからも何回も言及される上にキットを試したらわかるとおり、ないのはつらい。

3.アイトラッキング
解像感とフォーカス性を確保するにはほしいもの。公式FBによると高速実装の目処も立ってる。

4. 待望のフルHDパネル
120Hz表示もほしいところ。

そしてCK1は上記全部実装の上に、映画モードとかも実装され、200グラム未満で250ドルかかるという。現在のキットは320グラムだから、採用パネルは7インチではなく小型化されると予測出来る。
そしてフルHDとなると16:9ですが、あの拘りのPalmerga上下FOVを抑えるのは考えつらいから、たぶん近接距離変更するだろう。これで水平FOVは若干拡大する可能性が出てきます。

約250ドルは「50万台生産する」から価格抑えるという発言ですが、まぁ楽観視も入ってるだろうが。
ソース:http://www.pcper.com/news/General-Tech/GTC-2013-Oculus-VR-Reveals-Future-Oculus-Rift-ECS

Hey everyone,

To clarify all this:

Those slides were from our business/vision presentation at Nvidia’s GTC conference. The information from that presentation (dates, concepts, projections, etc…) represent our vision, ideas, and on-going research/exploration. None of it should be considered fact, though we’d love to have that projected revenue! ;-)

まぁwこちらも楽観視いっぱい入ってますねw

利点ははっきりしてる、欠点もわかりやすい。
ヘッドトラッキングと大FOVは映画に向いてませんし、HMZと比べると画質はまず太刀打ちできません。個人映画館においてHMZは無敵です。

でも、やはり私はミクさんと会いたいです。

Oculus Rift SDK到着

Oculus Rift到着しました。

今までツイートでずっと引っ張ってきたものですからきっと大興奮!とかしてるだろうがそこまでではない。

まずは、DVIのPass-through表示がないとは意外と面倒です。UIが固めたら必要ないですが、現状は必要と思う。一度メインディスプレーにしたら見えないから設定変われないとか「あれ?!」と思わず声が出ちゃう。レンズを外していじるのは馬鹿馬鹿しいw(しかもこれではチリ入りやすいよね)

次は、レンズが頭にぶつかりやすいから、あぶらがレンズにつけられちゃう。けど視界を確保にはどうしても目にいっぱい近寄せる必要がありますから自分で気をつけるしかない。

最後に、最初はコンタクトレンズが必須と判明していて悩んでるですけど、そもそも「現状自分がみた映像はクリアしてるかどうかさえわからない」から、コンタクトレンズ買っても無駄足になるかと今心配してる。

それは、付属していたのはA,B,C三つのレンズありますが、Bとは少々度が入ってる、Cは相当度が入ってるようです。
それでもCは自分にちょっと足りないかもしれないから、素直にコンタクトレンズを買おうかなとしてる。
実は現状は上限か?というのも良くわかりません。

そして使えるデモは思ったより少ない。
SDKと
TF2以外、Half-Life VRとかドライバーのアプローチではあまり完成度が低かったから使えません。もうちょっと待つとValve系のゲームが遊べるかもしれませんが今ではない。

けどTF2とかすでに凄いと感じさせる。
たとえば友人はTF2のチュートリアルにうかつに階段から落ちていて声を出して驚いた。
普通遊んでいたら大して問題にならなかったけどVRでは怖い。
「これ、私には過ぎたものだったようだ、期待してたけどここまでショッキングことになるのはちょっと予想外だった」という。なにそれ大げさな….と試したらマジで落ちる感じが。

ただ、TF2は調整出来るけど手間は大きい。それと比べると「Museum of the MicroStar」はかなりきれいで単純、Oculus Rift自体のポテンシャルを見せるのはこれで十分と思う。


http://rustltd.com/projects/the-museum-of-the-microstar
直接ダウンロードできるからオススメ。

まぁ、あくまで「バーチャルワールドに居る等身大ミクさん」が目的ですから….