FAH 運算量總值 達1Peta FLOPS

FAH-1PFLOPS

PS3貢獻的量為769TFLOPS,占全部總量1029TFLOPS中的74.7%。

—-
說到CPU….
http://jyuriko.exblog.jp/6462715/
這個爭議大概還是TVG bbs版那串吧,我是覺得那串說起來很多不是硬體上的問題,而是市場考量就是了。

其實PPE有很多值得說的事情,因為它為了達成高時脈,蠻多動作會造成Stall的;可是如果你不使用SPE的話,你只有花很多精神在PPE的turning上面…不過對廠商而言,為了跨平台很多廠商都寧願如此。_A_

SPE能做的事情其實很多,但是拿SPE做了就等於綁死在PS3上面,而PS3的大數對很多廠商而言全部賭上去風險太大,所以結果是SPE閒置的比例還是高得驚人….(KZ2宣稱大量使用SPE,但是根據他們的文件,其實也只用到整體SPE的20%左右執行時間)

最後說不定使用SPE最多的還是PS Home…. _A_

狂賣的初音ミク

http://www.itmedia.co.jp/news/articles/0709/12/news035.html
異例の売れ行き「初音ミク」 「ニコ動」で広がる音楽作りのすそ野

正常銷量平均200~300左右,一千份則是大賣的音樂製作軟體市場,來了個包含預約三千份在內的大狂賣….niconico再度爆發了嗎XD
話說9/11的每日一緒剛報導過nicovideo….但是PS3的Browser還沒辦法正常對應nicovideo真是諷刺。
這種事情盡快搞定啊~

 販売目標は「見失った」という。
「現時点で、音楽制作ソフトとしてはありえない記録的な本数なので……。むしろ今回の販売本数に気をとられず、新しいシンガーや、操作を分かりやすく解説した本などを充実させて、末永く愛用していただける楽しいVOCALOIDを作っていきたい」

也就是說完全預料外的狀況嗎XD

達成千人單位FPS的條件?

http://www.watch.impress.co.jp/game/docs/20070910/gf_live.htm
LIVEのクロスプラットフォーム化、Xbox 360でのMMO実現に向け
マイクロソフトのオンラインゲーム開発支援内容を紹介

Gamefest Japan 2007,講了很多東西,不過先對裡面一小段寫一點東西。

裡面提到兩種實驗的方向:一種是透過分散式運算來強化AI的研究,第二種是透過P2P來改善連線所需頻寬的部分。
方法是將程式碼整合到Q3A(反正已經Open Source很久了)裡面,然後來進行實驗。

  • 分散システムによりNPC AIの劇的な強化が可能に
    集中型ネットワークでサーバーに過度の負荷をかけるNPC AIの実行を部分的にクライアントが担当することにより、パフォーマンスやセキュリティ上の犠牲を受けることなく性能を劇的に強化することが可能である、という内容で解説がおこなわれた。

將路徑尋找等比較複雜的工作從Server轉移到Client上,只在Server上進行單純、高速並且可透過參數調整的AI,而在各個client上進行比較複雜而低速度的AI處理,在遊戲進行的過程,Server定期將snapshot傳給Client,然後Client進行完複雜的運算後,將參數回傳給Server,Server則以這些資訊為依據來強化AI。結果將新的AI拿去和原始的AI對戰,得到了明顯的差異。

  • 特定のサーバーを必要としないP2PネットワークでのMMOプレイ体験とは
    通常FPSではクライアント・サーバー(C/S)形式のネットワークが使われるが、この方式ではピア・ツー・ピア(P2P)方式を使う。P2P方式では、通常の実装によると「人数の2乗に比例して帯域を食う」ため、一般にはMMOに全く不適といわれる。ところが提案された「Donnybrook」方式では、「人数に比例して帯域を食うC/S方式よりも負荷がゆるやか」になるのだという。

這邊的DonnyBrook指的是把遊戲的各個client以P2P來連結,正常狀況以P2P連結的話頻寬需求會與人數的平方成比例,但是這個實作把連線同步時傳輸資訊量大幅壓低,而配合各個client的AI來補正這些頻寬被壓低而損失的資訊,而連線時只傳輸玩家特別會關心的資訊:比方說已經要接近敵人了,或者是已經在接戰的時候,才提高連線資訊傳輸的優先度,否則平常的時候則將其他物件的位置加以大幅度地省略,只由client的AI來進行補正。

結論來說,即使在頻寬極度受限的環境下,也可以得到接近於LAN game的體感,頻寬需求甚至低於傳統的Server/Client。

其實上面這些觀念感覺上看起來都有利用分散式運算特性的策略。本來Server的性能與頻寬就不是無限大,所以透過重新分配運算的比重,來改善連線遊戲時的品質,以達到前述的”一千人規模的FPS”的目標;只是這邊MS是從軟體開始approach,SONY這邊則是先從硬體(CELL)開始approach,沒有軟體的話硬體只是箱子,但是有軟體的話箱子的品質可以慢慢等待改進,結果就是軟體的路線先有成果,感覺上也相當有趣就是了。

—-
不過,如果從遊戲性本身來審視的話,上述的作法有意義嗎?

第一個,上面提到連線時的頻寬壓低靠的是AI在各個client上”代替”其他player行動產生的動作,所以造成「特定武器」嚴重影響平衡度,而這應該毫無疑問是陷阱系的東西,如果變成AI替其他玩家踩到陷阱的話,那大概很多人會翻桌吧。
第二個,如果遊戲步調很快的話,接戰的頻率會很高,由於接戰狀況下你還是得維持一定量的傳輸才能達到順暢的程度,其實省不到多少頻寬。
第三個,由於改善法是透過分散式運算,所以代表單機模式底下AI能不能有改善?總不可能為了改善AI而去連線吧。

所以細部來說會有很多執行上的麻煩;然而這些麻煩和這些實驗想達成的目標相比之下應該要有些取捨,所以目標是什麼呢?為了「千人單位的FPS」下的「Server維護成本」合理化。

小光舉了個例子,F.E.A.R的AI是已經很精密、很強了,但是玩熟的玩家還是可以無傷過關,原因是因為敵人地點固定,並且行動模式沒什麼改變。如果單機模式下真的要提高難度,只要同樣的AI加上隨機戰場就很夠了。至於連線模式下透過分散式運算提高AI的性能這點也有個問題,玩家上線了就是想和真人打,結果用分散式運算強化的Bot要用在哪邊?要玩家們和Bot對戰?還是拿來當玩家的友軍?兩者應該都不太實際。

人數上的問題,以現存的大規模對戰(BattleField系列的32×32),就已經常常會遇到一群人出去一起掛掉的狀況,人數太多所以一直在死,沒什麼熟練的空間,結果玩家平均的skill因為環境過於混亂而很難提高,地圖上的大目標也很難統籌所有人去執行(過於混亂),整體來說遊戲性反而會降低。

那,為了減緩這些問題,來提升場景規模呢?在Multicore、CELL、MegaTexture之類的技術下,其實我們能夠做的場景是應該比以前大上許多,真的要做的話20GB的場景全程無縫讀取應該都不是問題。但是用一個大場景把比較多的人散布在和過去同樣密度的狀況下,結果來說其實和過去沒什麼改變,在地圖彼端的戰鬥,和另外一個room的戰鬥一樣與你仍然沒什麼交集。

更別提其實MegaTexture的目的是改善美術人員的工作流程,達到更好的效率,所以結果來說可以得到更大規模、更高品質的場景;但是遊戲性來說擴大場景並不會因此得到什麼改善,這或許是Crysis在設計當初曾經考量過21km平方的場景,但是最後仍然切割成多塊4km平方的場景。

所以MS這些做法是不是有價值會是值得質疑的部分;不過如果可以培植出其他有價值的know-how的話是樂觀其成….

最近猛出高價物的SONY

米Sony、200枚BDチェンジャ搭載ホームサーバー
-500GB HDDを内蔵。3,500ドルで10月発売

米Sony、Blu-rayプレーヤー最上位モデル「BDP-S2000ES」
-ESシリーズ初のBDPで1,300ドル。700ドルの「S500」も

米Sony、120fps表示のフルHDプロジェクタ「VW200」
-BRAVIAプロジェクタ最上位機。15,000ドル

ソニー、70型などフルHD「BRAVIA」15モデル発表
-10モデルが倍速。レコーダやブラビアリンクも

最近SONY真是發神經了….XD
不知道是不是哪個高層先前一直阻擋然後現在一口氣放出來….(當然也有可能是資源被PS3吸走了XD)
well,想成和PS3相輔相成我覺得比較適合啦。

比方說,那個BD換片機 + Home Server看起來是很神經病,不過和當初與TypeX Living一起展出的概念機相比,純1394介面的換片機變成1394+內建硬碟+LAN(DLNA Server),整個可塑性就大了很多,顯示想法真的是有在進步的。

如果照過去久多講的「熟成」,就會變成PS3能夠做「在User設定下,休眠期間自動把LAN裡面全部的DLNA儲存媒體裡面480p以下的動畫檔(尤其是youtube、nicovideo那個等級的)抓來用NR + Upscalar跑一次,順便上metadata tag,再存回去」之類的行為,只要軟體支援。

….其實說起來對家電來說PPE就很powerful啦。_A_

GeForce8續報2

Nvidia G92 is GeForce 8700 GTS(VR-Zone)
根據這篇的說法,單晶片的時候是65nm、256bit、512MB GDDR3、8層PCB。

Salty specs of G92 and G98 hit the web(TechConnect Magazine)
G98與G86一樣規模為1TPC、封裝為64bit;另外,G84 65nm版本維持編號。

現在的問題就是G92單晶片本身的規模了,這關係到G92 MCM(or single die dual-core)的成本問題….聽說如果G80還撐得住,高階有可能繼續讓G80挑大梁。

[EDIT]
由於有7TPC的規格出現,看來G92似乎與G80一樣都是8TPC的規模?

另外,die size方面大約知道與G71類似,所以NVIDIA目前看來打算重複7950GX2的產品策略,也就是沒有MCM而是雙晶片+雙PCB。

這樣最大的缺點自然是難以避免地會有SLI失效時單卡性能下降的問題….優點則是沿用設計設計所帶來的成本改善;為了彌補這點,會不會有類似現有G80高階定位的D8p單晶片產品(256bit以上)則是另一個問題。

GameTomorrow的CELL vs G80

http://gametomorrow.com/blog/index.php/2007/09/05/cell-vs-g80/
well,IBM又拿他們的iRT來說嘴了XD
能不能拿些別的應用出來….XD

這篇是引用薩爾大學的 Philipp Slusallek教授拿G80作ray-tracing的論文,Stackless KD-Tree Traversal for High Performance GPU Ray Tracing的數據,與CELL跑iRT的比較。非常有趣的是,iRT的作者正好是 Philipp Slusallek的學生。

這完全就是重複當初RacingPHT兄自己做的Ray-Tracing demo on G80的狀況,只是當初是預估,這次是實際跑完。

從左至右:

2.6 GHz AMD Opteron – Saarland Ray-tracer
Nvidia GeForce 8800 GTX – Saarland Ray-tracer
Sony Playstation3 (partial 3.2 GHz Cell processor running Linux) – IBM iRT
3.2 GHz Cell ProcessorIBM iRT
IBM QS20 Blade (Two 3.2 GHz Cell Processors) – IBM iRT

論文本身有提到因為Register footprint的關係,G80運作的效率並不高,有待CUDA本身的改善。

Although we believe a performance of over 16M rays/s to be already quite impressive for the CONFERENCE scene, we expected much higher performance: The G80 with its 128 scalar arithmetic units running at 1.3GHz should deliver over 160GFlops, meaning that tracing one ray costs about 10,000 cycles. We suspect the main bottleneck to be the large number of registers in the compiled code, which limits the occupancy of the GPU to less than 33%. Unfortunately, although the program requires much less registers, the CUDA compiler is not yet mature enough and cannot aid in reducing their count. An option would be to rewrite the whole CUDA code in PTX intermediate assembly.

16M rays/sec,考慮他們用的主要是scalar unit,至少應該有160GFLOPS,等於每個ray要跑10000cycles!不過即使是考慮33%的效率,仍與6SPE的CELL有相當的距離,更別提完整8SPE的CELL與內建雙CELL的QS20 blade,這應該與每個SPE都具備相對多數的register有關….然後IBM的人對Larrabee放話了。XD

iRT ray tracer已經於9/5開放下載。
http://gametomorrow.com/blog/index.php/2007/09/05/interactive-ray-tracer-irt-available-for-download/

下載位址為
http://www.alphaworks.ibm.com/tech/irt

內含有兩個demo scene,各為33萬3千個三角形的法拉利、以及六萬九千個三角形的史丹福兔寶寶。


在這兩個scene底下,PS3可以達到720p解析度下超過40fps。
PS3有6SPE、QS20有16個SPE之故,效能與SPE數量成線性關係,後者能達前者的2.5倍性能。

—-
說真的,來點別的應用吧。TGS07希望多點東西….
謠傳TGS07會有HOME for JP、firmware 2.0、新的線上AV服務、新定價策略與同捆包,甚至是FF7….

GameTomorrow的CELL vs G80

http://gametomorrow.com/blog/index.php/2007/09/05/cell-vs-g80/
well,IBM又拿他們的iRT來說嘴了XD
能不能拿些別的應用出來….XD

這篇是引用薩爾大學的 Philipp Slusallek教授拿G80作ray-tracing的論文,Stackless KD-Tree Traversal for High Performance GPU Ray Tracing的數據,與CELL跑iRT的比較。非常有趣的是,iRT的作者正好是 Philipp Slusallek的學生。

這完全就是重複當初RacingPHT兄自己做的Ray-Tracing demo on G80的狀況,只是當初是預估,這次是實際跑完。

從左至右:

2.6 GHz AMD Opteron – Saarland Ray-tracer
Nvidia GeForce 8800 GTX – Saarland Ray-tracer
Sony Playstation3 (partial 3.2 GHz Cell processor running Linux) – IBM iRT
3.2 GHz Cell ProcessorIBM iRT
IBM QS20 Blade (Two 3.2 GHz Cell Processors) – IBM iRT

論文本身有提到因為Register footprint的關係,G80運作的效率並不高,有待CUDA本身的改善。

Although we believe a performance of over 16M rays/s to be already quite impressive for the CONFERENCE scene, we expected much higher performance: The G80 with its 128 scalar arithmetic units running at 1.3GHz should deliver over 160GFlops, meaning that tracing one ray costs about 10,000 cycles. We suspect the main bottleneck to be the large number of registers in the compiled code, which limits the occupancy of the GPU to less than 33%. Unfortunately, although the program requires much less registers, the CUDA compiler is not yet mature enough and cannot aid in reducing their count. An option would be to rewrite the whole CUDA code in PTX intermediate assembly.

不過即使是考慮33%的效率,仍與6SPE的CELL有相當的距離,更別提完整8SPE的CELL與內建雙CELL的QS20 blade,這應該與每個SPE都具備相對多數的register有關….然後IBM的人對Larrabee放話了。XD

—-
說真的,來點別的應用吧。TGS07希望多點東西….
謠傳有HOME for JP、firmware 2.0、新的線上AV服務、新定價策略與同捆包,甚至是FF7….

GameTomorrow的CELL vs G80

http://gametomorrow.com/blog/index.php/2007/09/05/cell-vs-g80/
well,IBM又拿他們的iRT來說嘴了XD
能不能拿些別的應用出來….XD

這篇是引用薩爾大學的 Philipp Slusallek教授拿G80作ray-tracing的論文,Stackless KD-Tree Traversal for High Performance GPU Ray Tracing的數據,與CELL跑iRT的比較。非常有趣的是,iRT的作者正好是 Philipp Slusallek的學生。

這完全就是重複當初RacingPHT兄自己做的Ray-Tracing demo on G80的狀況,只是當初是預估,這次是實際跑完。

從左至右:

2.6 GHz AMD Opteron – Saarland Ray-tracer
Nvidia GeForce 8800 GTX – Saarland Ray-tracer
Sony Playstation3 (partial 3.2 GHz Cell processor running Linux) – IBM iRT
3.2 GHz Cell ProcessorIBM iRT
IBM QS20 Blade (Two 3.2 GHz Cell Processors) – IBM iRT

論文本身有提到因為Register footprint的關係,G80運作的效率並不高,有待CUDA本身的改善。

Although we believe a performance of over 16M rays/s to be already quite impressive for the CONFERENCE scene, we expected much higher performance: The G80 with its 128 scalar arithmetic units running at 1.3GHz should deliver over 160GFlops, meaning that tracing one ray costs about 10,000 cycles. We suspect the main bottleneck to be the large number of registers in the compiled code, which limits the occupancy of the GPU to less than 33%. Unfortunately, although the program requires much less registers, the CUDA compiler is not yet mature enough and cannot aid in reducing their count. An option would be to rewrite the whole CUDA code in PTX intermediate assembly.

不過即使是考慮33%的效率,仍與6SPE的CELL有相當的距離,這應該與CELL SPE都具備相對多數的register有關….然後IBM的人對Larrabee放話了。XD

MS與SONY的小孩子打架

http://gigazine.net/index.php?/news/comments/20070905_microsoft_wikipedia/

気になる編集内容ですが、PS2に関する記事に対しては112.7万台と書かれている出荷台数を「0」と書き換えているほか、PS3に対しては、ノートの部分で日米での販売台数から判断して「PS3は最も悪いハードであると思われる」などと追記した上で、「ほかの次世代ゲーム機のユーザーはPS3を最悪であると認めるだろう。」と、こき下ろしています。

你們這種爭執也太低程度了吧。

現在只剩下黑歷史….