PS3直結3.5吋SATA硬碟測試

http://www.watch.impress.co.jp/game/docs/20061225/ggl.htm


測試成功。
電源必須外接,因為內部供電不足以推動3.5吋;但是即使外接power,仍然有電源連動功能。(!!)

驚かされたのは、HDDの電源確保に外部のACアダプターを使っているのにもかかわらず、PS3の電源オン/オフに連動してHDDも自動的にオン/オフされたこと。用意した「直刺しAC」は電源供給をオン/オフするスイッチ付きの製品だが、ここは考えなくてもよさそうだ。
(by PCWatch)

這真是非常妙的狀況…. 所以只要有人推出適用的eSATA adapter,應該可以很方便地裝上更大容量的儲存解決方案。
此外,如果只是單純用USB接上大容量硬碟的話,可以使用FAT32 format,今天自己測試確定可以安全地format 320GB的3.5吋硬碟。

快點出相關套件啊啊啊啊啊~

Mini RoadRunner — 65nm eDP Cell相關

http://www.cs.utk.edu/~dongarra/cell2006/cell-slides/04-Ken-Koch.pdf

這篇的第九頁提到Cell BE未來的roadmap。


可以看到,倍精度強化(eDP)版65nm Cell 是另外一個版本的Cell BE。
當然其實這在先前Mercury那篇就已經提到,只是自己一廂情願在想免費強化;結果撐不住砸錢買PS3之後,現在又感覺”還好沒差”….
雖然是對自己說,但是有時候人真的是很善變。orz

總之,倍精度強化版的Cell 只有IBM RoadRunner/Mini-RoadRunner系、或是Mercury未來的Cell系統才有,一般可以輕易取得的PS3版Cell BE沒有。
這樣剛好可以做區隔….65nm版的PS3應該只會差在散熱部分。

所以,就義無反顧地買吧!(死)

——-
65nm的eDP CELL BE有以下的可能性:
為了達成1 byte memory bandwidth per FLOPS,所以Memory和I/O都需要加強;不過目前CELL的實體規格已經有這個能力,只是與PS3上的CELL估計會有下面的落差。

1. 配備6.4GHz (800MHz)XDR,頻寬達51.2GB/s。(兩倍頻寬)
當初PS3上的Toshiba XDR memory是已經驗證到600MHz,一年半後的現在應該已經達成滿規格的800MHz才對。
2. 全速的FlexIO。(從5Gbit/s per pin提升到6.4Gbit/s per pin)
目前PS3上的FlexIO頻寬為40GB/s(35GB/s to RSX、40GB/s to SB),如果達到同樣的運作時脈的話,頻寬將提升至51.2GB/s;而所有pin的總和頻寬為75GB/s。

也就是說,只要上列兩個規格重新補滿,就足以達到上述1byte per FLOPS的設計需求。(等ISSCC07召開的時候再看看有沒有猜對)
其實這樣就很有趣–很多人說CELL的記憶體頻寬不足,沒辦法達到HPC運算的需求;但是如果照上述一樣做到滿規格的話,其實CELL和Power6這種MainFrame級CPU一樣,整體頻寬仍然謹守1byte per FLOPS的原則,足以負擔其100GFLOPS DP的吞吐量。

只是這麼高的規格,對民生用的PS3而言或許真的有點overkill,所以就只好做些縮減了….
(而且應該都是為了配合周邊元件,如降低XDR與RSX的成本)
而即使做了這些縮減,PS3的用料仍然非常豪華,那麼使用eDP CELL的Blade Server到底用料會如何登峰造極,還真的蠻讓人有興趣的。

Xploder HDTV player 測試補充

Sync on Green DB
http://playstation2-linux.com/sog.php

最近才注意到自己手邊的Dell Ultrascan P1110其實有SoG功能,所以去找了BNC2D-sub Cable,把PS2色差端子接上去。
結果電子街有賣D-sub to RCA的cable,所以接起來比想像中好接一點。

實際測試時有些有趣的狀況:
640×480各模式:因為支援的軟體可以直接支援,就沒有測試;但是
800×600 各模式:和HD mode一樣,有點縮小。
1024×768 各模式:縮小得十分嚴重。
1280×1024 @ 60Hz:意外地沒什麼縮小,可以耐得住使用。狀況比720p還要好;不過只有200元的便宜色差端子會造成頗嚴重的鬼影。

結論上來說,如果有品質良好的cable,應該可以達到相當好的品質。
和720p相比,縱向的縮小並不是相當嚴重;不過視軟體可能會有橫向縮小。(GA2是很正常啦)
但是有些遊戲(如MGS3)在進入之後會被拉回640×480 @ 60Hz,可能和初始化的流程有關….
最後,有些遊戲(如Soul Calibar3)會遇到VSync被解除的狀況,比方說角色選擇畫面時一開始畫面動作超快,但3D人物出來就變慢。

原則上Xploder HDTV十分雞肋的狀況沒什麼改變,但是畢竟是個可以用的東西。
如果軟體有辦法正常使用的話,當成賺到應該沒什麼不好的;只是大概只能作為純480i的程式試著開480p的裡技使用。
不過如果考慮CRT不支援480i的話,當成一個切換器的用途就還蠻廣的。

PS3二三事….

剛拿到PS3實機….寫點心得。
tryout的環境有MouseNI老大家的37″ 西屋LCD-TV(色差端子only),還有自己的2407 with DVI2HDMI 轉接頭。

大家都知道,PS3目前的PS2模擬使用的是內建的EE+GS,然後顯示介面連結到Cell/RSX上輸出;
但是這兩天拿到實機後tryout發現,PS3上的PS2畫面稍微有點鬼影的感覺,而且切換到PS2時有一陣雜訊。
(GTFP開1080i的時候比較明顯,剩下的大多不明顯)
看來PS3內部的EE+GS本身是以類比輸出….所以品質其實比PS2直接跑GT4 1080i還差一點點。
那還真的不如直接用PS2玩。orz

而且雖說v1.30加上了一些USB輸入裝置的支援,不過目前仍然沒有達到PS2的水準,比方說Keyboard和Mouse當初PS2是可以直接使用的。
但是現在在PS3內的PS2則還無法使用,顯示Driver還有補足的必要….
(不過也因為這個理由,Tib認為目前PS2的GT4在PS3上沒有力回饋應該是因為還有待補充,而不是刻意空下來不做)

此外,輸入法部份。
由於預設輸入語系沒有與系統語系分開,所以只要顯示設定成日文模式,要輸入英數就很麻煩。
說明書也似乎沒有提及語系切換這點….這在一開始輸入PlayStation Store Account的時候讓人相當困擾。
至於沒有辦法background Download這點就不提了。
PS Store因為是各國語系分區的,台灣因為是獨立一區,沒辦法抓どこでもいっしょ….orz

由於使用的是最新的v1.30,上述的幾個問題還算蠻明顯的,感覺就像02提到的:
「如果它說是v0.30″beta”的話,這些問題說不定還可以接受。」
只能說請SONY多加點油….
聽說SONY打算把Game OS用的SDK放出來,讓大家可以自己寫程式在原始OS上跑,而非一定要user裝Linux才能跑….
這就感覺其實SONY的誠意並不低;只是聽說有hacker已經找出在PS3上跑image的方法了,希望最近不要輕舉妄動(雖說好像預計12/20會放出來?)不要壞了SONY繼續開放PS3下去的美意。

講了這麼多缺點,還是補點優點吧:
用手把就可以遠端遙控開機蠻爽的,而且距離真的相當遠;開機時的音樂也非常有質感,有點像是管絃樂團開始演奏前的調音。
PS Store裡面的Playable Demo還是可以打發點時間。(雖然下載的時間更需要找方法打發_A_)
最後,因為要park硬碟,其實關機時間還蠻長的;但是開機時間並沒有想像中長。

G80的優勢與弱項

最近後藤老爹發了五篇關於G80的文章:

【12/ 1】メモリアクセス粒度が課題となるG80時代のGPUメモリ

【11/27】シェーダプログラムの進化と連動するGPUのマルチスレッディング化

【11/21】G80とG7xの最大の違いはマルチスレッディング

【11/14】GeForce 8800世代のキーとなるマルチスレッディング

【11/ 9】これがGPUのターニングポイント NVIDIAの次世代GPU「GeForce 8800」

其中12/1這篇提到了目前繪圖記憶體在存取單位大小的問題,這也是G80一個非常有爭議的地方。

GDDR4目前把GDDR3的prefetch4提升到prefetch8,但是因為這個prefetch必須是連續的,所以以64bit寬度的ROP來說,等於一次讀取的單位就是總計512bit/64byte的資料,但是其中其實可能只有8~16byte的資料有用處,剩下都浪費掉了。即使是GPU這樣資料結構經過特別最佳化的硬體都還是不容易遇到這麼大的連續讀取,更別提GPGPU了。

所以ATI R5x0為了對應這個問題,提早把ROP的寬度改為32bit,使得prefetch8也能維持和當初GDDR3的prefetch4類似的效率;但是因為DRAM本身是32bit的,也就是說未來還想要進展到Prefetch16的話,問題就無可迴避了。G80維持64bit的ROP,因而被認為是設計上沒有打算對應GDDR4。(不過目前看來R600似乎也是32/64 x 8的設計,或許實做32×16的結構真的對電晶體數量壓力太大了吧)

但是透過XDR2提供的Micro-Threading結構,就可以迴避這個問題,在prefetch16的長度內放入交錯於不同bank內的資料,進而有辦法實做更長的prefetch,讓傳輸更貼近銅線可傳輸的極限….這也是protocol based DRAM interface的初衷。所以,GDDR系的記憶體,遲早有必要實做類似Micro-Threading的結構;但是有可能會因此遇到與RAMBUS公司間的專利問題,而使得問題複雜化。

另一個可能,自然就是直接採用XDR2了。
由於同屬SONY在PS3的合作夥伴,NVIDIA和RAMBUS也算是有一度合作過的關係,不過RSX最後仍然沒有採用XDR。
以後會不會採用相當值得注目,畢竟NVIDIA在GPU上有PureVideo這個外來IP,雖然它還只是附加價值系的東西,重要性和Memory Controller相比是輕了許多。
這麼關鍵的環節,真的會放心交給外人嗎?值得注意。

此外,在CUDA programming guide裡面對G80的硬體spec描述如下:

G80 has the following characteristics:
1. The maximun number of threads per block is 512;
2. The amount of device memory is 1GB;
3. The amount fo shard memory abailable per multiprocessor is 16KB divided into 16 banks;
4. The amount of constant memory available is 64KB;
5 The warp size is 32 threads.

這個”device memory is 1GB”看起來像是在指出G80的on-board memory組成可達1GB,也就是64×8=512bit….
但是看到shader與新AA模式–CSAA的表現,其實感覺G80對512bit的需求並不急迫。

Shader真的蠻可怕的,512 threads per block(TCP),意思就是整個G80總共有4096個thread!
這足足是R5x0的8倍;但是從分支性能看來,其實反而比R520還差些,為什麼呢?考慮shader規模大約是兩倍(128個1D,相當於32個4D),每個thread看來很可能都是1D,所以4096個thread相當於1024個4D thread。(!!)
Shader Pool的時脈和其他部分相差兩倍左右,所以延遲也大了一倍左右,讓與R520同等thread比例(128thread–4個4D,512thread–16個1D)的G80,實際上可以處理的branch size不得不加倍(4×4 become 4x4x2)。

也就是說,理論上G80的shader時脈可以非定比例拉高沒錯(AFAIK up to 4GHz),但是延遲會跟著shader時脈比例增加,也就會遇上分支性能隨著時脈增加而弱化的問題,類似R580增加shader時分支開銷相較於R520弱化。

CSAA目前有種說法,是指出它其實是Matrox 過去提出的Fragment AA的完美版本….
每個pixel可以儲存4個fragment,並且每個fragment都可以儲存4個sample,所以4個fragment成為這16個sample的index….
和過去Matrox FAA相比,大概就是fragment有沒有儲存sub-sample帶來的差異,所以可以有比較好的汎用性;不過弱點還是類似,shadow volume。
這也造成AA效果大大改善,資源需求卻變少的狀況。

memory interface本身了無新意,但同時也因此展現出了Shader與新AA模式本身的潛力,真是非常有趣的狀況。

Cell @ ISSCC 2007

SONY/Toshiba/IBM

Implementation of the CELL Broadband Engine™ in a 65nm SOI Technology
Featuring Dual-Supply SRAM Arrays Supporting 6GHz at 1.3V

The 65nm CELL Broadband Engine™ design features a dual power supply, which
enhances SRAM stability and performance using an elevated array-specific power
supply, while reducing the logic power consumption. Hardware measurements
demonstrate low-voltage operation and reduced scatter of the minimum operating
voltage. The chip operates at 6GHz at 1.3V and is fabricated in a 65nm CMOS SOI
technology.

你們太過分啦….XD

補充其他title:

Intel
An 80-Tile 1.28TFLOPS Network-on-Chip in 65nm CMOS

A 275mm2 network-on-chip architecture contains 80 tiles arranged as a 10×8 2D array
of floating-point cores and packet-switched routers, operating at 4GHz. The 15-FO4
design employs mesochronous clocking, fine-grained clock gating, dynamic sleep
transistors, and body-bias techniques. The 65nm 100M transistor die is designed to
achieve a peak performance of 1.0TFLOPS at 1V while dissipating 98W.

Implementation of the 65nm Dual-Core 64b Merom Processor
Merom is a dual-core 64b processor implementing the CoreTM architecture. The 143mm2
die has 291M transistors in a 65nm 8M process. The shared 4MB 16-way L2 cache
uses PMOS power gating to minimize leakage. The processor operates in a wide core
frequency range of 1 to 3GHz, a bus frequency range of 666 to 1333MHz and voltage
range of 0.85 to 1.325V, while providing 40% better power performance.

IBM

Design of the POWER6™ Microprocessor

The POWER6™ microprocessor combines ultra-high frequency operation, aggressive
power reduction, a highly scalable memory subsystem, and mainframe-like reliability,
availability, and serviceability. The 341mm2 700M transistor dual-core microprocessor
is fabricated in a 65nm SOI process with 10 levels of low-k copper interconnect. It
operates at clock frequencies over 5GHz in high-performance applications, and
consumes under 100W in power-sensitive applications.

A Distributed Critical-Path Timing Monitor for a 65nm High-Performance
Microprocessor

A distributed critical-path timing monitor (CPM) is designed as part of the POWER6TM
microprocessor in 65nm SOI. The CPM is capable of monitoring timing margin, process
variation, localized noise and VDD droop, or clock stability. It tracks critical-path delay to
within 3 FO2 delays at extreme operating voltages with a standard deviation less than
1/2 an FO2 delay. The CPM detects DC VDD droops greater than 10mV and tracks timing
changes greater than 1 FO2 delay.

AMD

An Integrated Quad-Core OpteronTM Processor

An integrated quad-core x86 processor is implemented in a 65nm 11M SOI CMOS
process. Based on an enhanced OpteronTM core, the SoC-developed processor employs
power- and thermal-management techniques throughout the design. The SRAM cache
designs target process variation considerations and future process scalability. A
DDR2/DDR3 combo-PHY and HT3 I/Os provide high-bandwidth interfaces.

SONY/Toshiba/IBM

Implementation of the CELL Broadband Engine™ in a 65nm SOI Technology
Featuring Dual-Supply SRAM Arrays Supporting 6GHz at 1.3V

The 65nm CELL Broadband Engine™ design features a dual power supply, which
enhances SRAM stability and performance using an elevated array-specific power
supply, while reducing the logic power consumption. Hardware measurements
demonstrate low-voltage operation and reduced scatter of the minimum operating
voltage. The chip operates at 6GHz at 1.3V and is fabricated in a 65nm CMOS SOI
technology.

Sun

An 8-Core 64-Thread 64b Power-Efficient SPARC SoC

The 8-core 64-thread 64b power-efficient 2nd-generation Niagara SPARC SoC has 4MB
L2 cache with one x8 PCI-Express, two 10G Ethernet (XAUI), and 8 FBDIMM ports. The
on-chip SerDes provide greater than 1Tb/s bandwidth. The 500M transistor chip with a
die size of 342mm2 is implemented in a 11M 65nm triple-Vt CMOS process

會場看起來最屌的可能會是Power6底層設計,其次是跑6GHz的65nm Cell。

first Cell benchmark result

http://rian.s26.xrea.com/nicky.cgi?DT=20061121A#20061121A
■2006年11月21日(火)  PS3 Cell BE の PPE の性能は?

・ gccの最適化オプションは -O3 のみ
・ 3回実行して最も良かった値
・ スレッド分割してません。プロセッサコア単体の性能になります
・ Pentium4 3.2GHzはPrescott
・ 32bit coding

http://www.beyond3d.com/forum/showthread.php?t=36058
相關討論

・Dhrystone v2.1
PS3 Cell 3.2GHz: 1879.630
PowerPC G4 1.25GHz: 2202.600
PentiumIII 866MHz: 1124.311
Pentium4 2.0AGHz: 1694.717
Pentium4 3.2GHz: 3258.068

・Linpack 100×100 Benchmark In C/C++ (Rolled Double Precision)
PS3 Cell 3.2GHz: 315.71
PentiumIII 866MHz: 313.05
Pentium4 2.0AGHz: 683.91
Pentium4 3.2GHz: 770.66
Athlon64 X2 4400+ (2.2GHz): 781.58

・Linpack 100×100 Benchmark In C/C++ (Rolled Single Precision)
PS3 Cell 3.2GHz: 312.64
PentiumIII 866MHz: 198.7
Pentium4 2.0AGHz: 82.57
Pentium4 3.2GHz: 276.14
Athlon64 X2 4400+ (2.2GHz): 538.05

基本上大略是在預料之內….PPE的整數和倍精度都不太好;單精度FP倒是有一定程度的實力,本來以為不是VMX-128應該會蠻糟的。
可以看得出來倍精度的部份應該和SPE一樣有一定程度的弱化….
所以如果不使用SPE的話,基本上倍精度對Cell仍然是極為吃重的工作;或許65nm版本的Cell會做些強化也說不定。
(65nm Cell可能要等到07Q3)

總和來說,PPE的整數實力大約只有PPC970 @ 1.8GHz的1/3左右。
這其實會導因到一個很有趣的結果-回頭看具有3個PPX的Xenos,實際上PPX也只不過是PPE + VMX128而已,這代表Xenos的整數實力也頂多是PPC970 @ 1.8GHz同等的水準。
如果善用SMT的話,或許可以和缺乏OOOE扯平,不過也不是可以樂觀地說整數多好的程度;而SPE也是可以執行整數的,雖然範疇有相當的限制。
此外,Emotion Engine的R4300,當初跑Dhrystone 2.1的成績是450分,PPE大約是4x,所以考慮PPE在ISA上對EE的一些輔助設計,執行PS2 Emulator應該是沒有什麼問題。
(只是大概PPE得滿載吧)

不過這又有一點相當有趣:
根據傳統的說法,即使是遊戲,仍然有相當比例的整數運算;但是從PS2以來,console都相當重視flops。
這回的benchmark可以讓我們看到,不僅是PS3、XBOX360的整數其實也是偏弱的。
那麼到底對執行遊戲而言,整數和浮點運算資源,哪方面的比重比較大呢?

最後從本文看來,如果想買台PS3來跑Linux,而沒把活用SPE資源當成前提的話,不如買一台低階準系統還比較經濟實惠。

PS3和Wii的主晶片拆殼近照

http://techon.nikkeibp.co.jp/article/NEWS/20061124/124359/
【PS3/Wii分解続報】中核LSIのチップ面積を比べてみた

http://techon.nikkeibp.co.jp/article/NEWS/20061124/124359/?SS=imgview&FD=488106729&ad_q
PS3 CPU + GPU拆殼近照

http://techon.nikkeibp.co.jp/article/NEWS/20061124/124359/?SS=imgview&FD=1088208695&ad_q
Wii CPU + GPU 拆殼近照

可以看得出來Wii的CPU「PowerPC 750CL」的die size小得驚人。
(18.9mm^2,不到當年Gekko 43mm^2的一半)

剩下的部份,就是Wii的結構看起來和XBOX360真的頗像這點。
(看起來同樣是smart memory + rasterizer,然後CPU透過內建GPU的system chip來共享記憶體)

PS3的部份,Cell + RSX的die size為228 + 258mm^2,與當初EE和GS的0.25um版(225 + 279mm^2)相當接近。
也就是說抓的成本平衡點是接近的。
南橋則為13*13mm大小的晶片,EE+GS透過別的bridge chip再與PS3的南橋連接。
所以日經認為,目前PS3的晶片組代替了PS2 IOP的作用。


PS3 Cell/RSX近照。可以看出除了clock line之外,對XDR DRAM的data-line是不需要等長佈線的。
還有RSX極為巨大的die size,中間FlexIO規模相當嚇人的互連,以及兩個晶片各自兩組的NEC Proadlizer。
http://www.nec-tokin.com/product/cap/proadlizer/index.html

雜談

http://www.asahi.com/national/update/1123/TKY200611230288.html

某Tib: 新舊體制線在還在衝撞 … 很難講哪種作法比較好
很多事情都是要試了痛過之後才會相信 XD

>知財本部は、現状を放置すれば正規のコンテンツの買い手が減り、正当な利益を得られない制作者が創作意欲を失いかねないと判断。
美國上次已經做過統計了,幾乎無關
甚至下載越多的曲子賣得越好

http://slashdot.org/article.pl?sid=06/09/26/2027229
Does File-Sharing Really Hurt the Music Biz?

http://www.oui-blog.com/wiihs/2006/10/singer20.html
所以有些人要走自己的活路了….

看看那些死要錢的既得利益團體的死期何時到來吧。
———

http://www.gamedev.net/community/forums/topic.asp?topic_id=425499
AGEIA PhsyX全面免授權費化。

這推不起來啦….
如果推出多chip卡來搭配Arcade機板的話可能還有點機會,而MMORPG用server的話還是general CPU + Cell比較王道。
嚴格來說AGEIA PPU這個solution是快死掉了….

現在只剩下黑歷史….