PSP Remote Play測試

今天和小光借PSP來試Remote Play。
遇到一個問題:

在2407用HDMI轉DVI跑1080p的狀況下,開Remote Play會black screen然後鎖死,只能強制按五秒Power關機;手動設定成1080p以外的解析度(1080i~480i)、以及用AV-multi顯示480i則可以正常進入Remote Play待機,這和AVWatch的測試狀況不太一樣。不知道這是不是1.32的問題?

目前的Remote Play有兩點狀況不好:

1. 必須透過PS3的操作起始,無法完全以PSP操作起始。
2. 也無法以PSP對PS3進行關機的動作。

這點使得遙控必須走到PS3前面進行操作,即使在無線控制器的範圍內,也無法不看螢幕操作,這使得PSP的遙控功能頗為雞肋,至少應該做到完全以PSP來操作就可以啟動的狀況,才會有基本的實用性。BD和AVCHD不能播放的問題就覺得還不會是很大的問題,畢竟碟片類的媒體你還是要走到PS3面前,那就不太有Remote Play的意義了。

只是要是全部都只能播PS3內部的媒體,那麼要不就是要再擴展PS3的硬碟容量,比方說外接3.5吋硬碟,否則目前PS3並不支援DLNA,所以無法播映LAN上的媒體;但是目前PS3支援的format其實也有限,如果實作更多codec、甚至透過開放Cell SDK for XMB,讓更多3rd party 的CODEC可以轉移上去的話,那支援DLNA就會更有意義…. 同時Remote Play的實作也就會更有吸引力,而這都是目前可以看得到的未來性部份。

最後,最大的問題,就是能否做到執行遊戲。其實不僅是初期Title,以結構上來說,要做到”完全用盡”CELL的運算資源其實還真的不太容易,要CELL撥一部分的資源來做H.264壓縮然後送到PSP來顯示,到底有多大的排擠問題其實還不太清楚;但是如果強制支援的話又或許不容易避免資源的排擠性,只是為了這個功能增加CELL的硬體配置又覺得未免太本末倒置….

如果要能夠做到戶外、透過Internet來執行PS3遊戲的話,那就是更大的技術面挑戰了,最大的瓶頸顯然應該是在延遲、其次是頻寬面的問題。以目前LocationFree可以做到的反應能力來說,感覺上要能夠玩遊戲應該是頗大的挑戰。所以在室內可以跑遊戲、屋外最多可以播多媒體,應該是理想上可行的範圍….尤其是先前お出かけスゴ録雖然把轉檔時間的問題解決掉,但是又遇上MS Duo的容量問題,以及PSP存放在記憶體內動畫畫質的限制這兩點,用LocationFree系統直接送PSP最高可以表現的畫質,的確是相當有魅力的一點;雖然現在又遇上無線網路與頻寬的可及範圍問題。

PS3直結3.5吋SATA硬碟測試

http://www.watch.impress.co.jp/game/docs/20061225/ggl.htm


測試成功。
電源必須外接,因為內部供電不足以推動3.5吋;但是即使外接power,仍然有電源連動功能。(!!)

驚かされたのは、HDDの電源確保に外部のACアダプターを使っているのにもかかわらず、PS3の電源オン/オフに連動してHDDも自動的にオン/オフされたこと。用意した「直刺しAC」は電源供給をオン/オフするスイッチ付きの製品だが、ここは考えなくてもよさそうだ。
(by PCWatch)

這真是非常妙的狀況…. 所以只要有人推出適用的eSATA adapter,應該可以很方便地裝上更大容量的儲存解決方案。
此外,如果只是單純用USB接上大容量硬碟的話,可以使用FAT32 format,今天自己測試確定可以安全地format 320GB的3.5吋硬碟。

快點出相關套件啊啊啊啊啊~

Mini RoadRunner — 65nm eDP Cell相關

http://www.cs.utk.edu/~dongarra/cell2006/cell-slides/04-Ken-Koch.pdf

這篇的第九頁提到Cell BE未來的roadmap。


可以看到,倍精度強化(eDP)版65nm Cell 是另外一個版本的Cell BE。
當然其實這在先前Mercury那篇就已經提到,只是自己一廂情願在想免費強化;結果撐不住砸錢買PS3之後,現在又感覺”還好沒差”….
雖然是對自己說,但是有時候人真的是很善變。orz

總之,倍精度強化版的Cell 只有IBM RoadRunner/Mini-RoadRunner系、或是Mercury未來的Cell系統才有,一般可以輕易取得的PS3版Cell BE沒有。
這樣剛好可以做區隔….65nm版的PS3應該只會差在散熱部分。

所以,就義無反顧地買吧!(死)

——-
65nm的eDP CELL BE有以下的可能性:
為了達成1 byte memory bandwidth per FLOPS,所以Memory和I/O都需要加強;不過目前CELL的實體規格已經有這個能力,只是與PS3上的CELL估計會有下面的落差。

1. 配備6.4GHz (800MHz)XDR,頻寬達51.2GB/s。(兩倍頻寬)
當初PS3上的Toshiba XDR memory是已經驗證到600MHz,一年半後的現在應該已經達成滿規格的800MHz才對。
2. 全速的FlexIO。(從5Gbit/s per pin提升到6.4Gbit/s per pin)
目前PS3上的FlexIO頻寬為40GB/s(35GB/s to RSX、40GB/s to SB),如果達到同樣的運作時脈的話,頻寬將提升至51.2GB/s;而所有pin的總和頻寬為75GB/s。

也就是說,只要上列兩個規格重新補滿,就足以達到上述1byte per FLOPS的設計需求。(等ISSCC07召開的時候再看看有沒有猜對)
其實這樣就很有趣–很多人說CELL的記憶體頻寬不足,沒辦法達到HPC運算的需求;但是如果照上述一樣做到滿規格的話,其實CELL和Power6這種MainFrame級CPU一樣,整體頻寬仍然謹守1byte per FLOPS的原則,足以負擔其100GFLOPS DP的吞吐量。

只是這麼高的規格,對民生用的PS3而言或許真的有點overkill,所以就只好做些縮減了….
(而且應該都是為了配合周邊元件,如降低XDR與RSX的成本)
而即使做了這些縮減,PS3的用料仍然非常豪華,那麼使用eDP CELL的Blade Server到底用料會如何登峰造極,還真的蠻讓人有興趣的。

Xploder HDTV player 測試補充

Sync on Green DB
http://playstation2-linux.com/sog.php

最近才注意到自己手邊的Dell Ultrascan P1110其實有SoG功能,所以去找了BNC2D-sub Cable,把PS2色差端子接上去。
結果電子街有賣D-sub to RCA的cable,所以接起來比想像中好接一點。

實際測試時有些有趣的狀況:
640×480各模式:因為支援的軟體可以直接支援,就沒有測試;但是
800×600 各模式:和HD mode一樣,有點縮小。
1024×768 各模式:縮小得十分嚴重。
1280×1024 @ 60Hz:意外地沒什麼縮小,可以耐得住使用。狀況比720p還要好;不過只有200元的便宜色差端子會造成頗嚴重的鬼影。

結論上來說,如果有品質良好的cable,應該可以達到相當好的品質。
和720p相比,縱向的縮小並不是相當嚴重;不過視軟體可能會有橫向縮小。(GA2是很正常啦)
但是有些遊戲(如MGS3)在進入之後會被拉回640×480 @ 60Hz,可能和初始化的流程有關….
最後,有些遊戲(如Soul Calibar3)會遇到VSync被解除的狀況,比方說角色選擇畫面時一開始畫面動作超快,但3D人物出來就變慢。

原則上Xploder HDTV十分雞肋的狀況沒什麼改變,但是畢竟是個可以用的東西。
如果軟體有辦法正常使用的話,當成賺到應該沒什麼不好的;只是大概只能作為純480i的程式試著開480p的裡技使用。
不過如果考慮CRT不支援480i的話,當成一個切換器的用途就還蠻廣的。

PS3二三事….

剛拿到PS3實機….寫點心得。
tryout的環境有MouseNI老大家的37″ 西屋LCD-TV(色差端子only),還有自己的2407 with DVI2HDMI 轉接頭。

大家都知道,PS3目前的PS2模擬使用的是內建的EE+GS,然後顯示介面連結到Cell/RSX上輸出;
但是這兩天拿到實機後tryout發現,PS3上的PS2畫面稍微有點鬼影的感覺,而且切換到PS2時有一陣雜訊。
(GTFP開1080i的時候比較明顯,剩下的大多不明顯)
看來PS3內部的EE+GS本身是以類比輸出….所以品質其實比PS2直接跑GT4 1080i還差一點點。
那還真的不如直接用PS2玩。orz

而且雖說v1.30加上了一些USB輸入裝置的支援,不過目前仍然沒有達到PS2的水準,比方說Keyboard和Mouse當初PS2是可以直接使用的。
但是現在在PS3內的PS2則還無法使用,顯示Driver還有補足的必要….
(不過也因為這個理由,Tib認為目前PS2的GT4在PS3上沒有力回饋應該是因為還有待補充,而不是刻意空下來不做)

此外,輸入法部份。
由於預設輸入語系沒有與系統語系分開,所以只要顯示設定成日文模式,要輸入英數就很麻煩。
說明書也似乎沒有提及語系切換這點….這在一開始輸入PlayStation Store Account的時候讓人相當困擾。
至於沒有辦法background Download這點就不提了。
PS Store因為是各國語系分區的,台灣因為是獨立一區,沒辦法抓どこでもいっしょ….orz

由於使用的是最新的v1.30,上述的幾個問題還算蠻明顯的,感覺就像02提到的:
「如果它說是v0.30″beta”的話,這些問題說不定還可以接受。」
只能說請SONY多加點油….
聽說SONY打算把Game OS用的SDK放出來,讓大家可以自己寫程式在原始OS上跑,而非一定要user裝Linux才能跑….
這就感覺其實SONY的誠意並不低;只是聽說有hacker已經找出在PS3上跑image的方法了,希望最近不要輕舉妄動(雖說好像預計12/20會放出來?)不要壞了SONY繼續開放PS3下去的美意。

講了這麼多缺點,還是補點優點吧:
用手把就可以遠端遙控開機蠻爽的,而且距離真的相當遠;開機時的音樂也非常有質感,有點像是管絃樂團開始演奏前的調音。
PS Store裡面的Playable Demo還是可以打發點時間。(雖然下載的時間更需要找方法打發_A_)
最後,因為要park硬碟,其實關機時間還蠻長的;但是開機時間並沒有想像中長。

G80的優勢與弱項

最近後藤老爹發了五篇關於G80的文章:

【12/ 1】メモリアクセス粒度が課題となるG80時代のGPUメモリ

【11/27】シェーダプログラムの進化と連動するGPUのマルチスレッディング化

【11/21】G80とG7xの最大の違いはマルチスレッディング

【11/14】GeForce 8800世代のキーとなるマルチスレッディング

【11/ 9】これがGPUのターニングポイント NVIDIAの次世代GPU「GeForce 8800」

其中12/1這篇提到了目前繪圖記憶體在存取單位大小的問題,這也是G80一個非常有爭議的地方。

GDDR4目前把GDDR3的prefetch4提升到prefetch8,但是因為這個prefetch必須是連續的,所以以64bit寬度的ROP來說,等於一次讀取的單位就是總計512bit/64byte的資料,但是其中其實可能只有8~16byte的資料有用處,剩下都浪費掉了。即使是GPU這樣資料結構經過特別最佳化的硬體都還是不容易遇到這麼大的連續讀取,更別提GPGPU了。

所以ATI R5x0為了對應這個問題,提早把ROP的寬度改為32bit,使得prefetch8也能維持和當初GDDR3的prefetch4類似的效率;但是因為DRAM本身是32bit的,也就是說未來還想要進展到Prefetch16的話,問題就無可迴避了。G80維持64bit的ROP,因而被認為是設計上沒有打算對應GDDR4。(不過目前看來R600似乎也是32/64 x 8的設計,或許實做32×16的結構真的對電晶體數量壓力太大了吧)

但是透過XDR2提供的Micro-Threading結構,就可以迴避這個問題,在prefetch16的長度內放入交錯於不同bank內的資料,進而有辦法實做更長的prefetch,讓傳輸更貼近銅線可傳輸的極限….這也是protocol based DRAM interface的初衷。所以,GDDR系的記憶體,遲早有必要實做類似Micro-Threading的結構;但是有可能會因此遇到與RAMBUS公司間的專利問題,而使得問題複雜化。

另一個可能,自然就是直接採用XDR2了。
由於同屬SONY在PS3的合作夥伴,NVIDIA和RAMBUS也算是有一度合作過的關係,不過RSX最後仍然沒有採用XDR。
以後會不會採用相當值得注目,畢竟NVIDIA在GPU上有PureVideo這個外來IP,雖然它還只是附加價值系的東西,重要性和Memory Controller相比是輕了許多。
這麼關鍵的環節,真的會放心交給外人嗎?值得注意。

此外,在CUDA programming guide裡面對G80的硬體spec描述如下:

G80 has the following characteristics:
1. The maximun number of threads per block is 512;
2. The amount of device memory is 1GB;
3. The amount fo shard memory abailable per multiprocessor is 16KB divided into 16 banks;
4. The amount of constant memory available is 64KB;
5 The warp size is 32 threads.

這個”device memory is 1GB”看起來像是在指出G80的on-board memory組成可達1GB,也就是64×8=512bit….
但是看到shader與新AA模式–CSAA的表現,其實感覺G80對512bit的需求並不急迫。

Shader真的蠻可怕的,512 threads per block(TCP),意思就是整個G80總共有4096個thread!
這足足是R5x0的8倍;但是從分支性能看來,其實反而比R520還差些,為什麼呢?考慮shader規模大約是兩倍(128個1D,相當於32個4D),每個thread看來很可能都是1D,所以4096個thread相當於1024個4D thread。(!!)
Shader Pool的時脈和其他部分相差兩倍左右,所以延遲也大了一倍左右,讓與R520同等thread比例(128thread–4個4D,512thread–16個1D)的G80,實際上可以處理的branch size不得不加倍(4×4 become 4x4x2)。

也就是說,理論上G80的shader時脈可以非定比例拉高沒錯(AFAIK up to 4GHz),但是延遲會跟著shader時脈比例增加,也就會遇上分支性能隨著時脈增加而弱化的問題,類似R580增加shader時分支開銷相較於R520弱化。

CSAA目前有種說法,是指出它其實是Matrox 過去提出的Fragment AA的完美版本….
每個pixel可以儲存4個fragment,並且每個fragment都可以儲存4個sample,所以4個fragment成為這16個sample的index….
和過去Matrox FAA相比,大概就是fragment有沒有儲存sub-sample帶來的差異,所以可以有比較好的汎用性;不過弱點還是類似,shadow volume。
這也造成AA效果大大改善,資源需求卻變少的狀況。

memory interface本身了無新意,但同時也因此展現出了Shader與新AA模式本身的潛力,真是非常有趣的狀況。

Cell @ ISSCC 2007

SONY/Toshiba/IBM

Implementation of the CELL Broadband Engine™ in a 65nm SOI Technology
Featuring Dual-Supply SRAM Arrays Supporting 6GHz at 1.3V

The 65nm CELL Broadband Engine™ design features a dual power supply, which
enhances SRAM stability and performance using an elevated array-specific power
supply, while reducing the logic power consumption. Hardware measurements
demonstrate low-voltage operation and reduced scatter of the minimum operating
voltage. The chip operates at 6GHz at 1.3V and is fabricated in a 65nm CMOS SOI
technology.

你們太過分啦….XD

補充其他title:

Intel
An 80-Tile 1.28TFLOPS Network-on-Chip in 65nm CMOS

A 275mm2 network-on-chip architecture contains 80 tiles arranged as a 10×8 2D array
of floating-point cores and packet-switched routers, operating at 4GHz. The 15-FO4
design employs mesochronous clocking, fine-grained clock gating, dynamic sleep
transistors, and body-bias techniques. The 65nm 100M transistor die is designed to
achieve a peak performance of 1.0TFLOPS at 1V while dissipating 98W.

Implementation of the 65nm Dual-Core 64b Merom Processor
Merom is a dual-core 64b processor implementing the CoreTM architecture. The 143mm2
die has 291M transistors in a 65nm 8M process. The shared 4MB 16-way L2 cache
uses PMOS power gating to minimize leakage. The processor operates in a wide core
frequency range of 1 to 3GHz, a bus frequency range of 666 to 1333MHz and voltage
range of 0.85 to 1.325V, while providing 40% better power performance.

IBM

Design of the POWER6™ Microprocessor

The POWER6™ microprocessor combines ultra-high frequency operation, aggressive
power reduction, a highly scalable memory subsystem, and mainframe-like reliability,
availability, and serviceability. The 341mm2 700M transistor dual-core microprocessor
is fabricated in a 65nm SOI process with 10 levels of low-k copper interconnect. It
operates at clock frequencies over 5GHz in high-performance applications, and
consumes under 100W in power-sensitive applications.

A Distributed Critical-Path Timing Monitor for a 65nm High-Performance
Microprocessor

A distributed critical-path timing monitor (CPM) is designed as part of the POWER6TM
microprocessor in 65nm SOI. The CPM is capable of monitoring timing margin, process
variation, localized noise and VDD droop, or clock stability. It tracks critical-path delay to
within 3 FO2 delays at extreme operating voltages with a standard deviation less than
1/2 an FO2 delay. The CPM detects DC VDD droops greater than 10mV and tracks timing
changes greater than 1 FO2 delay.

AMD

An Integrated Quad-Core OpteronTM Processor

An integrated quad-core x86 processor is implemented in a 65nm 11M SOI CMOS
process. Based on an enhanced OpteronTM core, the SoC-developed processor employs
power- and thermal-management techniques throughout the design. The SRAM cache
designs target process variation considerations and future process scalability. A
DDR2/DDR3 combo-PHY and HT3 I/Os provide high-bandwidth interfaces.

SONY/Toshiba/IBM

Implementation of the CELL Broadband Engine™ in a 65nm SOI Technology
Featuring Dual-Supply SRAM Arrays Supporting 6GHz at 1.3V

The 65nm CELL Broadband Engine™ design features a dual power supply, which
enhances SRAM stability and performance using an elevated array-specific power
supply, while reducing the logic power consumption. Hardware measurements
demonstrate low-voltage operation and reduced scatter of the minimum operating
voltage. The chip operates at 6GHz at 1.3V and is fabricated in a 65nm CMOS SOI
technology.

Sun

An 8-Core 64-Thread 64b Power-Efficient SPARC SoC

The 8-core 64-thread 64b power-efficient 2nd-generation Niagara SPARC SoC has 4MB
L2 cache with one x8 PCI-Express, two 10G Ethernet (XAUI), and 8 FBDIMM ports. The
on-chip SerDes provide greater than 1Tb/s bandwidth. The 500M transistor chip with a
die size of 342mm2 is implemented in a 11M 65nm triple-Vt CMOS process

會場看起來最屌的可能會是Power6底層設計,其次是跑6GHz的65nm Cell。