對架構改革不採急功冒進的NVIDIA

原文-後藤弘茂海外News:アーキテクチャの改革を”急ぎすぎない”NVIDIA
本文為前一篇「分為兩派的DX10支援方向」的延續,討論了NVIDIA對DX10支援的方向取捨….
當然,就像02在 NVIDIA:人類進化太快造成不良後果 提到的,雖說搞笑歸搞笑、但是基本上靈活度與速度仍然是相對的,冒然地追求過度的靈活性,將會在架構上造成過大的overhead、進而失去效率。

當然,這時候就會變成”Unified-Shader到底會帶來效率的提高還是降低?”的問題。
就算以支持US最力的ATI自己的說法來說,每個shader unit的Unified化,理論上仍然需要30%~40%的規模增長。

(EDIT:原文為-

「Unified-Shader型実装が、コストが高いことは、同アーキテクチャを取るGPUベンダーも認めている。例えば、ATIのRick Bergman(リック・バーグマン)氏(Senior Vice President, PC Business Unit, ATI Technologies)は「DirectX 10をサポートするには、30~40%程度のロジック(回路)が余計に必要となるだろう」と語っていた。

ATIのUnified-Shaderはオーバーヘッドがあるわけだ。それに対して、Kirk氏は、Independent-Shader型の方がオーバーヘッドが少ないことを示唆している。実際、Unified-Shaderへ向けてさまざまな要素を実装しつつあるATI GPUは、ダイサイズが肥大化しつつある。これは、ATIにとって重荷になっているはずだ。」

但Dave Baumann認為,這R.Bergman的發言是指Support DX10的spec,並非指Unified Shader。其發言於B3D Forum上對於後藤本文的討論串上可以閱覽到。)

如果單純這樣看的話,就會變成比較一個1.3倍的US、以及一個”1+1=2″的VS/PS。
US可以同時做兩者的工作、分離VS與PS則能夠保持效率….

但是,在R520發表的時候,ATI曾經提過、R5x0以Ultra-Threading Dispatcher(透過維持相當大規模的register file,來提供更大的threading數量)來提高其Shader Unit的使用率,減少效率的衰減;而C1則使用與其類似的thread控制結構,但是thread數量相對少相當多。
以cho過去的說法來說,US可以大幅度地提高branch-penlty的對抗能力,因為US本身結構上就較適合來做branch。

而NVIDIA則回歸到半導體成本的看法,透過比較G71與R580/C1的die與可發揮效率的比較,來論斷自己的成本觀念較好;但是過去也提過了,實質上NVIDIA在NV4x這個世代所投資的大量資源積累,對他們轉移到US的確發揮不了太多的幫助。

雖說進化與革命自然是不能相提並論,過快的進化不會帶來比較好的結果;但是市場的選擇通常不會與這種”好壞”有絕對的關係…

Zoundry測試中

因為Y師匠遇到太多次time out的悲劇,所以去找了可以支援plog/Lifetype的離線編輯器,目前使用offical(by mark)推薦的Zoundry。http://www.zoundry.com/

先try看看吧….

在Lifetype官方fourm的討論:
http://forum.lifetype.org.tw/index.php?topic=1288.0

目前給02和Y師匠測試中。

設定的方式蠻簡單的:
1. 設定帳號密碼、種類設成MetaWeblog
2. 輸入XML-RPC的url
即http://[你的網址]/[你的pLog路徑]/xmlrpc.php
3. upload方式選擇 Using Blog’s file upload

這樣應該就搞定了。

目前主要的缺憾是缺乏純HTML Editor,只有read only….再try看看。

[EDIT]
好,糟糕,Zoundry官方好像蠻不喜歡hardcode HTML….
還特別在FAQ裡面強調自己的WYSIWYG….orz
看看Y師匠到底想不想用吧。

然後,它在plog底下貼圖看來有可能會造成問題。orz
主要的問題是,在FTP上傳圖片的時候,要是URL裡面有”&”,會被替換成”&”,然後當然地URL就掛了。
不過如果單純是貼其他非本地空間的圖片、或者說”只要不經過plog本身的上傳功能、放到plog自己的空間底下”的話,應該就不會有問題….
像我自己用Flickr、02用ImageShack、Y師匠用其他FTP空間放圖片與縮圖的話,應該都不需要對這個問題傷腦筋。

再多用一陣子試試看嘍。

幫02加上了Recent Commets

參照02的LH+02 plog

版面控制需要經驗累積,現在沒什麼時間幫忙弄….
先暫時把02不知如何改起的問題解決掉(也就是從無到有),
接下來應該就不難了。

現在的確最缺的就是時間,Saunter現在也把佈景換成LiteWinter的主要原因,還是因為這個版面目前的功能最齊,先前投資的時間夠多….
plog已經夠簡單了,現在大部分的問題都可以自己弄起來,但是門檻其實還是不低,說來說去還是因為時間。

慢慢熬….

Fate 14

Fate 14話,Archer獨角戲。

這段在原作裡面為了保護UBW線的衝擊性而被省略跳過,既然動畫版有搬出來的話,那動畫版毫無疑問是Fate線一筋了。
雖然有不少ツッコミ所,不過對比前面的部份來說,仍然算是最高水準的部份。
有把「エミヤ」這個BGM搬出來,有把「固有結界」這個名詞講出來,我想應該已經可以滿足了….

人物描寫擺重點是說好聽的,高密度動作場景類的戰鬥,這個Staff真的不行啦~

至於下禮拜的傳說再生…. 每個人都在期待補充魔力_A_

—-
話說回來,這樣看起來,動畫該不會要出第二部吧。
Promotion Video裡面有畫墓地戰,可是Fate到現在卻都沒用到耶。
重點是這話裡面又有捏夠多東西:寶石、對伊利亞的台詞與態度等等。

要是真的再花26話搞UBW一條的話那就炸大了。

大前研一のIT時評―PS3発売延期の真相

http://www.yukan-fuji.com/archives/2006/04/post_5361.html

….PS3要吃500w?!
唬我….

重點是巴哈上面還有人附和呢。
http://webbbs.gamer.com.tw//readPost.php?brd=PS3&p=5223&rand=20060408

….oioi。


ISSCC05都已經公開Cell的TDP數據了,還能夠吵這種事情,
真的覺得他們蠻厲害的…. _A_

老實說,如果是目前那幾個版本的超大號試作機,要吃個400~500w,應該不是什麼問題….
但是那是因為裡面有太多到時候產品機不會有的額外元件,並不是PS3的必需關鍵元件會吃到相當大的耗電量、造成它會需要delay;
所以看著試作機的耗電量去擔心產品機的耗電量,我是覺得這個想法顯然是不熟相關開發流程的人才會出現的。
那我就不知道大前研一刻意提到500w這個數字到底想表達什麼了。

—-
此外,目前有另外一個比較有趣的數字,是PS3的OS可能需要吃到96MB(main 64MB、graphic 32MB)。
和XBOX360(32~48MB all)相比顯然是偏多…不過理由可能和PSP的OS(共8MB)相同,都與Virtualization所需的API有關;
當然這應該是實作上的落差,畢竟XBOX360同時也支援Virtualization、但是它的OS卻沒有這麼大。

當然,PS3目前可能會額外提供一些XBOX360沒有的功能….
比方說背景的Media Server、Transcode Tools、LocationFree Server、副螢幕上的Video chat等等,這也是記憶體需求較大的另一個可能來源。

另外,PSP即使在遊戲執行的時候,為了能夠快速切換與執行服務、OS仍然會佔用那8MB的空間,並不會卸除;
PS3應該也有類似的狀況….那這邊比較令人好奇的就是,Graphic的32MB有必要一直佔用著嗎?

最近發現活躍度被超越了

目前統計起來,最活躍的blog帳號是Alf老大的空框框腦袋境界~
小弟我排第二、緊接著的是Y師匠(兄)、Saunter、最後是Y師匠(妹)。

也許退伍之前就會掉到五名外吧…. _A_

呃,這不是在說活躍度有什麼大不了的喔,短時間連續po很多篇的話也很容易往上爬,寫習慣了自然就會常常寫,一段時間下來就會累積很多東西…. 之後回首從前,我想就可以品嘗到更多生活的趣味才是。

ATI啊……

http://sbt.idv.tw/tBoard/index.py?m=pl&f=25&t=590

先前提到大家都開始踹XGL….
然後心得就來了。

Freak says :
這次的 gentoo 大冒險結束…
不要說上 xgl 了, 光是跑正常的 X 就有問題. XD
ati driver 還是跟以前一樣, 關閉時會 lock up, 而 r300 driver 則是 random lock up. XD

我會說, 我的下一張卡一定是 nVidia. =___=

Tiberius says:
唉,連大鳥都捨 Radeon 9200 不用、退守 Riva TNT2了… orz

well….我能說什麼…. _A_

—-
話說回來,今天清明節回來寫這東西,我也真的蠻….無聊的。_A_

Rev’s SPEC

Source:IGN、巴哈姆特。
http://gnn.gamer.com.tw/4/23144.html

Rev的CPU/GPU可能是NGC現有晶片組的1.5倍時脈高頻版、並且加上更大的記憶體容量而已。
當然,這顯然會反映到它到時的售價上。

另注意:這個消息是IGN在4/1發表的,所以真偽….XD

不過說真的,NDS維持低spec、並透過引入新遊戲idea帶來的成功,實在是非常明顯的。
上面提到的Rev spec,老實說不會讓人覺得在惡搞….

回想起去年傳的超高性能Rev,和現在的spec預想,以及NDS帶來的成功,只能說老任真的很厲害….

….有點想買NDS啦。orz

PS3的向下相容方案

(本文另發表於http://webbbs.gamer.com.tw//readPost.php?brd=PS3&p=5158&rand=20060402 )

先前SONY官方表示,PS3的向下相容部份以軟硬體混合的方式達成。
和PS2幾乎完整內建PS硬體的做法稍有不同,
不過一般都認為PS3會內建部分或全部的PS/PS2硬體。
但是由於在3/15日發表的時候提到,
PS3執行PS/PS2 title時可以提高解析度到HD等級,
個人據此推測PS3的向下相容設計依靠RSX的特別設計,
與NVIDIA過去為PSP所做的虛擬化工作。

首先,我們先整理一下PS3的向下相容作法:

1. 完整內建
目前來說,最單純的作法應該是這樣,直接於南橋內建完整的EE+GS,
由於硬體幾乎完全相同,相容性應該最高;
缺點也非常明顯,PS3的南橋成本將會非常可怕,
因為南橋可能得具備2ch DRDRAM,以及GS的4MB eDRAM,
限制須使用eDRAM混載製程。

而且又會面臨一個困難,就是16bit 16MB DRDRAM的取得性越來越低,
久多良木健過去於PCWatch的訪談就曾經提過,如果未來取得性越來越低的話,
就會考慮將DRAM全面整合進晶片、以SoC的方式處理EE/GS等晶片,
由於PSP已經採用這種方式(EE+GS+8MB eDRAM Main memory、2MB eDRAM for
Video、VRAM、2MB for Sub Memory),
全面內建的可能性也是存在的;
但是如此一來就可能面臨需要內建高達36MB以上的eDRAM在南橋內,
只怕光南橋本身的成本就會高過Cell 和 RSX的總和…. 不可不慎。

2. 部份內建
個人支持的作法偏向這個方向,
由於Cell的PowerPC ISA與MIPS系的EE完全不同,
南橋顯然有內建EE的必要性,VU0/1也很難捨棄不配置;
但是如果是其他單元(如EE的IPU、MPEG decoder)的話,
那麼重複配置的需要性顯然是非常低的;
此外如果記憶體能直接沿用XDR的空間,那也能省掉配置DRDRAM的需求;
甚至問題也很大的GS,也可以用RSX來模擬,
如此一來提高解析度到HD等級就變得較為容易。

EE的內部bus是128bit、300MHz運作下的頻寬約為4.8GB/s,
而主記憶體的2ch DRDRAM頻寬為3.2GB/s,
目前已知PS3分配給南橋晶片的FlexIO總頻寬為5GB/s,即上下傳各2.5GB/s。
也就是說,FlexIO差不多可以滿足EE主記憶體的需求,
甚至勉強可以再包容進EE-GS中間的匯流排(GIF)的頻寬(1GB/s),
總和約4.2GB/s左右的需求。

所以,RSX內建GS的功能的可能性很大,反正GS的功能非常單純,
NVIDIA應該只需要把RSX稍微修改一下、甚至只要做好軟體介面虛擬化,
就可以把那些Hardwired pipeline的功能做起來了;
主要的問題剩下GS的eDRAM所具備的巨大頻寬(48GB/s),
以及過去PS2 title對這個結構的依存度高低(影響相容性)。

個人是不覺得RSX會因此內建4MB eDRAM來滿足需求啦….
不過想想當初NVIDIA表示RSX的電晶體數量是300M以上,
而G70雖然已經達到302M,但是G71卻在管線設計最佳化之後,
縮小到約278M的規模,考慮到部份單元RSX在PS3上根本沒有需求
(比方說SLI需要的MIO-port相關邏輯,
以當初NV40的die photo來說,其實佔掉了不小的面積)
刪刪減減低於278M的可能性非常高;而GS包含eDRAM在內也不過48M,
RSX如果還是會超過300M的話,說不定玄機就在這個部份。

但是,以此來推論RSX會有eDRAM的話也缺乏說服力,
因為如果要讓PS3執行PS2遊戲可以達到HD輸出,
也就是透過RSX的功能、在執行PS2軟體時對其進行"補強"(補間?)的作用,
那麼記憶體需求超過eDRAM包容能力的可能性是非常大的,
也就是說實質上RSX再內建eDRAM的作用實在不大。

所以主要的課題就是如何修改RSX的結構去消化GS結構上的大頻寬
(大部分是來自texture cache、Z-buffer的低效率),
並且減少可能帶來的問題(使用eDRAM製程帶來的風險與成本提升等等)。
當然,這個作法由於流程複雜,模擬過去PS2 title的時候,
可能出現的相容性問題就會比較多。

以上是個人的一點心得。