高潮迭起的E3

ATI發表X360GPU細節之後,正當大家對著X360驚嘆的同時,
猛然又被IBM的two-way Graphic給嚇到,才猛然讓人發現,
CELL和RSX的協同運算真的不是講講而已。

這一代的系統真的太強了啦….XD

ATI也的確是緊咬NVIDIA就是了。
他們一方面提說NVIDIA是用桌面用的產品直接流用
並指出SCEI去年八月時才改變計畫,從CELL based GPU改為NVIDIA’s,
才和NVIDIA合作,拿現有PC的東西,於是HDMI是本來就附送的這樣。
(話說久多良木健強調RSX不是現有PC產品,在此重複)

[順道,X360GPU看來不包含任何的顯示功能,
不僅是TMDS,應該是連RAMDAC都沒有,
並且透過北橋外接Video Scaler,才接到Output,
這邊應該也會省電晶體….不過顯然也不會太多。]

於是,ATI在發表會上提到X360GPU有大量的新功能,
比方說透過Shader實裝的Global Illumination,
High Order Surface、還有Tone Mapping。
(上述都是做成library形式)
他們說在Shader Pool的Sqeuencer上內建了可以想到的所有指令,
所以說可以做很怪的事情,很可能包含物理演算在內;
以後還會視需要補上新功能。
說不定還有Out-Of-Order Rendering?

既然有Geometry Shader可用,
Adaptive Tessellate大概是絕對不成問題了,
所以高次曲面可以玩的東西猛然變多了;
看起來相比之下HDR說不定算是小事情了….

詳情只好等Dave回來了。
他好像爭取到2hrs左右的時間可以訪談。
http://www.beyond3d.com/forum/viewtopic.php?t=23232

—-
然後接下來,IBM 就發表了一個two-way Graphic。
CELL的SPE本身單獨就幾乎可以做完全獨立的繪圖功能,
也包含Post-Effect、還有等同Geometry-Shader的功能(非單純的VS),
也就是CELL抓回去做完Tessellate,再扔回去給RSX用;
過程可能可以包含碰撞偵測,還可以搞到物理性正確之類的….
考慮CELL 和 RSX中間的頻寬又比X360這邊大上許多,
(20GB/s + 15GB/s vs 10GB/s + 10GB/s,差異相當於一條PCI-e 16x以上了)
這種反則技有條件用的話沒人可以阻止他們。

這邊就有一個有趣的觀念落差了:
Adaptive Tessellate過去認為因為會影響碰撞偵測,所以不適合由GPU實作;
現在ATI的解答是把物理的相關演算設法讓GPU幹掉,
NVIDIA則是變成加大IO頻寬之後,還是透過CPU來搞。(所以沒有CELL玩不起來?)

於是NVIDIA也很有信心地說,PS3的整個繪圖系統絕對是好東西。

—-
這些都是WGF2.0裡面最有趣的東西啊….
這一代的硬體到底強到什麼地步啊….orz

IGN’s X360 vs PS3

http://xbox360.ign.com/articles/617/617951p1.html?fromint=1

重要資訊:X360-GPU total 332M transistor。
所以北橋去掉100M的eDRAM,大概還有232M,差不多和NV40一樣大。
因為eDRAM裡面的ROP只有20M,忽視北橋的話整個GPU大概252M。

這就讓人很懷疑了:這樣真的能塞這麼多東西?
這讓我想到某3Dlabs P10…. 功能爆強但是意外地小這樣。
結果果然是省了不少東西,後來效能就出大疑問了。
雖然3Dlabs的話Driver可能也是個負面因素;不過到底要多少單元才能實作這些東西,就更讓人有疑問了。

簡單講,這應該與單元分配有關。

畢竟今天X360GPU和RSX之間的功能差異不大(SM3),
甚至X360GPU可能更強些,XGPU的Shader數量還比較大;
但是規模卻是250M以內對300M,這樣怎麼看都不合理吧。

所以我們補上兩個注意事項:
1. ROP數量
從fillrate來看,X360GPU的color應該是個8pipe的設計。

2. OpenEXR HDR
RSX屬於NV4x,所以裡應內建FP filtering & Blending Unit,
這會使得RSX的Fix Function Pipeline規模論單體都大過X360GPU許多。
而變成X360GPU的FP filtering & Blending應該都要靠Shader處理。

另一個問題,是NV4x的FSAA unit並無法處理浮點Frame Buffer,
所以在開啟OpenEXR HDR的狀況下,並無法提供FSAA。
把這點考慮進去的話,數量上就合理了。

—-
不過效能比較的部份比較多疑問。
比方說現在MS的說詞砲口一致地講SPE只是單純的DSP….

好啦,這種說法我以前也講過,可是那只是用來講"SPE並不會非常難用",並不是在敘述SPE的架構;SPE實際上完全不是這樣啊~

果然是百口莫辯。

[EDIT]
不過IBM在Spring Forum 2005的時候照樣貼CELL是 CPU + DSP…
http://pc.watch.impress.co.jp/docs/2005/0523/spf04.htm

well,那是CELL可以拿來這樣用,不是說它只是這樣啦….orz

[PS3] Killzone 的 CGmovie 與否大爭辯…

巴哈PS3版-Realtime volumetric clouds 作法相關討論串

畢竟Killzone這個大概是整個PS3發表會最吸引爭議的一段吧….
因為實在做得太屌了。XD

雖然很多人一口咬定那個有Maya Mental Ray的痕跡,
不過Offline Renderer本質上和RT3D Renderer是一樣的啊….

結果就真的變成what is offline,what is Real Time的爭辯了….orz
在事實跑出來之前,腦袋會先被爭辯搞爛….

算了。XD

不過回頭看茶谷公之的訪談,裡面有一段提到:

[quote]たとえばロンドン市街の映像をレンダリングするデモをお見せしましたが、これはGPUでレンダリングしているのではなく、Cellでライティングやテクスチャの処理を行ない、フレームバッファに書き出しています。GPUを使わずにCellだけでも十分に高い3D映像を生成できてしまいます。[/quote]

這代表著那段很嚇人的HDR靠的是只用Cell上…..然後RSX開TurboCache抓到就拿去輸出了。

還有Volumetric Fog的部份,其實GPU上面真的有很多加速的方法,不見得都是CPU上的那種狀況。比方說Tib的post:

[quote]作 者:Tiberius (小敗踢)
標 題:Re: [心得]質量煙霧原理說明
時 間:Sat May 21 10:12:57 2005 http://www.vterrain.org/Atmosphere/Clouds/
裡面有幾篇用 GPU shader 即時算圖的做法說明 http://www.shadertech.com/cgi-bin/shaders.cgi?filter=1
下面有個 Cg 展示程式
(可是小弟這邊跑不起來,手邊也沒有 Visual C++ 測重新編譯的效果 ~_~)
==
用 "realtime volumetric clouds 挖 Google 的結果[/quote]

最後,NV3x都可以了,NV4x要當Gelato的Renderer絕非難事啊….

[PS3] 茶谷公之(SCEI CTO)訪談

http://pc.watch.impress.co.jp/docs/2005/0520/e303.htm
本田雅一先生對SCEI CTO,茶谷公之先生的訪談,
談到了這回PS3的設計理念….

訪談內容主要是重點:

1.PS3上面異常豪華的界面

比方說雙HDMI。
實質上對RSX這種幾近沿用PC的晶片的作法來說本來成本舊不高,但是比起3840×1080這種數字上的規格,更有用的是副螢幕的設計。
先前已經提過雙螢幕對戰了,但是更有意思的是在互動方面的設計,比方說掛著IP Camara,主螢幕還是對戰,但是副螢幕持續掛著IM軟體,於是就變成always-on的Video chat;話說CELL支援Hardware Partition,這時候就派上用場了。

其次,三個GbE….呃,還好沒有Router功能,不然看起來就蠢了。
不過話說Sony Picture Entertainment說要拿PS3當RenderFarm,他們是認真的嗎?!
(這代表他們手上決定購入Gelato了耶)

2. CELL的浮點運算用意何在

雖然RSX沒有針對FSAA做改進,但是要做到有效帶來"真實感"的畫面,不僅僅是畫面要真實,連物理模擬都要盡量真實,否則要是物理的部份不真實,違和感就難以抹除了。

話說因為是1PPE+8SPE vs 3PPE,所以很多人提到AI vs Physical….
由於AI通常是資料小但是非常長的演算,複雜度常常是指數成長;比起來物理加速的方式其實單純很多….
講白一點,CPU從一個加到三個,對AI的幫助根本就是杯水車薪;但是這一堆SPE讓浮點差了兩倍,對物理部分的運算幫助卻會很明顯。

最後,茶谷先生提到"拿到SDK的廠商的感想"。
SDK的內容與過去相去不遠,debug tools + IDE,只是補上NVIDIA Cg + OpenGL ES。

本田雅一提到,『拿到之前認為效能很難發揮』與『拿到之後發現意外好用』這兩個態度,茶谷先生的意見是『可能是因為效能有太大的餘裕了(?!)』,所以沒聽到太多負面…XD.

[X360]X360-GPU揭露之後的宣傳攻勢

http://www.majornelson.com/
有一連四篇的比較。

不過這位仁兄畢竟是MS自己的人員,所以講話還是有選擇性的。
那個"因為20%的程式碼是浮點,80%的程式碼是整數",所以說CELL選擇強大的浮點效能沒有意義….
但是他是不是故意不提到"這20%的程式碼可能佔了90%的執行時間"呢?
尤其是遊戲更是如此啊。

另外值得補充的是,MS發表的OP數持續維持48Gop/s,
加上Texture ops(因為RSX的op數把這個部份算了進去)之後,
總共約80Gop/s,所以反過來小勝RSX的74.8Gop/sec。
也就是說先前[H]ardocp在訪談裡面提到的96Gop/s應該是理解錯誤。

http://pc.watch.impress.co.jp/docs/2005/0520/kaigai181.htm
後藤老爹對X360-GPU的解析比較有意思,除了eDRAM的部份info有一點小落差之外。
(後續由其他網站的補充資料可以知道,X360-GPU的GPU+NB的部分應該還是TSMC生產)

—-
不過NVIDIA手上有IBM的高階製程,沒有拿來大硬幹,反而讓ATI衝出這麼大的東西….
是NVIDIA變得保守了,還是ATI實在衝得太快了,把NVIDIA趕過去了?

總之,光從PS3的選擇上看不見得可以看到全貌,但X360-GPU確實相當讓人激賞。
從本田雅一的這篇報導來看,不僅是全硬體Shader排程,還有有辦法透過軟體實作的Modeling Engine….
包含Global Illumination、High Order Surface、Tone Mapping都可以做上去。
也就是說,雖然缺乏部分WGF2.0的特性(如更複雜的General I/O Model等),但是較為進取的繪圖部分都有能力在未來實作。

最後1024bit bus、2GHz,頻寬256GB/s的MCM eDRAM。
透過內建192個unit的ROP來大舉達成free 2x FSAA,
而且4x FSAA的效率仍高達95~99%。

….這真的是個連NVIDIA都會羨慕的GPU啊。
要說ATI把所有的開發資源完全放到這顆GPU上,才會造成R3x0架構整整用了三年,還真的是會讓人覺得說得過去。
雖然有生產性上的負面因素,不過顯然是個會讓人十分興奮的大怪物。

上一篇才提到,G80是個很穩定地就可以達到NV40四倍的結構,NVIDIA也持續地維持著從2004年四月以來每次發表提高兩倍效能的承諾….
2004年四月:NV40
2004年八月:NV45-SLI
2005年六月:G70
2005年十二月?:G80?

以上的產品都維持著這個效能成長曲線,從NV40到G80之間,整個NV4x的結構已經達到了8倍的效能成長….
但是看著X360-GPU,真的不由得會想:相對於ATI,NVIDIA這樣的進步速度這樣夠嗎?

[PS3]RSX的底牌與對G80的展望

[url="http://photos11.flickr.com/14807626_922de02414_o.jpg"][img]http://photos11.flickr.com/14807626_922de02414_m.jpg[/img][/url]

前兩天令人迷惑的RSX性能怪數字,現在有點比較合理的解釋了。

RSX總op數為136ops,乘上550MHz 僅為74.8Gops/sec,
和這裡提到的100Gops/sec比起來還有25.2Gops/sec的落差;
但是如果把7個SPE乘上3.2GHz的時脈,可以得到22.4Gops/sec的數字,
合起來的話就相當接近100Gops/sec了。
這也大略地解除了G80/RSX的一些結構疑慮。

不過這樣一來與C1(X360-GPU)的差距也大致底定了。
550MHz的時脈也應該僅與RSX本身的良率有關,PS3這回所有的設計也完全僅與生產性相關。

PS3重視CPU,XBOX360重視GPU的態勢自此確立,
幾天下來的架構分析熱也該到此結束了。

—-
話說感想:
先學R300的AF,後學SONY的數據灌水,
NVIDIA你不要老是不學好啊….orz

[EDIT]
其實想想,RSX展現了非常可怕的實力,不論是生產性或是性能這兩個方面。

首先是生產性,RSX(G80)大約300M transistor,從NV40的die size來逆推的話,會變成
287mm2 x 300/222 x (90/130)^2 = 186mm2左右,
僅比NV43的150mm2稍大一些而已,有十足的能力可以打中階。

另外一個有趣的地方,是目前PS3上FlexIO的頻寬比預測的低
(原來Cell的總和是76.8GB/s,考慮時脈降至3.2GHz,至少也有60GB/s;
但是現在RSX用掉20+15GB/s,I/O只用了2.5+2.5GB/s,總共40GB/s而已,只能說可能channel數就比本來的少。
何況界面的速度應該根本與晶片主時脈無關),
當然還不知道G80桌面版最後會實作多大的頻寬,不過應該可以考慮應該會等於記憶體的頻寬。
ex: 假設使用700MHz 128bit GDDR3 有22.4GB/s,所以FlexIO如果要當成有效的NUMA-Link,
就會需要雙向各22.4GB/s的頻寬,最可能是雙向各4channel等於來回25.6GB/s,共51.2GB/s。
如果有完成這點的話,就可以想像兩顆G80有辦法完整結合兩顆晶片共44.8GB/s的頻寬,
然後RSX的550MHz時脈應該是以Console的高良率指標所設定的,桌面版的時脈應該會更高,可能會有700MHz。
如果只考慮要達到G70(目前的情報是約430MHz)的兩倍效能的話,只需要達到650MHz,而這應該不是很困難;
而且這還是良率估計會相當充裕的數字。

現在要達更高的效能最大的阻礙,反而是要設法找到更快的記憶體了,上哪找比700MHz GDDR3快兩倍的東西啊。
(總不會真的上XDR吧,這樣供貨會很麻煩的)

產品本身的吸引力也很大。
考慮RSX有提供dual-HDMI,可以視同G80單核心可以提供同等的能力(如同NV41/42內建雙TMDS),雙核心的話Free的Double Dual-Link也絕非空談了。
(雖然NV41/42明明有內建雙TMDS,NVIDIA在消費產品上照樣沒給dual-DVI….orz)

這樣的產品2006年年中之前就很有可能上市,然後就是2006年底到2007年初之前的NV5x,剛好是Longhorn也差不多該上市了。

啊,世界多美好?
真是打得太好了的如意算盤啊。

[PS3]穩定生產萬歲

PS3這回的規格,相對於XB360的怪招滿天飛而言,可以說是超級保守….
除了CELL之外,都是很單純很傳統的設計。

後藤大叔的資料也己經出來了,請參考一下。
http://pc.watch.impress.co.jp/docs/2005/0518/kaigai180.htm
聽說他老人家年底就要長期住院休養了,保重啊。

首先,CELL-XDR除外的部份,簡單講就是FlexIO接普通的NV4x GPU(RSX)和南橋,
RSX有自己的GDDR3,90nm IBM製程,以這個製程的潛力來講算是很保守的時脈,
很顯然是良率考量;發熱量的部份還沒有資訊,不過讓人比較擔心的反而是700MHz GDDR3。

250M以內的CELL由SONY和IBM各生產50%、300M的RSX由SONY生產,
die size都與EE/GS當初相去不遠,
由於設計相對單純,未來CELL與RSX都很可能順勢縮小到65nm、45nm,
然後如果狀況好的話,可能會如同今日的EE+GS般結合,然後在PS4(?!)上重演現在的歷史。

話說先前很多人提過CELL當VS,可是現在一來用獨立記憶體,
二來SPE缺水平dot product,最後是RSX有VS,看來CELL只能專心跑物理模擬了。

—-
其次是RSX本身。

雖然結構相信很單純,不過畢竟還是有尚未解明之處。
首先,這個RSX結構看來與G80幾乎相同,
有一個用意就是要驗證部分G80的設計。
當然,G80 與 RSX一樣都是由IBM系的製程所生產,
所以必然是使用IBM的library,所以上述的理由是說得過去的。

性能方面,官方的資料已經合不起來了,所以一定還有暗樁。
(136ops/cycle的話、550MHz合不到100Gops/sec)

詳情的部份可以參照Waterball大的commet。
http://molesterwaterball.blogspot.com/2005/05/ps3rsx.html

總之RSX的資料現在還有一些不明朗的部份,
不過我想並不是有特殊的暗樁,而只是窩著不說…..
詳情大概會在G70公開(ComputexTaipei 05之後),
也就是6/8 所謂"GeForce 7800"正式宣佈的時候明朗化。

因為XB360是4+1D Shader的關係,目前看來帳面上的數字沒有贏很多,大概就是XB360的整個Shader Pool,剛好和RSX的PS差不多的狀況;然後RSX的VS則另外算。

目前感覺上最大的缺點,是XDR/GDDR3可能會成為固定的成本,而難以節省:
PS3使用16bit 512Mbit XDR x4,32bit 512Mbit GDDR3 x4,都已經是可獲得的最大寬度;
而XBOX360使用16bit 512Mbit GDDR3 x8,未來如果1Gbit GDDR3普及,
可以使用32bit 1Gbit GDDR3 x4,節省記憶體成本。

—-
SONY這次以製造與生產為最大的武器,挑戰XB360的巧思嗎….
新上任的CEO果然大刀闊斧。

[XB360]撲朔迷離的規格

前兩天的日記內容又隨著後藤大叔去E3的XB360記者招待會得到的資料曝光,而被否定…..
這回的狀況真是太絕妙了。orz

本文使用後藤大叔目前參與E3上的MS媒體招待會得到的資料,
以及XBOX360已經宣佈的資料為基準,先解釋一下XGPU360的一些資料:

首先,是剛揭露的Shader部分,
目前看來應該是4D Vector + 1D Scalar的構成。
4D Vector 可以進行VS or PS的功能,指令集完全相容;
另外還有一個獨立的1D Scalar。

48G op/s,500MHz,所以可以推論是96ops/cycle。
所以總計算量能量,是 48 x (4Dx2 + 1D)= 48x 9 = 432 flops
4D x2 指的是FMA,有2flops。
這樣的話總理論效能就是500MHz x48 x (4×2+1) = 216GFLOPs。

其次是"eDRAM"。
簡單講,Xenon diagram看來是正確的,
根據看過XBOX360的人員洩漏的資料,
它似乎不是eDRAM,而是"eDRAM"

not embeded DRAM to GPU,but there is something in DRAM。
[EDIT:專有名詞錯用]

http://www.beyond3d.com/forum/viewtopic.php?t=23042
第六篇。

這個10MB的eDRAM,根據上述thread所留存的過去Xenon開發人員訪談,
內建有下列單元:
1. Z/stencil Test unit
2. Z-write
3. Alpha Blending
4. 4x MSAA
頻寬為32GB/s,每個cycle讀寫8個pixel,
透過上述的工作之後,可以等效到256GB/s。

其實一言以敝之:ROPs in eDRAM。 (by cho)
從這個角度上來看,就似乎比想像中單純。
每個pixel都經過上述的動作,而先前說過Xenon有16Gpixel/s 的 fillrate(in 4x MSAA),
意即4Gpixel/s,8color /cycle;然後,32GB/s x 8 = 256GB/s。
(因為每個pixel都等於免費得到上述的所有動作)

總頻寬是 32GB/s 的話,相信是個256bit DDR-bus的設計,
應該是MCM unit可以達到的設計。

這個 eDRAM 由 NEC所生產,大小並不大,可能在100M~120M以內,
從 DRAM 產品的規模來說,這是個很小的晶片,良率應該會相當高。

不過,含有GPU的北橋可能就沒這麼簡單了,因為如此看來,
應該是由TSMC繼續生產這個北橋,然後用MCM的模式結合,在封裝時才合併兩個廠商的晶片。
因為當初認定為eDRAM的模式,所以才認為NEC會生產這個GPU;
現在從eDRAM的角度來推斷的話,看來仍然是TSMC生產….

上面提到過了,它是個48個4D Vector + 1D Scalar + 8color unit的GPU,
規模多大並不清楚,問題是應該不會小於200M,而且考慮還有北橋的相關logic,
複雜度只怕是超乎想像。

而且,CPU是IBM、GPU-NB是TSMC、SB是SiS設計UMC生產,最後是NEC生產的eDRAM。
這四家廠商哪一個出毛病就掛了….

—-
比起來,PS3簡直就是單純到翻掉….

CPU是CELL,GPU是RSX,各自使用獨立的記憶體,
RSX可以用TurboCache功能透過FlexIO存取主記憶體。

據稱這個RSX雖然管線數量接近G70(24pipe),
但是結構比較接近G80,而非G70。
因為RSX有一個用意就是要驗證部分G80的設計。

當然,G80 與 RSX一樣都是由IBM系的製程所生產,
所以必然是使用IBM的library,所以上述的理由是說得過去的。

其次,RSX的規模可能大過G80,
因為G80(NV48)目前傳出的資訊是16pipe的設計,
所以RSX說不定可以視為NV4x最後的成員。

RSX的資料現在還有一些不明朗的部份,
不過我想並不是有特殊的暗樁,而只是窩著不說…..
詳情大概會在G70公開(ComputexTaipei 05之後),
也就是6/8正式宣佈的時候明朗化。

南橋大概與現有的NForce相差不大,只是把Host從Hyper Transport改為FlexIO、
GPU的Host也是從PCI-E改為FlexIO,然後分別與CELL連接;
其餘狀況不變,GPU照舊連接 GDDR3,南橋各自連接自己的周邊….

由於設計簡化許多,未來CELL與RSX都很可能順勢縮小到65nm、45nm,
然後如果狀況好的話,可能會如同今日的EE+GS般結合,然後在PS4(?!)上重演現在的歷史。

目前感覺上最大的缺點,是XDR/GDDR3可能會成為固定的成本,而難以節省:
PS3使用16bit 512Mbit XDR x4,32bit 512Mbit GDDR3 x4,都已經是可獲得的最大寬度;
而XBOX360使用16bit 512Mbit GDDR3 x8,未來如果1Gbit GDDR3普及,
可以使用32bit 1Gbit GDDR3 x4,節省記憶體成本。

[PS3] PS3加入雙螢幕同好會(核爆)

輸出規格裡面有HDMI x2….單機雙螢幕對戰啊~
好,搞爆笑而已,回到實際。

PS3有幾個有趣的地方:
1. 放棄既有堅持,記憶卡使用通用規格
SD/MS/CF通通來…. 這點不錯。

2. Wi-Fi / LAN / Bluetooth(2.0)通通內建,手把具備over IP功能
雖說方便連接,可是這樣搞好像有點overkill…
只能說SONY又在想自己通通包了。

3. 主記憶體+獨立外接Video DRAM…. 128bit GDDR3
Its G70 @90nm (by Dave @ B3D)
爆啦。FSAA不必開了,開上1080p一切解決。

—–
總之,從PS3的硬體機能上,可以感覺到SONY承受著來自360強大的壓力…. 所以出現了一些變動這樣。
明年春天發售,時間差距相當小。

[XB360]這回出槌出大了

http://pc.watch.impress.co.jp/docs/2005/0516/kaigai179.htm

對喔!! 又不是4D Vector!!
所以其實是48 scaler Shader嗎…..

[EDIT:後藤老爹發更正文,最後是4D+1D]

這樣的話大概等價於NV4x的12個Shader(op),
和8pipe搭起來,也比較沒有那麼過剩的感覺。
當然因為unified shader,可以用1D/2D/3D/4D等任意組合寫入,
效果一定比純4D Vector要好,不過NV4x也有2+2D/3+1D dual-issue,
只是相信XB360的GPU效率會更好些,也應該會規模更大些;
但是實際上因為VS+PS共用,所以考慮成4個vs 8個ps的負載平衡比較適當。

[EDIT:以上推測全滅]

這樣算起來的話,XB360的GPU,除卻eDRAM的部份(接近100M)
可能差不多超過200M transistors…..總大小可能在350M上下,離400M有相當的距離,
而不是先前估計的超過400M。

也就是說,硬講"有運算能力"的管線部分的話,XB360’s GPU其實可能大概與一個4vs8ps8pipe的GPU規模差不多,
也就是只比NV43(3vs8ps4pipe)大一些而已;整個規模考慮用來做排程的硬體帶來的複雜化,
光看電晶體數很可能接近或超過NV40的大小,不過算數量的話其實沒有想像中那麼大。

當然,它有unified shader pool,效率高很多,eDRAM頻寬也大很多,
也許讓它可以加持到(同時脈的?)NV40前後的效能,加上FSAA很可能會更快;
不過不會真的厲害到飛上天就是了;但是重點是它的成本很低效果也很好,
所以未來很可能會成為主流設計方向。

現在只剩下黑歷史….