http://www.anandtech.com/video/showdoc.aspx?i=3721
NVIDIA’s GF100: Architected for Gaming
http://www.hardocp.com/article/2010/01/17/nvidias_fermi_gf100_facts_opinions
NVIDIA’s Fermi GF100 Facts & Opinions
http://www.nvidia.com/object/gf100.html
GF100
拖了許久,NVIDIA終於發表Fermi的繪圖部分細節。
這次主要的內容在TMU、ROP、固定功能管線。
1. PolyMorph引擎
為了可以OOOE,NVIDIA在每個SM都準備了稱為PolyMorph Engine的tessellation相關邏輯。
和ATI的固定tessellation引擎相比,GF100的做法更像在SM上面準備對vetex processing有幫助的相關指令,舉凡Vertex Fetch, Tessellator, Viewport Transform, Attribute Setup和 Stream Output等部分。
所以ATI的tessellation速度應該高中低都差不多,但是NVIDIA就有可能高階比低階快,並且某些應用下單一的tessellation引擎會有瓶頸。
此外,相較於純shader處理的GT200,NVIDIA宣稱GF100的geometry性能大約提升了8倍。這造成一個很有趣的狀況,後面GPC的時候會再提到一次。
2. 每SM具備獨立的2KB Texture L1 cache,由4個TMU使用,運作的時脈為shader的1/2,與core的速度也不同。
3. GPC(Graphic Processing Clustors),每4個SM構成一個GPC、每個GPC有自己的rasterizer logic。
所以每個GPC等於有三個不同的時脈:Shader、Texture logic、raster,也讓GF100變得很像chip level的multi-core,和RV870的內部雙並列有異曲同工之效。
於是可以預期GF100的中低階製作並不會比想像中困難,單GPC、2GPC的產品相對之下會好做很多。
如此看來,GPC的時脈切割也造成GF100的特質:GF100實際上的確應該是只追加了tessellation相關的幾個加速指令,但是因為這些單元也運作在shader clock上,所以和core logic時脈有所不同,GF100的geometry性能提升8倍,代表它的geometry部分跑的時脈不在raster 部分的時脈上,GPC隨著整個繪圖管線每個階層都有不同的時脈,為了性能而從硬體上的最佳化造成了設計上的複雜度。
當然從這樣看就會有人把Larrabee拿出來說嘴了,只可惜它目前還是沒機會出來證明自己能比較快。
4. ROP部分的改進
GF100提出了新的Jittered Samping、32x CSAA,更好的色彩壓縮,以致於NVIDIA宣稱GF100的8xAA速度大約是GTX285的2.3倍。
實際上的狀況是:GTX285 8x 為100%的狀況下,4x 160%、GF100的8x為233%、4x為257%的速度。
可以看得出來GF100的8x和4x的差距很小,以致於關掉變成4x沒有快到哪去,或者說GF100幾乎是8x Free的設計。
5. 吃虧的多螢幕gaming。
目前GF100的輸出限制還是卡在2螢幕,以致於NVIDIA Surround最後還是得準備雙卡才能輸出3螢幕,只好靠軟體solution來補足,這造成GT200也因此獲益。
最後,GF100這次發表最糟的部分也卡在沒有提到產品時程,實際產品的benchmark仍然付之闕如。這也是SemiAccurate(a.k.a S|A)這篇最大抨擊的重點。
http://www.semiaccurate.com/2010/01/17/nvidia-gf100-takes-280w-and-unmanufacturable/
[Nvidia GF100 pulls 280W and is unmanufacturable]
well,畢竟Charlie Demerjian在G80/R600的時候栽了一個天大的跟斗….XD
反過來說,現在看起來G80/R600當年的勝負其實也不見得是在設計層次、而在實際產能上。
—-
http://www.youtube.com/watch?v=j9F3W-v6PNI
Nvidia GF100 Hair Demo
http://www.youtube.com/watch?v=K3m9rPltA_s
Nvidia GF100 Water Tessellation
http://www.youtube.com/watch?v=PbHRsca3vkk
Nvidia GF100 Ray tracing
http://www.youtube.com/watch?v=dpVAfVGKMcs
Nvidia GF100 One Card Ray Tracing
http://www.youtube.com/watch?v=XJWKe9YccG0
Nvidia GF100 Far Cry 2 Benchmark
GF100在架構上是從G80以來的大改變,
效率看起來很不錯.
而RV870則是R600架構的最終型態,改變其實不多,
但是Time to market快.
能快速更新整個PC/NB產品線是商業上的優勢.
在4X AA的情形下,可以看出與GT200的差距大概是
ROP數量的差距,也就是說ROP本身在4X性能是差不多的.
這一代ROP增加的是8X AA的免費性能,
所以8X差距特別大.
ROP要不被Shader單位取代掉,未來就是不斷的強化
AA運算線路提供更多免費效能,
即使可程式化當道,固定管線也還是有進步的空間,
Larrabee在這方面很難跟上固定管線的成本/效率.
>>可以預期GF100的中低階製作並不會比想像中困難
奇怪的是,如果良率不允許量產大晶片,
怎麼不先做中低階DX11?
爬墙发言真是麻烦
TA/TF的比例是最让人意外的
TA:TF比例其實有點回歸8800GTX的感覺,後面中低階又往上改成1:2的機會很大。
有點像是G80/GT200這種架構面的大部頭一個team,底下refine又一個team的感覺。
但是TMU和ROP基本上都是大幅強化,ROP變成8x-FSAA free這點算是和ATI勉強抗衡。
把cache架構導入到vertex processing也很有意思。
SM有獨立的texture cache、但是整個L2則是unified這點也非常有意思。
反過來說設計到這麼複雜的確會讓人覺得GPU有點太怪獸了點。
要搞到每個stage都一個clock的話真的就笑不太出來。
除了設計本身的複雜度外,
從尺寸來說GF100已經是無視生產考量的怪獸了,
本來還想說,怎麼不用高良率55nm先生產一批,
才想到用40nm還要500mm2以上,若用55nm那不就
是900mm2以上,這恐怕比光罩還大,連量產都不可能…..
所以嚴格說來,
雖然Die Size沒有比GT200的576mm2大
這卻是個比GT200還誇張的巨型設計.
GT200起碼是還能用先前舊製程65nm先行量產的大晶片.
換到當時的55nm新製程尺寸就合理多了,
GF100卻是連最新40nm製程生產都很龐大的怪獸.
目前訂不出上市時間聽說也是因為良率太低,
不是NV不想賣,現在做出來的晶片都要分攤大量損壞的成本,
就連500~600USD的超高階顯卡也消費不起….
只能賣到上千美金高價位的Telsa/Quadro專業市場.
消費市場則要等良率拉高才有辦法訂出上市時程.
不過GF100的大小問題就先算了,Fermi架構的中階版可能會是難得一見的傑作。
照這個白皮書來看,GF100砍半的2GPC(256SP)版本,幾乎就是GT200的40nm版本,但是卻有:
1. shader快速context switch、全新的快取架構、PolyMorph引擎
2. 支援DX11幾個重要變更的TMU
3. 支援8x FreeAA的新ROP,以及256bit GDDR5
光是shader部分的變更和ROP強化這兩點就可以讓這個晶片直接跑目前支援PhsyX的遊戲比GT200b還快一大截,換成DX11的話差距還會再加大,同樣的狀況也會發生在1GPC的版本 vs G92上,別忘了GT2x0家族到最後還是沒推出比G92快的產品…..
當然能不能比RV870快是有點疑問啦。XD
反過來說,Fermi在和前代產品同大小的狀況下確實讓人有把握覺得一定會比前代快,這可是在任何一家GPU廠商的歷代產品線裡面都很少見。
過了半年回來看這篇:
GF104的性能確實有贏過GT200一截,不過大約有2000M電晶體、320mm^2的die size,也比1400M的GT200大了不少。
GF106和G92相比也確實有取代性,不過1140M對754M還是大了不少。
由於sp的增加和register file的增加有分離開來,規模的部分越來越難算嘍。
不過反過來說,其實sp數量和電晶體規模之間似乎有回到比例關係的感覺。