NVIDIA GF100繪圖子系統細節

http://www.anandtech.com/video/showdoc.aspx?i=3721

NVIDIA’s GF100: Architected for Gaming

http://www.hardocp.com/article/2010/01/17/nvidias_fermi_gf100_facts_opinions

NVIDIA’s Fermi GF100 Facts & Opinions

http://www.nvidia.com/object/gf100.html

GF100

http://www.nvidia.com/object/IO_86775.html

白皮書

拖了許久，NVIDIA終於發表Fermi的繪圖部分細節。

這次主要的內容在TMU、ROP、固定功能管線。

1. PolyMorph引擎

為了可以OOOE，NVIDIA在每個SM都準備了稱為PolyMorph Engine的tessellation相關邏輯。

和ATI的固定tessellation引擎相比，GF100的做法更像在SM上面準備對vetex processing有幫助的相關指令，舉凡Vertex Fetch, Tessellator, Viewport Transform, Attribute Setup和 Stream Output等部分。

所以ATI的tessellation速度應該高中低都差不多，但是NVIDIA就有可能高階比低階快，並且某些應用下單一的tessellation引擎會有瓶頸。

此外，相較於純shader處理的GT200，NVIDIA宣稱GF100的geometry性能大約提升了8倍。這造成一個很有趣的狀況，後面GPC的時候會再提到一次。

2. 每SM具備獨立的2KB Texture L1 cache，由4個TMU使用，運作的時脈為shader的1/2，與core的速度也不同。

3. GPC(Graphic Processing Clustors)，每4個SM構成一個GPC、每個GPC有自己的rasterizer logic。

所以每個GPC等於有三個不同的時脈：Shader、Texture logic、raster，也讓GF100變得很像chip level的multi-core，和RV870的內部雙並列有異曲同工之效。

於是可以預期GF100的中低階製作並不會比想像中困難，單GPC、2GPC的產品相對之下會好做很多。

如此看來，GPC的時脈切割也造成GF100的特質：GF100實際上的確應該是只追加了tessellation相關的幾個加速指令，但是因為這些單元也運作在shader clock上，所以和core logic時脈有所不同，GF100的geometry性能提升8倍，代表它的geometry部分跑的時脈不在raster 部分的時脈上，GPC隨著整個繪圖管線每個階層都有不同的時脈，為了性能而從硬體上的最佳化造成了設計上的複雜度。

當然從這樣看就會有人把Larrabee拿出來說嘴了，只可惜它目前還是沒機會出來證明自己能比較快。

4. ROP部分的改進

GF100提出了新的Jittered Samping、32x CSAA，更好的色彩壓縮，以致於NVIDIA宣稱GF100的8xAA速度大約是GTX285的2.3倍。

實際上的狀況是：GTX285 8x 為100%的狀況下，4x 160%、GF100的8x為233%、4x為257%的速度。

可以看得出來GF100的8x和4x的差距很小，以致於關掉變成4x沒有快到哪去，或者說GF100幾乎是8x Free的設計。

5. 吃虧的多螢幕gaming。

目前GF100的輸出限制還是卡在2螢幕，以致於NVIDIA Surround最後還是得準備雙卡才能輸出3螢幕，只好靠軟體solution來補足，這造成GT200也因此獲益。

最後，GF100這次發表最糟的部分也卡在沒有提到產品時程，實際產品的benchmark仍然付之闕如。這也是SemiAccurate(a.k.a S|A)這篇最大抨擊的重點。

http://www.semiaccurate.com/2010/01/17/nvidia-gf100-takes-280w-and-unmanufacturable/

[Nvidia GF100 pulls 280W and is unmanufacturable]

well，畢竟Charlie Demerjian在G80/R600的時候栽了一個天大的跟斗….XD

反過來說，現在看起來G80/R600當年的勝負其實也不見得是在設計層次、而在實際產能上。

—-

http://www.youtube.com/watch?v=j9F3W-v6PNI

Nvidia GF100 Hair Demo

http://www.youtube.com/watch?v=K3m9rPltA_s

Nvidia GF100 Water Tessellation

http://www.youtube.com/watch?v=PbHRsca3vkk

Nvidia GF100 Ray tracing

http://www.youtube.com/watch?v=dpVAfVGKMcs

Nvidia GF100 One Card Ray Tracing

http://www.youtube.com/watch?v=XJWKe9YccG0

Nvidia GF100 Far Cry 2 Benchmark

在〈NVIDIA GF100繪圖子系統細節〉中有 6 則留言

GF100在架構上是從G80以來的大改變,
效率看起來很不錯.
而RV870則是R600架構的最終型態,改變其實不多,
但是Time to market快.
能快速更新整個PC/NB產品線是商業上的優勢.
在4X AA的情形下,可以看出與GT200的差距大概是
ROP數量的差距,也就是說ROP本身在4X性能是差不多的.
這一代ROP增加的是8X AA的免費性能,
所以8X差距特別大.
ROP要不被Shader單位取代掉,未來就是不斷的強化
AA運算線路提供更多免費效能,
即使可程式化當道,固定管線也還是有進步的空間,
Larrabee在這方面很難跟上固定管線的成本/效率.
>>可以預期GF100的中低階製作並不會比想像中困難
奇怪的是,如果良率不允許量產大晶片,
怎麼不先做中低階DX11?

爬墙发言真是麻烦
TA/TF的比例是最让人意外的

TA:TF比例其實有點回歸8800GTX的感覺，後面中低階又往上改成1:2的機會很大。
有點像是G80/GT200這種架構面的大部頭一個team，底下refine又一個team的感覺。
但是TMU和ROP基本上都是大幅強化，ROP變成8x-FSAA free這點算是和ATI勉強抗衡。
把cache架構導入到vertex processing也很有意思。
SM有獨立的texture cache、但是整個L2則是unified這點也非常有意思。
反過來說設計到這麼複雜的確會讓人覺得GPU有點太怪獸了點。
要搞到每個stage都一個clock的話真的就笑不太出來。

除了設計本身的複雜度外,
從尺寸來說GF100已經是無視生產考量的怪獸了,
本來還想說,怎麼不用高良率55nm先生產一批,
才想到用40nm還要500mm2以上,若用55nm那不就
是900mm2以上,這恐怕比光罩還大,連量產都不可能…..
所以嚴格說來,
雖然Die Size沒有比GT200的576mm2大
這卻是個比GT200還誇張的巨型設計.
GT200起碼是還能用先前舊製程65nm先行量產的大晶片.
換到當時的55nm新製程尺寸就合理多了,
GF100卻是連最新40nm製程生產都很龐大的怪獸.
目前訂不出上市時間聽說也是因為良率太低,
不是NV不想賣,現在做出來的晶片都要分攤大量損壞的成本,
就連500~600USD的超高階顯卡也消費不起….
只能賣到上千美金高價位的Telsa/Quadro專業市場.
消費市場則要等良率拉高才有辦法訂出上市時程.

不過GF100的大小問題就先算了，Fermi架構的中階版可能會是難得一見的傑作。
照這個白皮書來看，GF100砍半的2GPC(256SP)版本，幾乎就是GT200的40nm版本，但是卻有：
1. shader快速context switch、全新的快取架構、PolyMorph引擎
2. 支援DX11幾個重要變更的TMU
3. 支援8x FreeAA的新ROP，以及256bit GDDR5
光是shader部分的變更和ROP強化這兩點就可以讓這個晶片直接跑目前支援PhsyX的遊戲比GT200b還快一大截，換成DX11的話差距還會再加大，同樣的狀況也會發生在1GPC的版本 vs G92上，別忘了GT2x0家族到最後還是沒推出比G92快的產品…..
當然能不能比RV870快是有點疑問啦。XD
反過來說，Fermi在和前代產品同大小的狀況下確實讓人有把握覺得一定會比前代快，這可是在任何一家GPU廠商的歷代產品線裡面都很少見。

過了半年回來看這篇：
GF104的性能確實有贏過GT200一截，不過大約有2000M電晶體、320mm^2的die size，也比1400M的GT200大了不少。
GF106和G92相比也確實有取代性，不過1140M對754M還是大了不少。
由於sp的增加和register file的增加有分離開來，規模的部分越來越難算嘍。
不過反過來說，其實sp數量和電晶體規模之間似乎有回到比例關係的感覺。

發佈留言取消回覆

waffenss表示:

18 1 月, 20108:20 下午

GF100在架構上是從G80以來的大改變,
效率看起來很不錯.
而RV870則是R600架構的最終型態,改變其實不多,
但是Time to market快.
能快速更新整個PC/NB產品線是商業上的優勢.
在4X AA的情形下,可以看出與GT200的差距大概是
ROP數量的差距,也就是說ROP本身在4X性能是差不多的.
這一代ROP增加的是8X AA的免費性能,
所以8X差距特別大.
ROP要不被Shader單位取代掉,未來就是不斷的強化
AA運算線路提供更多免費效能,
即使可程式化當道,固定管線也還是有進步的空間,
Larrabee在這方面很難跟上固定管線的成本/效率.
>>可以預期GF100的中低階製作並不會比想像中困難
奇怪的是,如果良率不允許量產大晶片,
怎麼不先做中低階DX11?

SD表示:

18 1 月, 201011:39 下午

爬墙发言真是麻烦
TA/TF的比例是最让人意外的

Eji表示:

19 1 月, 201012:37 上午

TA:TF比例其實有點回歸8800GTX的感覺，後面中低階又往上改成1:2的機會很大。
有點像是G80/GT200這種架構面的大部頭一個team，底下refine又一個team的感覺。
但是TMU和ROP基本上都是大幅強化，ROP變成8x-FSAA free這點算是和ATI勉強抗衡。
把cache架構導入到vertex processing也很有意思。
SM有獨立的texture cache、但是整個L2則是unified這點也非常有意思。
反過來說設計到這麼複雜的確會讓人覺得GPU有點太怪獸了點。
要搞到每個stage都一個clock的話真的就笑不太出來。

waffenss表示:

19 1 月, 20103:03 上午

除了設計本身的複雜度外,
從尺寸來說GF100已經是無視生產考量的怪獸了,
本來還想說,怎麼不用高良率55nm先生產一批,
才想到用40nm還要500mm2以上,若用55nm那不就
是900mm2以上,這恐怕比光罩還大,連量產都不可能…..
所以嚴格說來,
雖然Die Size沒有比GT200的576mm2大
這卻是個比GT200還誇張的巨型設計.
GT200起碼是還能用先前舊製程65nm先行量產的大晶片.
換到當時的55nm新製程尺寸就合理多了,
GF100卻是連最新40nm製程生產都很龐大的怪獸.
目前訂不出上市時間聽說也是因為良率太低,
不是NV不想賣,現在做出來的晶片都要分攤大量損壞的成本,
就連500~600USD的超高階顯卡也消費不起….
只能賣到上千美金高價位的Telsa/Quadro專業市場.
消費市場則要等良率拉高才有辦法訂出上市時程.

Eji表示:

19 1 月, 201010:35 上午

不過GF100的大小問題就先算了，Fermi架構的中階版可能會是難得一見的傑作。
照這個白皮書來看，GF100砍半的2GPC(256SP)版本，幾乎就是GT200的40nm版本，但是卻有：
1. shader快速context switch、全新的快取架構、PolyMorph引擎
2. 支援DX11幾個重要變更的TMU
3. 支援8x FreeAA的新ROP，以及256bit GDDR5
光是shader部分的變更和ROP強化這兩點就可以讓這個晶片直接跑目前支援PhsyX的遊戲比GT200b還快一大截，換成DX11的話差距還會再加大，同樣的狀況也會發生在1GPC的版本 vs G92上，別忘了GT2x0家族到最後還是沒推出比G92快的產品…..
當然能不能比RV870快是有點疑問啦。XD
反過來說，Fermi在和前代產品同大小的狀況下確實讓人有把握覺得一定會比前代快，這可是在任何一家GPU廠商的歷代產品線裡面都很少見。

Eji表示:

1 10 月, 201010:46 上午

過了半年回來看這篇：
GF104的性能確實有贏過GT200一截，不過大約有2000M電晶體、320mm^2的die size，也比1400M的GT200大了不少。
GF106和G92相比也確實有取代性，不過1140M對754M還是大了不少。
由於sp的增加和register file的增加有分離開來，規模的部分越來越難算嘍。
不過反過來說，其實sp數量和電晶體規模之間似乎有回到比例關係的感覺。

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

Eji的碎碎念

NVIDIA GF100繪圖子系統細節

在〈NVIDIA GF100繪圖子系統細節〉中有 6 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈NVIDIA GF100繪圖子系統細節〉中有 6 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆