NVIDIA GF100繪圖子系統細節

http://www.anandtech.com/video/showdoc.aspx?i=3721

NVIDIA’s GF100: Architected for Gaming

http://www.hardocp.com/article/2010/01/17/nvidias_fermi_gf100_facts_opinions

NVIDIA’s Fermi GF100 Facts & Opinions

http://www.nvidia.com/object/gf100.html

GF100

http://www.nvidia.com/object/IO_86775.html

白皮書

拖了許久,NVIDIA終於發表Fermi的繪圖部分細節。

這次主要的內容在TMU、ROP、固定功能管線。

1. PolyMorph引擎

為了可以OOOE,NVIDIA在每個SM都準備了稱為PolyMorph Engine的tessellation相關邏輯。

和ATI的固定tessellation引擎相比,GF100的做法更像在SM上面準備對vetex processing有幫助的相關指令,舉凡Vertex Fetch, Tessellator, Viewport Transform, Attribute Setup和 Stream Output等部分。

所以ATI的tessellation速度應該高中低都差不多,但是NVIDIA就有可能高階比低階快,並且某些應用下單一的tessellation引擎會有瓶頸。

此外,相較於純shader處理的GT200,NVIDIA宣稱GF100的geometry性能大約提升了8倍。這造成一個很有趣的狀況,後面GPC的時候會再提到一次。

2. 每SM具備獨立的2KB Texture L1 cache,由4個TMU使用,運作的時脈為shader的1/2,與core的速度也不同。

3. GPC(Graphic Processing Clustors),每4個SM構成一個GPC、每個GPC有自己的rasterizer logic。

所以每個GPC等於有三個不同的時脈:Shader、Texture logic、raster,也讓GF100變得很像chip level的multi-core,和RV870的內部雙並列有異曲同工之效。

於是可以預期GF100的中低階製作並不會比想像中困難,單GPC、2GPC的產品相對之下會好做很多。

如此看來,GPC的時脈切割也造成GF100的特質:GF100實際上的確應該是只追加了tessellation相關的幾個加速指令,但是因為這些單元也運作在shader clock上,所以和core logic時脈有所不同,GF100的geometry性能提升8倍,代表它的geometry部分跑的時脈不在raster 部分的時脈上,GPC隨著整個繪圖管線每個階層都有不同的時脈,為了性能而從硬體上的最佳化造成了設計上的複雜度。

當然從這樣看就會有人把Larrabee拿出來說嘴了,只可惜它目前還是沒機會出來證明自己能比較快。

4. ROP部分的改進

GF100提出了新的Jittered Samping、32x CSAA,更好的色彩壓縮,以致於NVIDIA宣稱GF100的8xAA速度大約是GTX285的2.3倍。

實際上的狀況是:GTX285 8x 為100%的狀況下,4x 160%、GF100的8x為233%、4x為257%的速度。

可以看得出來GF100的8x和4x的差距很小,以致於關掉變成4x沒有快到哪去,或者說GF100幾乎是8x Free的設計。

5. 吃虧的多螢幕gaming。

目前GF100的輸出限制還是卡在2螢幕,以致於NVIDIA Surround最後還是得準備雙卡才能輸出3螢幕,只好靠軟體solution來補足,這造成GT200也因此獲益。

最後,GF100這次發表最糟的部分也卡在沒有提到產品時程,實際產品的benchmark仍然付之闕如。這也是SemiAccurate(a.k.a S|A)這篇最大抨擊的重點。

http://www.semiaccurate.com/2010/01/17/nvidia-gf100-takes-280w-and-unmanufacturable/

[Nvidia GF100 pulls 280W and is unmanufacturable]

well,畢竟Charlie Demerjian在G80/R600的時候栽了一個天大的跟斗….XD

反過來說,現在看起來G80/R600當年的勝負其實也不見得是在設計層次、而在實際產能上。

—-

http://www.youtube.com/watch?v=j9F3W-v6PNI

Nvidia GF100 Hair Demo

http://www.youtube.com/watch?v=K3m9rPltA_s

Nvidia GF100 Water Tessellation

http://www.youtube.com/watch?v=PbHRsca3vkk

Nvidia GF100 Ray tracing

http://www.youtube.com/watch?v=dpVAfVGKMcs

Nvidia GF100 One Card Ray Tracing

http://www.youtube.com/watch?v=XJWKe9YccG0

Nvidia GF100 Far Cry 2 Benchmark

在〈NVIDIA GF100繪圖子系統細節〉中有 6 則留言

  1. GF100在架構上是從G80以來的大改變,
    效率看起來很不錯.
    而RV870則是R600架構的最終型態,改變其實不多,
    但是Time to market快.
    能快速更新整個PC/NB產品線是商業上的優勢.
    在4X AA的情形下,可以看出與GT200的差距大概是
    ROP數量的差距,也就是說ROP本身在4X性能是差不多的.
    這一代ROP增加的是8X AA的免費性能,
    所以8X差距特別大.
    ROP要不被Shader單位取代掉,未來就是不斷的強化
    AA運算線路提供更多免費效能,
    即使可程式化當道,固定管線也還是有進步的空間,
    Larrabee在這方面很難跟上固定管線的成本/效率.
    >>可以預期GF100的中低階製作並不會比想像中困難
    奇怪的是,如果良率不允許量產大晶片,
    怎麼不先做中低階DX11?

  2. TA:TF比例其實有點回歸8800GTX的感覺,後面中低階又往上改成1:2的機會很大。
    有點像是G80/GT200這種架構面的大部頭一個team,底下refine又一個team的感覺。
    但是TMU和ROP基本上都是大幅強化,ROP變成8x-FSAA free這點算是和ATI勉強抗衡。
    把cache架構導入到vertex processing也很有意思。
    SM有獨立的texture cache、但是整個L2則是unified這點也非常有意思。
    反過來說設計到這麼複雜的確會讓人覺得GPU有點太怪獸了點。
    要搞到每個stage都一個clock的話真的就笑不太出來。

  3. 除了設計本身的複雜度外,
    從尺寸來說GF100已經是無視生產考量的怪獸了,
    本來還想說,怎麼不用高良率55nm先生產一批,
    才想到用40nm還要500mm2以上,若用55nm那不就
    是900mm2以上,這恐怕比光罩還大,連量產都不可能…..
    所以嚴格說來,
    雖然Die Size沒有比GT200的576mm2大
    這卻是個比GT200還誇張的巨型設計.
    GT200起碼是還能用先前舊製程65nm先行量產的大晶片.
    換到當時的55nm新製程尺寸就合理多了,
    GF100卻是連最新40nm製程生產都很龐大的怪獸.
    目前訂不出上市時間聽說也是因為良率太低,
    不是NV不想賣,現在做出來的晶片都要分攤大量損壞的成本,
    就連500~600USD的超高階顯卡也消費不起….
    只能賣到上千美金高價位的Telsa/Quadro專業市場.
    消費市場則要等良率拉高才有辦法訂出上市時程.

  4. 不過GF100的大小問題就先算了,Fermi架構的中階版可能會是難得一見的傑作。
    照這個白皮書來看,GF100砍半的2GPC(256SP)版本,幾乎就是GT200的40nm版本,但是卻有:
    1. shader快速context switch、全新的快取架構、PolyMorph引擎
    2. 支援DX11幾個重要變更的TMU
    3. 支援8x FreeAA的新ROP,以及256bit GDDR5
    光是shader部分的變更和ROP強化這兩點就可以讓這個晶片直接跑目前支援PhsyX的遊戲比GT200b還快一大截,換成DX11的話差距還會再加大,同樣的狀況也會發生在1GPC的版本 vs G92上,別忘了GT2x0家族到最後還是沒推出比G92快的產品…..
    當然能不能比RV870快是有點疑問啦。XD
    反過來說,Fermi在和前代產品同大小的狀況下確實讓人有把握覺得一定會比前代快,這可是在任何一家GPU廠商的歷代產品線裡面都很少見。

  5. 過了半年回來看這篇:
    GF104的性能確實有贏過GT200一截,不過大約有2000M電晶體、320mm^2的die size,也比1400M的GT200大了不少。
    GF106和G92相比也確實有取代性,不過1140M對754M還是大了不少。
    由於sp的增加和register file的增加有分離開來,規模的部分越來越難算嘍。
    不過反過來說,其實sp數量和電晶體規模之間似乎有回到比例關係的感覺。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料