Fermi正式發表

http://www.4gamer.net/games/099/G009929/20090930012/

NVIDIA,DirectX 11世代の次世代GPU「Fermi」を予告~30億トランジスタ,512シェーダプロセッサ!

http://pc.watch.impress.co.jp/docs/news/event/20091001_318660.html

【GTCレポート】NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開

http://pc.watch.impress.co.jp/docs/column/kaigai/20091001_318463.html

NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表

http://www.realworldtech.com/page.cfm?ArticleID=RWT093009110932

Inside Fermi: Nvidia’s HPC Push

http://forum.beyond3d.com/showthread.php?p=1342380

NVIDIA Fermi: Architecture discussion and pre-launch GF100 speculation

3.0B transistors @ TSMC, 40nm

2 x 16-way FMA SM, IEEE754-2008, 16 SMs

Each SM has four SFUs

384-bit GDDR5

~650/1700/4200MHz (base/hot/mem)

16 pixels clock address and filter per SM

48 ROPs, 8Z/C clock

64KiB L1/smem per SM (48/16 or 16/48 per clock config, not user programmable as far as I know, at least not yet)

Unified 768 KiB L2 (not partitioned now, so a write to L2 from any SM is visible to all others immediately)

Unified memory space (hardware TLB, 1TiB address, 40-bit if my brain’s working)

http://www.anandtech.com/video/showdoc.aspx?i=3651

NVIDIA’s Fermi: Architected for Tesla, 3 Billion Transistors in 2010

http://www.anandtech.com/video/showdoc.aspx?i=3651&p=7

The RV770 Lesson (or The GT200 Story)

http://www.theinquirer.net/inquirer/news/1137331/a-look-nvidia-gt300-architecture

A look at the Nvidia GT300 architecture

其實某種觀點來看,16 x[8TMU+32sp]這個預測是完全沒有問題的,只是32sp本來以為是4×8,結果NVIDIA做了徹底重新的整合來refine,並且更有效地改善了GPGPU的部份。

Fermi在各處的改良都讓它更適合同時執行GPGPU與原來GPU繪圖的工作,包含全速倍精度性能等等,讓PhsyX之類的應用可以更有效率地和繪圖進行整合,追加ECC能力也更有辦法執行HPC高階應用的任務,這兩點都是當初CELL這樣的處理器推出的時候被HPC業界所質疑的部份,也是Tesla一開始遇到的問題,所以CELL推出了倍精度全速版,Fermi也把倍精度全速和ECC都放了上去,某種意味上這算是一種行銷也說不定。(為了clear最低門檻)

所以說,這次發表是把CUDA放在繪圖部份之前來發表,也是一種象徵性,所以感覺Fermi比起GPGPU,更像是「有繪圖功能的HPC處理器」….第一時間沒發表繪圖性能基本上也是有點氣勢已經輸給人家的感覺。

因為投注了太多成本在GPU以外的地方,光比遊戲繪圖的話,GT300/GF100/Fermi應該還是很容易被RV870修理;所以如果沒搭PhsyX(而且要非常積極地使用)的話應該很難有比較空間。所以在這個時候把PhsyX混用關閉,讓ATI+NVIDIA GPU充當PhsyX的solution不能用(或者說逼ATI面對無PhsyX可用的狀況),感覺其實有點小家子氣w

與繪圖工作同時執行的能力、全速倍精度、ECC支援。

從G80到GT200為止,CUDA相關的問題幾乎都獲得了解決,投注的成本幾乎差不多就是從512bit變成384bit所少掉的那個128bit GDDR5控制器,GT300一如預期與兩顆GT200差不多大,繪圖性能也都保持線性提昇。

但是這樣真的值得嗎?

在〈Fermi正式發表〉中有 7 則留言

  1. 不過坦白講,NVIDIA還有其他的選擇嗎?這才是他們現在的困難點。
    因為市場板塊移動,其實現在GPU廠商在爭的,很大部份落在「推出系列作第一款旗艦產品後,何時可以出現mobile衍生款,你能不能丟出明確的價格和schedule」,但NVIDIA….呃,有些東西不方便公開講,私下電話再聊好了。

  2. A look at the Nvidia GT300 architecture
    這裏面後半段講的GT300讓人直冒冷汗……
    GT300的DX11是沒有實作Tesselation硬體線路?
    只打算像Laughbee一樣靠軟體實作Tesselation?
    這……畢竟DX11的重點就是靠硬體產生大量多邊形阿.
    GT300恐怕一跑Tesselation馬上被RV870拋在後頭.
    CUDA和PhsyX的使用率真的有可能挑戰DX11的需求率嗎?
    怎麼看都覺得Nvidia實在賭的太大了.
    也許是TheInquirer搞錯了?
    ATI從R600就一直內建用不到的Tesselation unit.
    某方面來說RV870其實了無新意,只是把這架構改進到
    近乎完美,之前所有技術與新製程都整合最佳化了.
    沒有什麼意外的東西,就是單純的高效率dx11繪圖.

  3. > 也許是TheInquirer搞錯了?
    我必須要說Charlie Demerjian他老兄真得很看不爽NVIDIA….
    DX11的tessellation不用硬體做應該會蠻痛苦的,這回Fermi完全沒有提到繪圖,我們連TMU和ROP幾個,有沒有改進都還不知道,談tessellation unit似乎有點太早,尤其是NVIDIA在GT200其實並不是輸在shader而是輸在ROP吞吐性能的時候….

  4. > 其實現在GPU廠商在爭的,很大部份落在「推出系列作第一款旗艦產品後,何時可以出現mobile衍生款,你能不能丟出明確的價格和schedule」
    其實這問題並沒有上頭講的那麼大….因為對ATI和NVIDIA而言,notebook的performance graphic市場還沒打開的同時,這兩邊其實也只有GT215和RV740在對打….
    當然明年的衍生可能就像先前講的,Acer整批都倒給ATI去了之類,畢竟RV740->RV840吸引力還是很大的,但是user端來看吸引力到底差多少還真的蠻有疑問?反倒是GT215的TDP只要36w,但是和G92幾乎一樣快這點很有吸引力。

  5. 這次GT300應該算是G8X或G9X的改良,
    如記憶體階層、SM的SP由8個變成32個等的改變。
    而GT200則算是SM增加的版本(除倍精度外)…?

  6. > 這次GT300應該算是G8X或G9X的改良,
    > 如記憶體階層、SM的SP由8個變成32個等的改變。
    > 而GT200則算是SM增加的版本(除倍精度外)…?
    也不能這麼說啦,因為GT300/GF100/Fermi(亂成一團XD)在shader結構上的改良很細,比方說過去是每個SM有一個倍精度unit,現在是每個SP都有倍精度能力。(GT200是單精度為MAD、倍精度為FMA)
    然後GT200每個TPC有3個SM unit、GT300的話比較該說是把每個TPC增加到4個SM之後,把四個SM完全整合在一起,變成一個大SM。
    這個SM有幾個重點:
    1. GT300的大SM和過去G80時代的TPC可支援實質warp數一樣(GT300共16個SM、總thread數24576,G80的8個TPC總和是12288)、但是每個SM還變成兩個warp schedular,於是每個SM都可以做快速的context switching。而從SM的觀點來看就變成warp數兩倍,並且有切換能力…. 但是TPC觀點來看的話並沒有減少。
    2. 和GT200的TPC相比,其實warp schedular(3個SM所以有3個)、支援的warp數量(總thread數量30720)都是減少的。
    而如果假設原來是要增加成4個SM的話,那麼剛好就會變成4個warp schedular、4個16KB的share memory,整合過後變成2個warp schedular,16KB/48KB的功能可切換cache & scratch pad memory,這些都可以看出TPC這個階層拔掉之後,來將結構簡化過得結果。
    3. 結果就是,換來空間擴充倍精度unit、context switching、每個SM可以選擇維持16KB shared memory但是有48KB cache可用,或者是48KB的scratch pad memory的同時還有16KB cache聊勝於無、結構上還多了個768KB、各個core來share的cache,定址也改成了線性定址,這些都讓GPGPU的用途變得比以前要來得好用,但是卻沒有顯著地增加GT300相對於過去GT200/G80的電晶體規模,512sp、240sp、128sp來比的話,幾乎就只有線性擴充而已。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料