Fermi正式發表 | Eji的碎碎念

http://www.4gamer.net/games/099/G009929/20090930012/

NVIDIA，DirectX 11世代の次世代GPU「Fermi」を予告～30億トランジスタ，512シェーダプロセッサ！

http://pc.watch.impress.co.jp/docs/news/event/20091001_318660.html

【GTCレポート】NVIDIAの次世代GPUアーキテクチャ「Fermi」搭載Teslaを公開

http://pc.watch.impress.co.jp/docs/column/kaigai/20091001_318463.html

NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表

http://www.realworldtech.com/page.cfm?ArticleID=RWT093009110932

Inside Fermi: Nvidia’s HPC Push

http://forum.beyond3d.com/showthread.php?p=1342380

NVIDIA Fermi: Architecture discussion and pre-launch GF100 speculation

3.0B transistors @ TSMC, 40nm

2 x 16-way FMA SM, IEEE754-2008, 16 SMs

Each SM has four SFUs

384-bit GDDR5

~650/1700/4200MHz (base/hot/mem)

16 pixels clock address and filter per SM

48 ROPs, 8Z/C clock

64KiB L1/smem per SM (48/16 or 16/48 per clock config, not user programmable as far as I know, at least not yet)

Unified 768 KiB L2 (not partitioned now, so a write to L2 from any SM is visible to all others immediately)

Unified memory space (hardware TLB, 1TiB address, 40-bit if my brain’s working)

http://www.anandtech.com/video/showdoc.aspx?i=3651

NVIDIA’s Fermi: Architected for Tesla, 3 Billion Transistors in 2010

http://www.anandtech.com/video/showdoc.aspx?i=3651&p=7

The RV770 Lesson (or The GT200 Story)

http://www.theinquirer.net/inquirer/news/1137331/a-look-nvidia-gt300-architecture

A look at the Nvidia GT300 architecture

其實某種觀點來看，16 x[8TMU+32sp]這個預測是完全沒有問題的，只是32sp本來以為是4×8，結果NVIDIA做了徹底重新的整合來refine，並且更有效地改善了GPGPU的部份。

Fermi在各處的改良都讓它更適合同時執行GPGPU與原來GPU繪圖的工作，包含全速倍精度性能等等，讓PhsyX之類的應用可以更有效率地和繪圖進行整合，追加ECC能力也更有辦法執行HPC高階應用的任務，這兩點都是當初CELL這樣的處理器推出的時候被HPC業界所質疑的部份，也是Tesla一開始遇到的問題，所以CELL推出了倍精度全速版，Fermi也把倍精度全速和ECC都放了上去，某種意味上這算是一種行銷也說不定。（為了clear最低門檻）

所以說，這次發表是把CUDA放在繪圖部份之前來發表，也是一種象徵性，所以感覺Fermi比起GPGPU，更像是「有繪圖功能的HPC處理器」….第一時間沒發表繪圖性能基本上也是有點氣勢已經輸給人家的感覺。

因為投注了太多成本在GPU以外的地方，光比遊戲繪圖的話，GT300/GF100/Fermi應該還是很容易被RV870修理；所以如果沒搭PhsyX（而且要非常積極地使用）的話應該很難有比較空間。所以在這個時候把PhsyX混用關閉，讓ATI+NVIDIA GPU充當PhsyX的solution不能用（或者說逼ATI面對無PhsyX可用的狀況），感覺其實有點小家子氣w

與繪圖工作同時執行的能力、全速倍精度、ECC支援。

從G80到GT200為止，CUDA相關的問題幾乎都獲得了解決，投注的成本幾乎差不多就是從512bit變成384bit所少掉的那個128bit GDDR5控制器，GT300一如預期與兩顆GT200差不多大，繪圖性能也都保持線性提昇。

但是這樣真的值得嗎？

在〈Fermi正式發表〉中有 7 則留言

不過坦白講，NVIDIA還有其他的選擇嗎？這才是他們現在的困難點。
因為市場板塊移動，其實現在GPU廠商在爭的，很大部份落在「推出系列作第一款旗艦產品後，何時可以出現mobile衍生款，你能不能丟出明確的價格和schedule」，但NVIDIA….呃，有些東西不方便公開講，私下電話再聊好了。

A look at the Nvidia GT300 architecture
這裏面後半段講的GT300讓人直冒冷汗……
GT300的DX11是沒有實作Tesselation硬體線路?
只打算像Laughbee一樣靠軟體實作Tesselation?
這……畢竟DX11的重點就是靠硬體產生大量多邊形阿.
GT300恐怕一跑Tesselation馬上被RV870拋在後頭.
CUDA和PhsyX的使用率真的有可能挑戰DX11的需求率嗎?
怎麼看都覺得Nvidia實在賭的太大了.
也許是TheInquirer搞錯了?
ATI從R600就一直內建用不到的Tesselation unit.
某方面來說RV870其實了無新意,只是把這架構改進到
近乎完美,之前所有技術與新製程都整合最佳化了.
沒有什麼意外的東西,就是單純的高效率dx11繪圖.

> 也許是TheInquirer搞錯了?
我必須要說Charlie Demerjian他老兄真得很看不爽NVIDIA….
DX11的tessellation不用硬體做應該會蠻痛苦的，這回Fermi完全沒有提到繪圖，我們連TMU和ROP幾個，有沒有改進都還不知道，談tessellation unit似乎有點太早，尤其是NVIDIA在GT200其實並不是輸在shader而是輸在ROP吞吐性能的時候….

> 其實現在GPU廠商在爭的，很大部份落在「推出系列作第一款旗艦產品後，何時可以出現mobile衍生款，你能不能丟出明確的價格和schedule」
其實這問題並沒有上頭講的那麼大….因為對ATI和NVIDIA而言，notebook的performance graphic市場還沒打開的同時，這兩邊其實也只有GT215和RV740在對打….
當然明年的衍生可能就像先前講的，Acer整批都倒給ATI去了之類，畢竟RV740->RV840吸引力還是很大的，但是user端來看吸引力到底差多少還真的蠻有疑問？反倒是GT215的TDP只要36w，但是和G92幾乎一樣快這點很有吸引力。

線性提昇 ???
120~130% RV870XT

這次GT300應該算是G8X或G9X的改良，
如記憶體階層、SM的SP由8個變成32個等的改變。
而GT200則算是SM增加的版本(除倍精度外)…?

> 這次GT300應該算是G8X或G9X的改良，
> 如記憶體階層、SM的SP由8個變成32個等的改變。
> 而GT200則算是SM增加的版本(除倍精度外)…?
也不能這麼說啦，因為GT300/GF100/Fermi(亂成一團XD)在shader結構上的改良很細，比方說過去是每個SM有一個倍精度unit，現在是每個SP都有倍精度能力。(GT200是單精度為MAD、倍精度為FMA)
然後GT200每個TPC有3個SM unit、GT300的話比較該說是把每個TPC增加到4個SM之後，把四個SM完全整合在一起，變成一個大SM。
這個SM有幾個重點：
1. GT300的大SM和過去G80時代的TPC可支援實質warp數一樣(GT300共16個SM、總thread數24576，G80的8個TPC總和是12288）、但是每個SM還變成兩個warp schedular，於是每個SM都可以做快速的context switching。而從SM的觀點來看就變成warp數兩倍，並且有切換能力…. 但是TPC觀點來看的話並沒有減少。
2. 和GT200的TPC相比，其實warp schedular（3個SM所以有3個）、支援的warp數量(總thread數量30720）都是減少的。
而如果假設原來是要增加成4個SM的話，那麼剛好就會變成4個warp schedular、4個16KB的share memory，整合過後變成2個warp schedular，16KB/48KB的功能可切換cache & scratch pad memory，這些都可以看出TPC這個階層拔掉之後，來將結構簡化過得結果。
3. 結果就是，換來空間擴充倍精度unit、context switching、每個SM可以選擇維持16KB shared memory但是有48KB cache可用，或者是48KB的scratch pad memory的同時還有16KB cache聊勝於無、結構上還多了個768KB、各個core來share的cache，定址也改成了線性定址，這些都讓GPGPU的用途變得比以前要來得好用，但是卻沒有顯著地增加GT300相對於過去GT200/G80的電晶體規模，512sp、240sp、128sp來比的話，幾乎就只有線性擴充而已。

發佈留言取消回覆

水球表示:

1 10 月, 20094:17 下午

不過坦白講，NVIDIA還有其他的選擇嗎？這才是他們現在的困難點。
因為市場板塊移動，其實現在GPU廠商在爭的，很大部份落在「推出系列作第一款旗艦產品後，何時可以出現mobile衍生款，你能不能丟出明確的價格和schedule」，但NVIDIA….呃，有些東西不方便公開講，私下電話再聊好了。

waffenss表示:

1 10 月, 20096:35 下午

A look at the Nvidia GT300 architecture
這裏面後半段講的GT300讓人直冒冷汗……
GT300的DX11是沒有實作Tesselation硬體線路?
只打算像Laughbee一樣靠軟體實作Tesselation?
這……畢竟DX11的重點就是靠硬體產生大量多邊形阿.
GT300恐怕一跑Tesselation馬上被RV870拋在後頭.
CUDA和PhsyX的使用率真的有可能挑戰DX11的需求率嗎?
怎麼看都覺得Nvidia實在賭的太大了.
也許是TheInquirer搞錯了?
ATI從R600就一直內建用不到的Tesselation unit.
某方面來說RV870其實了無新意,只是把這架構改進到
近乎完美,之前所有技術與新製程都整合最佳化了.
沒有什麼意外的東西,就是單純的高效率dx11繪圖.

Eji表示:

1 10 月, 20098:52 下午

> 也許是TheInquirer搞錯了?
我必須要說Charlie Demerjian他老兄真得很看不爽NVIDIA….
DX11的tessellation不用硬體做應該會蠻痛苦的，這回Fermi完全沒有提到繪圖，我們連TMU和ROP幾個，有沒有改進都還不知道，談tessellation unit似乎有點太早，尤其是NVIDIA在GT200其實並不是輸在shader而是輸在ROP吞吐性能的時候….

Eji表示:

1 10 月, 20099:54 下午

> 其實現在GPU廠商在爭的，很大部份落在「推出系列作第一款旗艦產品後，何時可以出現mobile衍生款，你能不能丟出明確的價格和schedule」
其實這問題並沒有上頭講的那麼大….因為對ATI和NVIDIA而言，notebook的performance graphic市場還沒打開的同時，這兩邊其實也只有GT215和RV740在對打….
當然明年的衍生可能就像先前講的，Acer整批都倒給ATI去了之類，畢竟RV740->RV840吸引力還是很大的，但是user端來看吸引力到底差多少還真的蠻有疑問？反倒是GT215的TDP只要36w，但是和G92幾乎一樣快這點很有吸引力。

Vincentinlaw表示:

2 10 月, 20091:59 上午

線性提昇 ???
120~130% RV870XT

shady表示:

2 10 月, 20099:48 上午

這次GT300應該算是G8X或G9X的改良，
如記憶體階層、SM的SP由8個變成32個等的改變。
而GT200則算是SM增加的版本(除倍精度外)…?

Eji表示:

3 10 月, 20094:41 上午

> 這次GT300應該算是G8X或G9X的改良，
> 如記憶體階層、SM的SP由8個變成32個等的改變。
> 而GT200則算是SM增加的版本(除倍精度外)…?
也不能這麼說啦，因為GT300/GF100/Fermi(亂成一團XD)在shader結構上的改良很細，比方說過去是每個SM有一個倍精度unit，現在是每個SP都有倍精度能力。(GT200是單精度為MAD、倍精度為FMA)
然後GT200每個TPC有3個SM unit、GT300的話比較該說是把每個TPC增加到4個SM之後，把四個SM完全整合在一起，變成一個大SM。
這個SM有幾個重點：
1. GT300的大SM和過去G80時代的TPC可支援實質warp數一樣(GT300共16個SM、總thread數24576，G80的8個TPC總和是12288）、但是每個SM還變成兩個warp schedular，於是每個SM都可以做快速的context switching。而從SM的觀點來看就變成warp數兩倍，並且有切換能力…. 但是TPC觀點來看的話並沒有減少。
2. 和GT200的TPC相比，其實warp schedular（3個SM所以有3個）、支援的warp數量(總thread數量30720）都是減少的。
而如果假設原來是要增加成4個SM的話，那麼剛好就會變成4個warp schedular、4個16KB的share memory，整合過後變成2個warp schedular，16KB/48KB的功能可切換cache & scratch pad memory，這些都可以看出TPC這個階層拔掉之後，來將結構簡化過得結果。
3. 結果就是，換來空間擴充倍精度unit、context switching、每個SM可以選擇維持16KB shared memory但是有48KB cache可用，或者是48KB的scratch pad memory的同時還有16KB cache聊勝於無、結構上還多了個768KB、各個core來share的cache，定址也改成了線性定址，這些都讓GPGPU的用途變得比以前要來得好用，但是卻沒有顯著地增加GT300相對於過去GT200/G80的電晶體規模，512sp、240sp、128sp來比的話，幾乎就只有線性擴充而已。

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

在〈Fermi正式發表〉中有 7 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆