Fermi 的進一步規格 | Eji的碎碎念

http://pc.watch.impress.co.jp/docs/news/20091116_329409.html

NVIDIA、Fermiアーキテクチャ採用のHPC向けGPU「Tesla 20」

http://www.4gamer.net/games/099/G009929/20091116014/

NVIDIA，Fermiベースの新世代「Tesla」を正式発表。2010年第2四半期に市場投入へ

Tesla 20-Seriesは，容量3GBのECC対応GDDR5メモリを搭載し，520～630GFLOPSの倍精度浮動小数点演算性能を実現する「Tesla C2050」と，メモリを6GB搭載した上位モデル「Tesla C2070」で構成され，順に2010年第2四半期，同第3四半期に市場投入されることが明らかになっている。

　Tesla C20x0の接続インタフェースはPCI Express 2.0 x16。消費電力は最大225W（※典型的な用途では190W前後）とのこと。データセンター向けの1Uシステムとして，Tesla C2050を4枚搭載した「Tesla S2050」と，Tesla C2070を4枚搭載した「Tesla S2070」も，各カードの販売開始と同じタイミングで市場投入される予定だ。

以Tesla-20系列具備520~630GFLOPS的DP來看，基本上大概是1.2GHz x 512sp的得到的結果。

反過來說帳面上的SP性能大概在1.2T前後，這樣看起來Fermi沒有MUL co-issue、純粹就是2flops的FMA（+SFU）的樣子。

當然實際上G80~GT200這方面效率都不明顯的關係，性能面應該不會有什麼衰退，只是帳面數字就差更多了。或者說其實以前這部份都是澎風….w

不過這樣耗電量之類的東西也差不多出來了。單晶片下的Fermi耗電量應該在225w前後、遊戲版搭載1.5GB的GDDR5大不了時脈提高到1.5GHz已經算很不錯，提高的耗電量和DRAM容量減少的部份可能還打不平。TMU應該跑不掉是128個、然後ROP如果拜GDDR5頻寬提高可以double的話可能可以變成48組、記憶體控制器可能還是6個set x 64bit，吞吐部份大概差不多1.5倍、說起來贏5870贏一些就很不錯了吧。

當然HPC市場可說持續沒有對手，除了先前AMD在大陸硬是凹出來的一組之外。

發表會上也總是在講TOP500的那些機器如果全換成GPU的話性能會改善多少….w

Fermi預計明年Q2，所以遊戲版會一樣delay到那個時候呢，還是為了遊戲先出才把Fermi延到那個時候？

這邊就是想像力的範圍了。

在〈Fermi 的進一步規格〉中有 6 則留言

>>反過來說帳面上的SP性能大概在1.2T前後
這數字哪來的?
額外的MUL可能只有單精度模式才有?
所以跑DP是1.2GHz x 512sp.
如果是SP模式就可能多出一道MUL的運算能力.
這樣數字就合理多了.

根據先前發表的資料，Fermi是FMA+Int的關係，可能真的沒有+MUL了。

如果是這樣,帳面上看來.
這一代和AT的單精度差距變更大了.
上一代單精度約是1T vs 1.2T ,
這一代單精度變成1.2~1.5T vs 2.7T,
只差距2成還可靠SP效率稍微彌補,但是差距太大就….
如果SP時脈真的拉不上去,恐怕不妙.
(Fermi增加的能力幾乎都是在繪圖用不上的雙精度能力)
如果想看Fixed Function單位來拉高性能.
GT200b的TEX和ROP都是RV770的2倍數量.
Fermi的TEX和ROP只是RV870的1.5倍.
考慮到時脈有差距,Fermi恐怕這方面只能小勝.
Fixed Function單位的相對優勢反而變小.
這樣的Geforce會比之前的GT200b更有競爭力嗎?
實在很另人擔心.
唯一相對優勢變大的部份是頻寬, 不過由於TEX和ROP
數量優勢比之前小,大概得靠高AA來彰顯頻寬優勢.

從先前的G80/GT200的co-issue機率其實很低這點來看，抽掉這個MUL到底會有多少差異是蠻感興趣的，某種意味上「過去其實也沒幫上忙」，那麼就不只是這一代的差異，而是「以前以來這個差距就存在了」。
GT200b的Tex和ROP雖然都是RV770的兩倍數量，但是頻寬基本上差距小很多(150GB/s vs 115GB/s)，實效有其限制（除了AF在cache作用之外AA跑不出兩倍）；但是這次記憶體頻寬和Tex都有1.5倍倍(話說考慮頻寬增加，我覺得Fermi的ROP應該會是48？雖然GT21x的ROP沒跟著GDDR5變….)，所以實效上的強弱個人有點保留。

G80/G92因為資源不足,幾乎是沒辦法dual-issue.
但是到GT200已沒問題.
…..當然由於dual-issue只能做乘法,發放率
不會像正常的SP,實際好處沒有峰值效能看來這麼多.
不過GT300效能多少還是會有點影響.
不過我也覺得與其做不太好用的Mini-ALU.
到不如全拿掉做更多汎用SP.
dual-issue不完整的G92反而單精度運算能力
是NV架構中最有效率的.

嚴格說來，Fermi已經算是「拿掉mini-ALU來放更多SP」了，
只是放的數量一來和預期一樣(512sp)所以大家沒感覺，
二來是他們花了更多心思去作L2 cache hierarchy、
ECC還有full-speed DP….
和GT200不太一樣的是，
這回Full-speed DP unit看來嵌在SP結構裡面相當深的關係，
中階版能不能拿掉DP可能會是個疑問、
L2 cache也是對CUDA有著非常大影響的部分，
所以也不能亂拿掉只能大舉減少容量
(比方說砍半版卻一口氣減到128KB之類)，
拿掉沒有影響的可能只有ECC也說不定….
—-
話說這回Fermi據稱PCB和GT200相容，
因為不出公版的關係完全靠pcb廠各顯神通，
die size也與GT200b相去不遠，
至少在這方面盡可能減少一點麻煩。
不過基本上大家還是看到8+6pin，而且版長還是變得超長_A_

發佈留言取消回覆

waffenss表示:

18 11 月, 200911:27 上午

>>反過來說帳面上的SP性能大概在1.2T前後
這數字哪來的?
額外的MUL可能只有單精度模式才有?
所以跑DP是1.2GHz x 512sp.
如果是SP模式就可能多出一道MUL的運算能力.
這樣數字就合理多了.

Eji表示:

18 11 月, 20098:25 下午

根據先前發表的資料，Fermi是FMA+Int的關係，可能真的沒有+MUL了。

waffenss表示:

19 11 月, 20099:58 上午

如果是這樣,帳面上看來.
這一代和AT的單精度差距變更大了.
上一代單精度約是1T vs 1.2T ,
這一代單精度變成1.2~1.5T vs 2.7T,
只差距2成還可靠SP效率稍微彌補,但是差距太大就….
如果SP時脈真的拉不上去,恐怕不妙.
(Fermi增加的能力幾乎都是在繪圖用不上的雙精度能力)
如果想看Fixed Function單位來拉高性能.
GT200b的TEX和ROP都是RV770的2倍數量.
Fermi的TEX和ROP只是RV870的1.5倍.
考慮到時脈有差距,Fermi恐怕這方面只能小勝.
Fixed Function單位的相對優勢反而變小.
這樣的Geforce會比之前的GT200b更有競爭力嗎?
實在很另人擔心.
唯一相對優勢變大的部份是頻寬, 不過由於TEX和ROP
數量優勢比之前小,大概得靠高AA來彰顯頻寬優勢.

Eji表示:

19 11 月, 20094:21 下午

從先前的G80/GT200的co-issue機率其實很低這點來看，抽掉這個MUL到底會有多少差異是蠻感興趣的，某種意味上「過去其實也沒幫上忙」，那麼就不只是這一代的差異，而是「以前以來這個差距就存在了」。
GT200b的Tex和ROP雖然都是RV770的兩倍數量，但是頻寬基本上差距小很多(150GB/s vs 115GB/s)，實效有其限制（除了AF在cache作用之外AA跑不出兩倍）；但是這次記憶體頻寬和Tex都有1.5倍倍(話說考慮頻寬增加，我覺得Fermi的ROP應該會是48？雖然GT21x的ROP沒跟著GDDR5變….)，所以實效上的強弱個人有點保留。

waffenss表示:

20 11 月, 20099:28 上午

G80/G92因為資源不足,幾乎是沒辦法dual-issue.
但是到GT200已沒問題.
…..當然由於dual-issue只能做乘法,發放率
不會像正常的SP,實際好處沒有峰值效能看來這麼多.
不過GT300效能多少還是會有點影響.
不過我也覺得與其做不太好用的Mini-ALU.
到不如全拿掉做更多汎用SP.
dual-issue不完整的G92反而單精度運算能力
是NV架構中最有效率的.

Eji表示:

21 11 月, 20097:55 上午

嚴格說來，Fermi已經算是「拿掉mini-ALU來放更多SP」了，
只是放的數量一來和預期一樣(512sp)所以大家沒感覺，
二來是他們花了更多心思去作L2 cache hierarchy、
ECC還有full-speed DP….
和GT200不太一樣的是，
這回Full-speed DP unit看來嵌在SP結構裡面相當深的關係，
中階版能不能拿掉DP可能會是個疑問、
L2 cache也是對CUDA有著非常大影響的部分，
所以也不能亂拿掉只能大舉減少容量
(比方說砍半版卻一口氣減到128KB之類)，
拿掉沒有影響的可能只有ECC也說不定….
—-
話說這回Fermi據稱PCB和GT200相容，
因為不出公版的關係完全靠pcb廠各顯神通，
die size也與GT200b相去不遠，
至少在這方面盡可能減少一點麻煩。
不過基本上大家還是看到8+6pin，而且版長還是變得超長_A_

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

在〈Fermi 的進一步規格〉中有 6 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆