Fermi 的進一步規格

http://pc.watch.impress.co.jp/docs/news/20091116_329409.html

NVIDIA、Fermiアーキテクチャ採用のHPC向けGPU「Tesla 20」

http://www.4gamer.net/games/099/G009929/20091116014/

NVIDIA,Fermiベースの新世代「Tesla」を正式発表。2010年第2四半期に市場投入へ

Tesla 20-Seriesは,容量3GBのECC対応GDDR5メモリを搭載し,520~630GFLOPSの倍精度浮動小数点演算性能を実現する「Tesla C2050」と,メモリを6GB搭載した上位モデル「Tesla C2070」で構成され,順に2010年第2四半期,同第3四半期に市場投入されることが明らかになっている。

 Tesla C20x0の接続インタフェースはPCI Express 2.0 x16。消費電力は最大225W(※典型的な用途では190W前後)とのこと。データセンター向けの1Uシステムとして,Tesla C2050を4枚搭載した「Tesla S2050」と,Tesla C2070を4枚搭載した「Tesla S2070」も,各カードの販売開始と同じタイミングで市場投入される予定だ。

以Tesla-20系列具備520~630GFLOPS的DP來看,基本上大概是1.2GHz x 512sp的得到的結果。

反過來說帳面上的SP性能大概在1.2T前後,這樣看起來Fermi沒有MUL co-issue、純粹就是2flops的FMA(+SFU)的樣子。

當然實際上G80~GT200這方面效率都不明顯的關係,性能面應該不會有什麼衰退,只是帳面數字就差更多了。或者說其實以前這部份都是澎風….w

不過這樣耗電量之類的東西也差不多出來了。單晶片下的Fermi耗電量應該在225w前後、遊戲版搭載1.5GB的GDDR5大不了時脈提高到1.5GHz已經算很不錯,提高的耗電量和DRAM容量減少的部份可能還打不平。TMU應該跑不掉是128個、然後ROP如果拜GDDR5頻寬提高可以double的話可能可以變成48組、記憶體控制器可能還是6個set x 64bit,吞吐部份大概差不多1.5倍、說起來贏5870贏一些就很不錯了吧。

當然HPC市場可說持續沒有對手,除了先前AMD在大陸硬是凹出來的一組之外。

發表會上也總是在講TOP500的那些機器如果全換成GPU的話性能會改善多少….w

Fermi預計明年Q2,所以遊戲版會一樣delay到那個時候呢,還是為了遊戲先出才把Fermi延到那個時候?

這邊就是想像力的範圍了。

在〈Fermi 的進一步規格〉中有 6 則留言

  1. >>反過來說帳面上的SP性能大概在1.2T前後
    這數字哪來的?
    額外的MUL可能只有單精度模式才有?
    所以跑DP是1.2GHz x 512sp.
    如果是SP模式就可能多出一道MUL的運算能力.
    這樣數字就合理多了.

  2. 如果是這樣,帳面上看來.
    這一代和AT的單精度差距變更大了.
    上一代單精度約是1T vs 1.2T ,
    這一代單精度變成1.2~1.5T vs 2.7T,
    只差距2成還可靠SP效率稍微彌補,但是差距太大就….
    如果SP時脈真的拉不上去,恐怕不妙.
    (Fermi增加的能力幾乎都是在繪圖用不上的雙精度能力)
    如果想看Fixed Function單位來拉高性能.
    GT200b的TEX和ROP都是RV770的2倍數量.
    Fermi的TEX和ROP只是RV870的1.5倍.
    考慮到時脈有差距,Fermi恐怕這方面只能小勝.
    Fixed Function單位的相對優勢反而變小.
    這樣的Geforce會比之前的GT200b更有競爭力嗎?
    實在很另人擔心.
    唯一相對優勢變大的部份是頻寬, 不過由於TEX和ROP
    數量優勢比之前小,大概得靠高AA來彰顯頻寬優勢.

  3. 從先前的G80/GT200的co-issue機率其實很低這點來看,抽掉這個MUL到底會有多少差異是蠻感興趣的,某種意味上「過去其實也沒幫上忙」,那麼就不只是這一代的差異,而是「以前以來這個差距就存在了」。
    GT200b的Tex和ROP雖然都是RV770的兩倍數量,但是頻寬基本上差距小很多(150GB/s vs 115GB/s),實效有其限制(除了AF在cache作用之外AA跑不出兩倍);但是這次記憶體頻寬和Tex都有1.5倍倍(話說考慮頻寬增加,我覺得Fermi的ROP應該會是48?雖然GT21x的ROP沒跟著GDDR5變….),所以實效上的強弱個人有點保留。

  4. G80/G92因為資源不足,幾乎是沒辦法dual-issue.
    但是到GT200已沒問題.
    …..當然由於dual-issue只能做乘法,發放率
    不會像正常的SP,實際好處沒有峰值效能看來這麼多.
    不過GT300效能多少還是會有點影響.
    不過我也覺得與其做不太好用的Mini-ALU.
    到不如全拿掉做更多汎用SP.
    dual-issue不完整的G92反而單精度運算能力
    是NV架構中最有效率的.

  5. 嚴格說來,Fermi已經算是「拿掉mini-ALU來放更多SP」了,
    只是放的數量一來和預期一樣(512sp)所以大家沒感覺,
    二來是他們花了更多心思去作L2 cache hierarchy、
    ECC還有full-speed DP….
    和GT200不太一樣的是,
    這回Full-speed DP unit看來嵌在SP結構裡面相當深的關係,
    中階版能不能拿掉DP可能會是個疑問、
    L2 cache也是對CUDA有著非常大影響的部分,
    所以也不能亂拿掉只能大舉減少容量
    (比方說砍半版卻一口氣減到128KB之類),
    拿掉沒有影響的可能只有ECC也說不定….
    —-
    話說這回Fermi據稱PCB和GT200相容,
    因為不出公版的關係完全靠pcb廠各顯神通,
    die size也與GT200b相去不遠,
    至少在這方面盡可能減少一點麻煩。
    不過基本上大家還是看到8+6pin,而且版長還是變得超長_A_

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料