Cayman和Fermi,手牽手走向multicore。

 

http://pc.watch.impress.co.jp/docs/column/kaigai/20101129_409553.html
AMD「Cayman」はなぜマルチコア+VLIW 4になるのか

「AMDは、かつてリングバスを内部バスに採用して失敗した。NVIDIAは、テクスチャフェッチのバスだけを分離することで、GF100に合理的に双方向バスを実装した。」

其實這邊的Tex單向、Shader雙向crossbar,AMD在RV670(Radeon HD3870)的時候就實作了。只是NVIDIA的實作要複雜得多:

1. GPC內先將shader與Texture分離成兩組crossbar
頻寬使用較大的TEX為單向、cache/shader由於有讀有寫故為雙向。
這樣的話可以將一個大的雙向bus做某個程度的削減。

 

2. ROP/L2 cache與GPC之間的另一個crossbar。
這邊可以看得出來,GF100/GF110在此變成雙層crossbar,4個GPC與6個ROP
其實這和G80/GT200的ROP–TPC這段意義差不多,只是triangle setup等固定管線的部分也以GPC為單位拆成幾分、透過多付出一點overhead,讓vertex輸出得以scaleable。
不過這一段應該就還是維持單一crossbar?

根據黃仁勳在GTX480產品推出後的interview指出,GF100基本上問題還是在crossbar。不過和過去相比GF100已經試圖更進一步簡化crossbar (從8quad ROPs x10TPC x3SM -> 6quad ROPs x4GPC x4SM)還是遇到問題,到底該說規模真的太大,還是….?

反過來說,如果TEX之後以GPC為單位固定住、只擴充SM內部的指令發射和平行度的話應該也是有空間,畢竟只要warp排程維持住就不必更動些什麼。
當然這些AMD狀況也都一樣,只是HD5870的時候還是同一個setup、HD6870才再把setup部分給切成兩個區塊;切開setup這點牽涉甚廣,在HD5870的時候可能時程風險太大了。

—-
相對之下VLIW4就只是單元利用率的問題,單純一些;同時倍精度從1/5變成1/4。

 

在〈Cayman和Fermi,手牽手走向multicore。〉中有 15 則留言

  1. HD6970和GTX580好像相差不遠,
    只要HD6970預設的時脈能高點,
    高到HD6970的耗電量與GTX580相當,
    應該就可以超過GTX580…,
    但以上是用4Gamer的測試來判斷的,
    反觀其他網站的測試則是HD6970與GTX570是伯仲間,
    這到底是…?

  2. HD6970與GTX570是伯仲間
    看來AMD仍然是不追求頂級晶片的策略.
    6970定位在GTX570等級,就像以前5870緊盯GTX470.
    雖然Die差距變小了,不過389mm2 VS 520mm2
    仍是過去幾年的小晶片PK大晶片的路數.
    照目前狀況看6870CF就已經能小欺負GTX580.
    實測耗電量6950和5870差不多.
    http://media.bestofmicro.com/…tion%20Logging.png
    所以6990應該就是6950X2
    而570耗電量還高出一截,從耗電量
    大概可以斷定這一代NV仍是生不出GTX570雙核單卡.
    頂多是560雙核或是565雙核之類不出也罷的…..
    5970的後繼=CaymanX2上市後應該可以輕鬆踩過GTX580.
    用兩顆6950的話,至少有20-30%的領先.
    打算出6990應該是AMD刻意不追求6970效能的原因.
    從實測580可以比5870/6950多出100多瓦.
    實在很好奇那244W的TDP標示和實際差了多少….
    似乎已經衝破6+8Pin的正常上限.

  3. >>雖然Die差距變小了,不過389mm2 VS 520mm2
    >>仍是過去幾年的小晶片PK大晶片的路數.
    如waffenss兄所說的,
    Die的差距變小,
    但AMD也太堅持”小晶片PK大晶片”了。
    說實在的,
    HD6970不管是用Die加大的方式讓ALU再多點,
    又或者是時脈再拉高點,
    應該都還能以”小晶片PK大晶片”或”低耗電PK高耗電”,
    這二種方式還是綽綽有餘或甚至小贏吧?
    反正都用到6+8Pin了,
    居然還在乎這麼多…。
    而且如果真的有560或565的雙晶片單卡出來,
    然後GTX580大降價就又是另一局面了。

  4. 又是兩顆打一顆_A_
    而且七成大小的話良率平方反比等於兩倍、可以切的數量又比較多….
    當然問題又回到繪圖以外就是了。

  5. http://www.semiaccurate.com/…s-northern-islands/
    SE說其實Cayman是原本設計要用32nm.
    大概250mm的Die.
    TSMC取消32nm後,AMD改用40nm做,才變成389mm.
    也就是說AMD不但堅持小核心,還打算倒退回4870的尺寸.
    比現在的Cayman更小更省電.
    類似4870 vs GTX280那樣.
    小晶片不怕良率低,能衝良率差的新製程.
    NV要等新制程良率拉高才有辦法跟上.
    這就給AMD至少半年以上的製程優勢.
    不過小晶片策略也救了Cayman的量產計劃.
    如果Cayman原本就是380mm等級的,
    改40nm會變成550mm2的東西.可能沒法量產而取消.
    那現在就只能用2個6870打GF110….
    由於小晶片,現在用舊製程量產變成389mm也還可以接受.
    所以Cayman可以如預期生產,只是比較大比較耗電….
    這樣講的話,NV原本應該也有32nm的新東西(GF200?),
    目前只能擺著.因為40nm不能上,28nm又還有1年….
    能上的只有再次tape out的fermi,就是GF110.
    不過我想GF200晚一年上,設計的成熟度會更好.
    又可以用更好的28nm,
    也許有辦法做出很大幅度的規格進化吧.

  6. 小弟覺得GF110用來當以後的G92,
    好像蠻不錯的,
    如此歷經9800GTX、9800GTX+、GTS250…XD
    不過現階段或明年應該還是GF104來佔中階位置了。
    最近的討論好像不大熱絡…,
    看樣子是HD6970太不讓人驚訝所致XD

  7. GF110的TEX太少,其實繪圖上不太平衡,應該當不了G92.
    NV想要的GF110應該是GF104那種SP/TEX比例.
    只是GF110在40nm不能大改,只能先將就GF100的規格.
    NV弄個高時脈/不關SM的GF104(GF114)
    可能比較有競爭力.
    小核心好散熱,加點電壓其實比較容易拉高時脈,
    若Shader clock能跑到GTS250那種1836Mhz的程度.
    就等同多了10-20%的sp數,再加上TEX是GF110多一倍.
    追上GTX570/6970的性能並不難,
    但是Die Size卻比GF110/6970都小一點.

  8. >>GF110的TEX太少,其實繪圖上不太平衡,應該當不了G92.
    >>NV想要的GF110應該是GF104那種SP/TEX比例.
    >>只是GF110在40nm不能大改,只能先將就GF100的規格.
    所以GF110應該在未來有較新的製程時,
    先增加其TEX才能當G92那樣的情形使用囉?
    看樣子,
    GF104先上,
    之後換128TEX的GF110再上好像也是可以的?

  9. > 所以GF110應該在未來有較新的製程時,
    > 先增加其TEX才能當G92那樣的情形使用囉?
    可是這樣不如就用GF104那個shader為基礎double了吧….w
    GF110的半導體實作細部修正不少地方,不過邏輯面是和GF100差不多的。
    那麼為什麼要用GF100這個結構繼續做大晶片而不是擴充,那就要算到風險管理的頭上了。
    反之,Cayman本來32nm更小所以可以用新設計勉強硬吃這點也是同樣的風險管理。
    和這些重大決定比起來,相較之下VLIW4之類就是比較微不足道的變動。
    NVIDIA的flagship級已經大半都賭在Tesla上頭了,對大晶片的效率比較好這個理念一直都沒有動搖。
    不過拿GF104作Tesla真的會吃虧嗎?
    同時,GF200到底改多少地方的確很讓人好奇。
    32nm底下還是維持500mm^2級的話,45nm是真的做不出來了。

  10. >>可是這樣不如就用GF104那個shader為基礎double了吧….w
    如果下世代是用32nm的話,
    這double GF104應該是單核單卡的旗艦卡了吧?
    然後次旗艦卡應該還是GF110的規模,
    再下去就又是GF104的天下了?

  11. 說起來GF104不是被預期會變成下一個G92嗎….
    持續改良+用個兩三年跑不掉吧XD
    和底下的Echofon比起來的話:
    http://www.nvidia.com/…10/theater/Dally_SC10.pdf
    1024 SP、4 DP/cycle、5GHz shader clock、256MB L2 SRAM、2014 prototype,
    說真的NVIDIA都在講記憶體reuse,論規模和理論性能比來說一點都不高….
    不過這商機真不小就是了:
    GTC 2010看到davinci surgery的動態補正,在還愛在跳動的心臟上動瓣膜修復手術,感覺真的有那個價值。

  12. >>和底下的Echofon比起來的話:
    Eji大,
    這東東有實體了嗎?
    1024 SP先不說,
    光256MB L2 SRAM和5GHz shader clock,
    應該還不是22nm可以解決的。

  13. 我很好奇
    GF100跟GF110幾乎相同
    那如果把GTX580的GF110 375 A1
    焊上GTX480卡上配原480的BIOS
    可以運作嗎??

  14. 邏輯設計一樣,但是晶片有re-spin的話性能和良率都不一樣。
    所以這種事情和「開管」差不多,看運氣的。
    何況AMD比較作興這種方式,NVIDIA的話防得應該蠻緊的,PCB落差也不小….

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料