Cayman和Fermi，手牽手走向multicore。

1 12 月, 2010 Eji 15 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20101129_409553.html
AMD「Cayman」はなぜマルチコア+VLIW 4になるのか

「AMDは、かつてリングバスを内部バスに採用して失敗した。NVIDIAは、テクスチャフェッチのバスだけを分離することで、GF100に合理的に双方向バスを実装した。」

其實這邊的Tex單向、Shader雙向crossbar，AMD在RV670(Radeon HD3870)的時候就實作了。只是NVIDIA的實作要複雜得多：

1. GPC內先將shader與Texture分離成兩組crossbar
頻寬使用較大的TEX為單向、cache/shader由於有讀有寫故為雙向。
這樣的話可以將一個大的雙向bus做某個程度的削減。

2. ROP/L2 cache與GPC之間的另一個crossbar。
這邊可以看得出來，GF100/GF110在此變成雙層crossbar，4個GPC與6個ROP 。
其實這和G80/GT200的ROP–TPC這段意義差不多，只是triangle setup等固定管線的部分也以GPC為單位拆成幾分、透過多付出一點overhead，讓vertex輸出得以scaleable。
不過這一段應該就還是維持單一crossbar？

根據黃仁勳在GTX480產品推出後的interview指出，GF100基本上問題還是在crossbar。不過和過去相比GF100已經試圖更進一步簡化crossbar (從8quad ROPs x10TPC x3SM -> 6quad ROPs x4GPC x4SM)還是遇到問題，到底該說規模真的太大，還是….？

反過來說，如果TEX之後以GPC為單位固定住、只擴充SM內部的指令發射和平行度的話應該也是有空間，畢竟只要warp排程維持住就不必更動些什麼。
當然這些AMD狀況也都一樣，只是HD5870的時候還是同一個setup、HD6870才再把setup部分給切成兩個區塊；切開setup這點牽涉甚廣，在HD5870的時候可能時程風險太大了。

—-
相對之下VLIW4就只是單元利用率的問題，單純一些；同時倍精度從1/5變成1/4。

在〈Cayman和Fermi，手牽手走向multicore。〉中有 15 則留言

shady表示:

16 12 月, 201010:02 上午

HD6970和GTX580好像相差不遠，
只要HD6970預設的時脈能高點，
高到HD6970的耗電量與GTX580相當，
應該就可以超過GTX580…，
但以上是用4Gamer的測試來判斷的，
反觀其他網站的測試則是HD6970與GTX570是伯仲間，
這到底是…？

Reply
waffenss表示:

16 12 月, 20107:06 下午

HD6970與GTX570是伯仲間
看來AMD仍然是不追求頂級晶片的策略.
6970定位在GTX570等級,就像以前5870緊盯GTX470.
雖然Die差距變小了,不過389mm2 VS 520mm2
仍是過去幾年的小晶片PK大晶片的路數.
照目前狀況看6870CF就已經能小欺負GTX580.
實測耗電量6950和5870差不多.
http://media.bestofmicro.com/…tion%20Logging.png
所以6990應該就是6950X2
而570耗電量還高出一截,從耗電量
大概可以斷定這一代NV仍是生不出GTX570雙核單卡.
頂多是560雙核或是565雙核之類不出也罷的…..
5970的後繼=CaymanX2上市後應該可以輕鬆踩過GTX580.
用兩顆6950的話,至少有20-30%的領先.
打算出6990應該是AMD刻意不追求6970效能的原因.
從實測580可以比5870/6950多出100多瓦.
實在很好奇那244W的TDP標示和實際差了多少….
似乎已經衝破6+8Pin的正常上限.

Reply
shady表示:

18 12 月, 20109:32 上午

>>雖然Die差距變小了,不過389mm2 VS 520mm2
>>仍是過去幾年的小晶片PK大晶片的路數.
如waffenss兄所說的，
Die的差距變小，
但AMD也太堅持”小晶片PK大晶片”了。
說實在的，
HD6970不管是用Die加大的方式讓ALU再多點，
又或者是時脈再拉高點，
應該都還能以”小晶片PK大晶片”或”低耗電PK高耗電”，
這二種方式還是綽綽有餘或甚至小贏吧？
反正都用到6+8Pin了，
居然還在乎這麼多…。
而且如果真的有560或565的雙晶片單卡出來，
然後GTX580大降價就又是另一局面了。

Reply
Eji表示:

18 12 月, 201012:56 下午

又是兩顆打一顆_A_
而且七成大小的話良率平方反比等於兩倍、可以切的數量又比較多….
當然問題又回到繪圖以外就是了。

Reply
waffenss表示:

22 12 月, 20104:00 下午

 http://www.semiaccurate.com/…s-northern-islands/
SE說其實Cayman是原本設計要用32nm.
大概250mm的Die.
TSMC取消32nm後,AMD改用40nm做,才變成389mm.
也就是說AMD不但堅持小核心,還打算倒退回4870的尺寸.
比現在的Cayman更小更省電.
類似4870 vs GTX280那樣.
小晶片不怕良率低,能衝良率差的新製程.
NV要等新制程良率拉高才有辦法跟上.
這就給AMD至少半年以上的製程優勢.
不過小晶片策略也救了Cayman的量產計劃.
如果Cayman原本就是380mm等級的,
改40nm會變成550mm2的東西.可能沒法量產而取消.
那現在就只能用2個6870打GF110….
由於小晶片,現在用舊製程量產變成389mm也還可以接受.
所以Cayman可以如預期生產,只是比較大比較耗電….
這樣講的話,NV原本應該也有32nm的新東西(GF200?),
目前只能擺著.因為40nm不能上,28nm又還有1年….
能上的只有再次tape out的fermi,就是GF110.
不過我想GF200晚一年上,設計的成熟度會更好.
又可以用更好的28nm,
也許有辦法做出很大幅度的規格進化吧.

Reply
shady表示:

24 12 月, 201010:05 上午

小弟覺得GF110用來當以後的G92，
好像蠻不錯的，
如此歷經9800GTX、9800GTX+、GTS250…XD
不過現階段或明年應該還是GF104來佔中階位置了。
最近的討論好像不大熱絡…，
看樣子是HD6970太不讓人驚訝所致XD

Reply
waffenss表示:

24 12 月, 201010:46 上午

GF110的TEX太少,其實繪圖上不太平衡,應該當不了G92.
NV想要的GF110應該是GF104那種SP/TEX比例.
只是GF110在40nm不能大改,只能先將就GF100的規格.
NV弄個高時脈/不關SM的GF104(GF114)
可能比較有競爭力.
小核心好散熱,加點電壓其實比較容易拉高時脈,
若Shader clock能跑到GTS250那種1836Mhz的程度.
就等同多了10-20%的sp數,再加上TEX是GF110多一倍.
追上GTX570/6970的性能並不難,
但是Die Size卻比GF110/6970都小一點.

Reply
shady表示:

24 12 月, 201011:00 上午

>>GF110的TEX太少,其實繪圖上不太平衡,應該當不了G92.
>>NV想要的GF110應該是GF104那種SP/TEX比例.
>>只是GF110在40nm不能大改,只能先將就GF100的規格.
所以GF110應該在未來有較新的製程時，
先增加其TEX才能當G92那樣的情形使用囉？
看樣子，
GF104先上，
之後換128TEX的GF110再上好像也是可以的？

Reply
Eji表示:

24 12 月, 20108:06 下午

> 所以GF110應該在未來有較新的製程時，
> 先增加其TEX才能當G92那樣的情形使用囉？
可是這樣不如就用GF104那個shader為基礎double了吧….w
GF110的半導體實作細部修正不少地方，不過邏輯面是和GF100差不多的。
那麼為什麼要用GF100這個結構繼續做大晶片而不是擴充，那就要算到風險管理的頭上了。
反之，Cayman本來32nm更小所以可以用新設計勉強硬吃這點也是同樣的風險管理。
和這些重大決定比起來，相較之下VLIW4之類就是比較微不足道的變動。
NVIDIA的flagship級已經大半都賭在Tesla上頭了，對大晶片的效率比較好這個理念一直都沒有動搖。
不過拿GF104作Tesla真的會吃虧嗎？
同時，GF200到底改多少地方的確很讓人好奇。
32nm底下還是維持500mm^2級的話，45nm是真的做不出來了。

Reply
shady表示:

25 12 月, 20103:25 下午

>>可是這樣不如就用GF104那個shader為基礎double了吧….w
如果下世代是用32nm的話，
這double GF104應該是單核單卡的旗艦卡了吧？
然後次旗艦卡應該還是GF110的規模，
再下去就又是GF104的天下了？

Reply
Eji表示:

26 12 月, 20104:00 下午

說起來GF104不是被預期會變成下一個G92嗎….
持續改良+用個兩三年跑不掉吧XD
和底下的Echofon比起來的話：
http://www.nvidia.com/…10/theater/Dally_SC10.pdf
1024 SP、4 DP/cycle、5GHz shader clock、256MB L2 SRAM、2014 prototype，
說真的NVIDIA都在講記憶體reuse，論規模和理論性能比來說一點都不高….
不過這商機真不小就是了：
GTC 2010看到davinci surgery的動態補正，在還愛在跳動的心臟上動瓣膜修復手術，感覺真的有那個價值。

Reply
shady表示:

26 12 月, 20108:14 下午

>>和底下的Echofon比起來的話：
Eji大，
這東東有實體了嗎？
1024 SP先不說，
光256MB L2 SRAM和5GHz shader clock，
應該還不是22nm可以解決的。

Reply
dgdxgdg表示:

9 1 月, 201111:51 下午

我很好奇
GF100跟GF110幾乎相同
那如果把GTX580的GF110 375 A1
焊上GTX480卡上配原480的BIOS
可以運作嗎??

Reply
Eji表示:

12 1 月, 201112:05 下午

邏輯設計一樣，但是晶片有re-spin的話性能和良率都不一樣。
所以這種事情和「開管」差不多，看運氣的。
何況AMD比較作興這種方式，NVIDIA的話防得應該蠻緊的，PCB落差也不小….

Reply
dgdxgdg表示:

13 1 月, 201112:10 上午

疑?這麼說那580核心裝上480+480的BIOS不就應該是減管+降頻?

Reply