RV770，最佳狀況有RV670兩倍快

4 3 月, 2008 Eji 16 則留言

http://www.fudzilla.com/index.php?option=com_content&task=view&id=6004&Itemid=34
RV770 to be twice as fast as RV670 claim
Best case scenario

9600GT所有資源兩倍(shader、TMU、ROP、記憶體容量)，效能也沒兩倍。
看來RV770要整整兩倍大了？

不過聽說好像只大了25%….看來又是只增加ALU的魔法…. _A_
上次那篇真的是假新聞嗎？XD
好，畢竟這是FUDzilla….

—-
http://pc.watch.impress.co.jp/docs/2008/0305/amd.htm
AMD、DirectX 10対応ビデオ内蔵チップセット「AMD 780」

AMD780發表，Hybrid Graphic看起來很誘人；不過聽說只有Vista能用。

—-
http://we.pcinlife.com/thread-896580-1-1.html
9800GTX PCB清晰照片

品相頗佳XD

在〈RV770，最佳狀況有RV670兩倍快〉中有 16 則留言

ALLEN表示:

5 3 月, 20085:45 下午

其實是所有資源（shader、TMU、ROP）翻倍又多一些些，這是確定消息（680SP.720SP？？）
記憶體大小不知道，但是是真的要裝GDDR5..
ATI的人宣稱面積大小在250mm*mm，我預估有可能到280mm*mm
TDP與3870相同，5月上市
這次的改進比較接近於R520->R580那種資源堆砌
G92不是就已經是頻寬不足的狀況了嘛＝＝

Reply
stareric表示:

5 3 月, 20086:36 下午

那麼長是Quadro版本吧（like 2900xt）
後面一堆鋁殼NCC電容讓偶想起本人AGP最後一張卡
耕宇Geforce4 ti4600
經典啊XD~
謎之音：怎麼最近沒聽到假如PS3用g94就會怎樣…
size很接近啊XD

Reply
Eji表示:

5 3 月, 20087:36 下午

> 其實是所有資源（shader、TMU、ROP）翻倍又多一些些，這是確定消息（680SP.720SP？？）
ultra threading 看來是不會變了，thread資源還是不變。
那就是shader加越多分支性能就是反比，學R580的話就是衝3倍ALU，總共960Sp or 192shader(x5D)，誰要算現在的分支性能嗎？
實話是連ATI自己的人親口講”確定”都還是要打折扣，我想在場沒有人比David Wang還有份量，但是事實上….orz
> 記憶體大小不知道，但是是真的要裝GDDR5..
裝GDDR5又如何？(轉頭看2900XT)
今天限制似乎是ROP的壓縮能力，多擺ROP來分ringbus controller，只怕會讓頻寬更吃緊。
我比較對有沒有做NUMA有興趣，有做的話會發揮K8般的優勢。
> ATI的人宣稱面積大小在250mm*mm，我預估有可能到280mm*mm
晶片都在他們眼前了，先相信他們說的話吧。
> TDP與3870相同，5月上市
如果這是真的，我可以感受到hw team對driver team的怨言….XDa
> 這次的改進比較接近於R520->R580那種資源堆砌
其實只要分支用得不頻繁就不會糟糕，可以靠raw performance衝出來；當年G7x在SM3前半也是活得好好的，沒被R5x0甩開。
> G92不是就已經是頻寬不足的狀況了嘛＝＝
以去年RV670的NDA發表會來說，在ATI的人眼裡G92是樣樣不足，成本又高；不知怎的打不贏….orz
> 那麼長是Quadro版本吧（like 2900xt）
那是9800GTX沒錯 _A_
> 謎之音：怎麼最近沒聽到假如PS3用g94就會怎樣…
> size很接近啊XD
65nm + 505M + 240mm^2，都快是CELL + RSX總合了…. _A_

Reply
ALLEN表示:

5 3 月, 20089:33 下午

> 我比較對有沒有做NUMA有興趣，有做的話會發揮K8般的優勢。
R700確定有NUMA（好像目前僅只於記憶體共享），但是沒有封裝在一起
> 裝GDDR5又如何？(轉頭看2900XT)
我的問題是要去哪裡生GDDR5_A_
資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
> 以去年RV670的NDA發表會來說，在ATI的人眼裡G92是樣樣不足，成本又高；不知怎的打不贏….orz
哈哈哈！
好吧，我認識的ATI人是說G8X架構沒前途，頻率提昇遠比堆sp困難
要講ATI也有SHADER倍頻技術
當初R600要不是製程瓶頸才不會只做到320sp，C1也不只是如此
等到下一代（G100）最晚下下代（45nm或32nm）電晶體爆炸時NV就知道怎麼死的了XDXD
不過我沒那麼樂觀，NV搞不好還有料_A_
> 晶片都在他們眼前了，先相信他們說的話吧。
另外一個消息是說280mm*mm左右
不過可能是封裝大小而非晶片實際面積

Reply
Tue.表示:

5 3 月, 200811:02 下午

現在的問題似乎不是頻率跟單元數而已，如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘，另外 nvidia 將來也有可能朝較大單元來發展，這些也都不一定，另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多，並不會說只有一方提升而已

Reply
Eji表示:

5 3 月, 200811:26 下午

> 現在的問題似乎不是頻率跟單元數而已，如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘，
R7x0看起來是把真正的R7x0換名字成R8x0、然後插進來的東西，就像R420/R480(X800系列)一樣，畢竟他們在API觀點上面功能是比較多。
NVIDIA的底層其實還是4way SIMD，但是上層蓋了一些free swzzle的元件，讓它的ALU動作起來”很像”8way 1D ALU，但是要optimize的時候還是要朝SIMD的方向走。
compiler我覺得ATI他們有苦說不出…. DX10追加的一些精確度規定讓他們的optimize手法綁手綁腳，所以變得很難搞出很大的變化，只能乖乖朝ALU追加的方向走，現在問題是加了 ALU，那要不要配合加register file？有加的話就是看製程、拼規模、拼良率、拼設計能力，以他們自己的說法，他們手上有較先進製程(65 vs 55 or 45)，其實有膽的話可以放手一搏；沒加的話就像上面講的一樣了。
> 另外 nvidia 將來也有可能朝較大單元來發展，這些也都不一定，
當他們把register file、control和 graphic asic都全塞進一個unit叫TPC，然後以TPC為單位來追加的時候，就代表他們其實已經找到sweet point了，剩下的比例增加都是在這前提下做的。
就算他們去追加TPC內ALU的規模，顯然也會相對應地提升register file、share memory等階層記憶體的規模。
反正TPC內部、TPC數量都是可以追加的東西，就算沒去分TPC其實ATI也應該知道怎麼去加加減減，但是事先做好模組化設計，要做產品線展開就快了。
> 另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多，並不會說只有一方提升而已
我們都知道register file 和 ALU的數量沒有定比例對應起來的話，增加任何一方就是影響條件分支性能；要避免條件分支性能受到影響，最安全的對應法就是使用變頻shader。
所以其實R600那時候宣稱”不是不會、我們覺得不需要”(PCwatch訪談)，疑問就已經很大了。

Reply
Eji表示:

6 3 月, 20081:20 下午

> R700確定有NUMA（好像目前僅只於記憶體共享），但是沒有封裝在一起
其實也不必封裝在一起了啦….現在封裝成本也不低。
> 我的問題是要去哪裡生GDDR5_A_
> 資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
瓶頸大家都一樣_A_
> 哈哈哈！
> 好吧，我認識的ATI人是說G8X架構沒前途，頻率提昇遠比堆sp困難
> 要講ATI也有SHADER倍頻技術
> 當初R600要不是製程瓶頸才不會只做到320sp，C1也不只是如此
> 等到下一代（G100）最晚下下代（45nm或32nm）電晶體爆炸時NV就知道怎麼死的了XDXD
我簡單回他啦，你覺得G8x”不能”堆SP嗎？TPC內部本來就是可以擴充的啊。
G8x和R6x0唯一的差異，就是R600是集中分配thread資源，G8x是每個區塊有自己的thread資源分配。
所以大家都可以犧牲分支性能去堆SP，只要不扯到分支的部分效率都會加很快；但是我覺得分支如果大家有在用的話就不太適合隨便犧牲而已。
要不然你就又要教育一堆developer寫法；偏偏developer現在就是比較親TWIMTBP。
不論以前3dfx輸NV、或者是R300打敗NV3x，都不脫一個狀況：全產品線絕對的性能優勢，之後才能講成本、OEM訂單等等。
現在ATI手上有比較好的製程(衝比較快)，照理說他們電晶體壓力也比較小，可是比較小顆(505M)的G94幾乎打贏RV670(666M，差三成)讓人很懷疑他們手上還有多少優勢。
ATI手上當然有shader倍頻的能力，R600分了30幾個分頻區域，但是沒有開放給user看數據，只用在powerplay上。
這他們2007年初就在說了，現在過了整整一年RV670一樣如此、RV770看來也不會變了。其實只要shader加50%時脈性能就差很多了，也比整顆調高時脈要來得容易。
手上多一張牌總比少一張牌好，但是他們似乎不這麼覺得？
> 不過我沒那麼樂觀，NV搞不好還有料_A_
論RD資源來說很難講NV沒有料_A_
> 另外一個消息是說280mm*mm左右
> 不過可能是封裝大小而非晶片實際面積
這樣就太小嘍。

Reply
ALLEN表示:

6 3 月, 20082:01 下午

> 可是比較小顆(505M)的G94幾乎打贏RV670(666M，差三成)讓人很懷疑他們手上還有多少優勢。
電晶體數跟面積並不完全成正相關
RV670的電晶體密度實際上比G94高了1.18倍
RV670簡單換算成65nm製程也只有265mm*mm
按照現在出廠的RV670幾乎都通過800MHz測試的說法其實也沒輸拉XDXD
正好卡在G92和G94中間罷了
另外追加一下RV770主頻率比RV670來的高，有沒有SHADER異頻不知道
> 我簡單回他啦，你覺得G8x”不能”堆SP嗎？TPC內部本來就是可以擴充的啊。
可以，只是單純增加規模的話電晶體數會爆炸
簡單換算*1.5的192SP的G100電晶體會到達1000M+，而且SP頻率很難再往上拉上去
相較之下*2的RV770大概只有800M+而已，反正就是效率不行靠SP數量砸死對手_A_
這樣的情形隨製程提昇會越明顯，45nm是關鍵
他的意思是指這個
> 這樣就太小嘍。
是指封裝後去測量晶片的面積
這樣會比原本的晶片面積來的大些，G94測出來會到250mm*mm

Reply
ALLEN表示:

6 3 月, 20082:40 下午

> 那如果”也”下降分支效率呢？在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎？
這我也知道_A_
不過改變sp/thread比例.降低分支效率造成的performce drop有多少？
會不會根本不值得，還是維持原本的TPC結構下效能更強？
這些還是問題，反正最終就是取捨而已…
等卡上市就知道了，5月也很快

Reply
Eji表示:

6 3 月, 20082:47 下午

不好意思，我在偷偷改錯字….XD
—-
> 可以，只是單純增加規模的話電晶體數會爆炸
> 簡單換算*1.5的192SP的G100電晶體會到達1000M+，而且SP頻率很難再往上拉上去
> 相較之下*2的RV770大概只有800M+而已，反正就是效率不行靠SP數量砸死對手_A_
> 這樣的情形隨製程提昇會越明顯，45nm是關鍵
> 他的意思是指這個
好像搞錯一個地方：
剛剛說過G8x的TPC是完全等比例，所以G92和G94之間的差距可以知道相差的部分就是完整的TPC (4TPC = 249M – alpha)
所以光是192SP的話，在”不改變sp/thread比例”，”不犧牲分支效率”的前提下剛好是1000M沒錯。
那如果”也”下降分支效率呢？在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎？
一邊只有SP數量，一邊是SP數量之外還有SP變頻。所以我說牌的數量是不同的。
而且先別提我對這個效率損失是否值得非常有疑問…. (G7x在特定shader上可以輸到G8x超過一千倍，而這兩邊的分支粒度大概是880vs32)
今天如果真的要犧牲分支性能來衝raw performance，考慮當初R5x0留下的空間(4bank x 4~32 shader)，RV7x0應該可以把每個bank的ALU拉到64甚至512個(然後再5way)，或者是bank數卯起增加到16個，分支性能會掉到256或是512前後。
但是這些ALU裡面閒置的比例呢？光是從16->48就已經讓效率掉了50%，在維持規模(512thread in ultra thread processor)的前提下，我很懷疑從64shader拉到192shader能不能再次達到提升兩倍的效果。
—-
我只是覺得我每次都希望ATI可以讓NIVIDA收起一點傲氣拿出更神奇的東西來，但是ATI卻總是在送死讓人家的鼻子越來越高….orz

Reply
Eji表示:

6 3 月, 20082:52 下午

> 不過改變sp/thread比例.降低分支效率造成的performce drop有多少？
> 會不會根本不值得，還是維持原本的TPC結構下效能更強？
目前測試數據來說，G8x的分支性能大約是每32個pixel做一次branch下，結構可以維持住不產生延遲(ALU無閒置)；G92聽說更低但是不清楚是多少。
而R520是16、R580是48….所以平衡點大概是R520和R580之間。
考慮R580只有R520效率的兩倍，作三倍的ALU等於閒置了1/3。
當然只要減少分支使用率就可以強化性能，但是分支本來就是來整合shader material載入，減少overhead用的….
也就是說分支提升實際上可以減少記憶體頻寬損耗，光這點就顯得開分支來加長shader很值得。

Reply
ALLEN表示:

9 3 月, 200811:59 下午

補充一下最新資料
RV770是800SP（160*5D），貨真價實
再加上略高的頻率理論效能是RV670的近3倍，看來真的是R580第2…
與R580除PS外啥都沒變不同的地方是TMU和ROP都翻倍了
不過這樣塞的進800M晶體管？？還是說這才是R600的真正型態？

Reply
Eji表示:

10 3 月, 20081:01 上午

不論追加多少SP(shader)，只要不追加register file，電晶體增加的比例都不大：上次R580加了三倍ALU、TMU不加，規模也才大了25%；這次只是加的東西比例有點消長而已。
重點是：R7x0目前看來架構有變更的機會越來越小，代表他們要延長R6x0的架構壽命、把”本來的R7x0″(大概改名成R8x0了)往後拖大概是跑不掉了。

Reply
ALLEN表示:

10 3 月, 20081:26 上午

> 把”本來的R7x0″
完全沒有這回事
R8XX.R9XX現在還在先期研究階段
怎麼可能拿的出來…

Reply
Eji表示:

10 3 月, 20082:05 上午

反正chiphell的那些發言就別再認真看待了：分支粒度要透過怎樣的設計才能維持，還有分支粒度本身的價值，那邊根本沒有人考慮過。
今天R6x0可以輕易追加到上百個shader、相當於內含上千個sp；但是你不更改它的記憶體階層，它的內部資源能夠負擔的效率(實際能維持運作的ALU數量)仍然是不會變的。
R520只是原始配置的ALU少於這個數字，R580則是大過這個數字，結果就是平均的遊戲實際性能正好位於這兩者中間的程度。
R5x0的ALU數量就算追加到滿(R580是4x4x3、但原始結構記得是4x4x32為最大數量)，實際上的遊戲效率仍然會只有與R580相去不遠的表現；同樣的道理是用於R600、RV670與RV770之間的關係，超出平衡點的SP數量，會在大部份的主流應用(遊戲)裡面出現閒置的狀況，只會在特定的GPGPU設計中得利。
所以不論怎麼改，R600終究是R600。

Reply
Eji表示:

10 3 月, 20082:29 上午

> 所以不論怎麼改，R600終究是R600。
這樣講好像很看輕R600的感覺，所以我解釋一下：
R520和R580抓的分支粒度是16pixel和48pixel，結果從G8x可以看出，實際上DX9適當的分支粒度，大概32pixel是sweet spot。
今天R6x0的分支粒度是64pixel(or vertex)，如果性能要有所提升的話，實質上就代表DX10適當的分支粒度要高過這個數字，比方說96 ~ 128。(考慮unified shader，本來平均值應該就會有所變化；R5x0時代的分支粒度僅考慮PS)
而這也代表G8x為基礎的架構也可以調整TPC內的ALU數量，來逼近這個比例。

Reply

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

Eji的碎碎念

RV770，最佳狀況有RV670兩倍快

在〈RV770，最佳狀況有RV670兩倍快〉中有 16 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈RV770，最佳狀況有RV670兩倍快〉中有 16 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆