RV770,最佳狀況有RV670兩倍快

http://www.fudzilla.com/index.php?option=com_content&task=view&id=6004&Itemid=34
RV770 to be twice as fast as RV670 claim
Best case scenario

9600GT所有資源兩倍(shader、TMU、ROP、記憶體容量),效能也沒兩倍。
看來RV770要整整兩倍大了?

不過聽說好像只大了25%….看來又是只增加ALU的魔法…. _A_
上次那篇真的是假新聞嗎?XD
好,畢竟這是FUDzilla….

—-
http://pc.watch.impress.co.jp/docs/2008/0305/amd.htm
AMD、DirectX 10対応ビデオ内蔵チップセット「AMD 780」

AMD780發表,Hybrid Graphic看起來很誘人;不過聽說只有Vista能用。

—-
http://we.pcinlife.com/thread-896580-1-1.html
9800GTX PCB清晰照片

品相頗佳XD

在〈RV770,最佳狀況有RV670兩倍快〉中有 16 則留言

  1. 其實是所有資源(shader、TMU、ROP)翻倍又多一些些,這是確定消息(680SP.720SP??)
    記憶體大小不知道,但是是真的要裝GDDR5..
    ATI的人宣稱面積大小在250mm*mm,我預估有可能到280mm*mm
    TDP與3870相同,5月上市
    這次的改進比較接近於R520->R580那種資源堆砌
    G92不是就已經是頻寬不足的狀況了嘛= =

  2. 那麼長是Quadro版本吧(like 2900xt)
    後面一堆鋁殼NCC電容讓偶想起本人AGP最後一張卡
    耕宇Geforce4 ti4600
    經典啊XD~
    謎之音:怎麼最近沒聽到假如PS3用g94就會怎樣…
    size很接近啊XD

  3. > 其實是所有資源(shader、TMU、ROP)翻倍又多一些些,這是確定消息(680SP.720SP??)
    ultra threading 看來是不會變了,thread資源還是不變。
    那就是shader加越多分支性能就是反比,學R580的話就是衝3倍ALU,總共960Sp or 192shader(x5D),誰要算現在的分支性能嗎?
    實話是連ATI自己的人親口講”確定”都還是要打折扣,我想在場沒有人比David Wang還有份量,但是事實上….orz
    > 記憶體大小不知道,但是是真的要裝GDDR5..
    裝GDDR5又如何?(轉頭看2900XT)
    今天限制似乎是ROP的壓縮能力,多擺ROP來分ringbus controller,只怕會讓頻寬更吃緊。
    我比較對有沒有做NUMA有興趣,有做的話會發揮K8般的優勢。
    > ATI的人宣稱面積大小在250mm*mm,我預估有可能到280mm*mm
    晶片都在他們眼前了,先相信他們說的話吧。
    > TDP與3870相同,5月上市
    如果這是真的,我可以感受到hw team對driver team的怨言….XDa
    > 這次的改進比較接近於R520->R580那種資源堆砌
    其實只要分支用得不頻繁就不會糟糕,可以靠raw performance衝出來;當年G7x在SM3前半也是活得好好的,沒被R5x0甩開。
    > G92不是就已經是頻寬不足的狀況了嘛= =
    以去年RV670的NDA發表會來說,在ATI的人眼裡G92是樣樣不足,成本又高;不知怎的打不贏….orz
    > 那麼長是Quadro版本吧(like 2900xt)
    那是9800GTX沒錯 _A_
    > 謎之音:怎麼最近沒聽到假如PS3用g94就會怎樣…
    > size很接近啊XD
    65nm + 505M + 240mm^2,都快是CELL + RSX總合了…. _A_

  4. > 我比較對有沒有做NUMA有興趣,有做的話會發揮K8般的優勢。
    R700確定有NUMA(好像目前僅只於記憶體共享),但是沒有封裝在一起
    > 裝GDDR5又如何?(轉頭看2900XT)
    我的問題是要去哪裡生GDDR5_A_
    資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
    > 以去年RV670的NDA發表會來說,在ATI的人眼裡G92是樣樣不足,成本又高;不知怎的打不贏….orz
    哈哈哈!
    好吧,我認識的ATI人是說G8X架構沒前途,頻率提昇遠比堆sp困難
    要講ATI也有SHADER倍頻技術
    當初R600要不是製程瓶頸才不會只做到320sp,C1也不只是如此
    等到下一代(G100)最晚下下代(45nm或32nm)電晶體爆炸時NV就知道怎麼死的了XDXD
    不過我沒那麼樂觀,NV搞不好還有料_A_
    > 晶片都在他們眼前了,先相信他們說的話吧。
    另外一個消息是說280mm*mm左右
    不過可能是封裝大小而非晶片實際面積

  5. 現在的問題似乎不是頻率跟單元數而已,如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘,另外 nvidia 將來也有可能朝較大單元來發展,這些也都不一定,另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多,並不會說只有一方提升而已

  6. > 現在的問題似乎不是頻率跟單元數而已,如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘,
    R7x0看起來是把真正的R7x0換名字成R8x0、然後插進來的東西,就像R420/R480(X800系列)一樣,畢竟他們在API觀點上面功能是比較多。
    NVIDIA的底層其實還是4way SIMD,但是上層蓋了一些free swzzle的元件,讓它的ALU動作起來”很像”8way 1D ALU,但是要optimize的時候還是要朝SIMD的方向走。
    compiler我覺得ATI他們有苦說不出…. DX10追加的一些精確度規定讓他們的optimize手法綁手綁腳,所以變得很難搞出很大的變化,只能乖乖朝ALU追加的方向走,現在問題是加了 ALU,那要不要配合加register file?有加的話就是看製程、拼規模、拼良率、拼設計能力,以他們自己的說法,他們手上有較先進製程(65 vs 55 or 45),其實有膽的話可以放手一搏;沒加的話就像上面講的一樣了。
    > 另外 nvidia 將來也有可能朝較大單元來發展,這些也都不一定,
    當他們把register file、control和 graphic asic都全塞進一個unit叫TPC,然後以TPC為單位來追加的時候,就代表他們其實已經找到sweet point了,剩下的比例增加都是在這前提下做的。
    就算他們去追加TPC內ALU的規模,顯然也會相對應地提升register file、share memory等階層記憶體的規模。
    反正TPC內部、TPC數量都是可以追加的東西,就算沒去分TPC其實ATI也應該知道怎麼去加加減減,但是事先做好模組化設計,要做產品線展開就快了。
    > 另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多,並不會說只有一方提升而已
    我們都知道register file 和 ALU的數量沒有定比例對應起來的話,增加任何一方就是影響條件分支性能;要避免條件分支性能受到影響,最安全的對應法就是使用變頻shader。
    所以其實R600那時候宣稱”不是不會、我們覺得不需要”(PCwatch訪談),疑問就已經很大了。

  7. > R700確定有NUMA(好像目前僅只於記憶體共享),但是沒有封裝在一起
    其實也不必封裝在一起了啦….現在封裝成本也不低。
    > 我的問題是要去哪裡生GDDR5_A_
    > 資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
    瓶頸大家都一樣_A_
    > 哈哈哈!
    > 好吧,我認識的ATI人是說G8X架構沒前途,頻率提昇遠比堆sp困難
    > 要講ATI也有SHADER倍頻技術
    > 當初R600要不是製程瓶頸才不會只做到320sp,C1也不只是如此
    > 等到下一代(G100)最晚下下代(45nm或32nm)電晶體爆炸時NV就知道怎麼死的了XDXD
    我簡單回他啦,你覺得G8x”不能”堆SP嗎?TPC內部本來就是可以擴充的啊。
    G8x和R6x0唯一的差異,就是R600是集中分配thread資源,G8x是每個區塊有自己的thread資源分配。
    所以大家都可以犧牲分支性能去堆SP,只要不扯到分支的部分效率都會加很快;但是我覺得分支如果大家有在用的話就不太適合隨便犧牲而已。
    要不然你就又要教育一堆developer寫法;偏偏developer現在就是比較親TWIMTBP。
    不論以前3dfx輸NV、或者是R300打敗NV3x,都不脫一個狀況:全產品線絕對的性能優勢,之後才能講成本、OEM訂單等等。
    現在ATI手上有比較好的製程(衝比較快),照理說他們電晶體壓力也比較小,可是比較小顆(505M)的G94幾乎打贏RV670(666M,差三成)讓人很懷疑他們手上還有多少優勢。
    ATI手上當然有shader倍頻的能力,R600分了30幾個分頻區域,但是沒有開放給user看數據,只用在powerplay上。
    這他們2007年初就在說了,現在過了整整一年RV670一樣如此、RV770看來也不會變了。其實只要shader加50%時脈性能就差很多了,也比整顆調高時脈要來得容易。
    手上多一張牌總比少一張牌好,但是他們似乎不這麼覺得?
    > 不過我沒那麼樂觀,NV搞不好還有料_A_
    論RD資源來說很難講NV沒有料_A_
    > 另外一個消息是說280mm*mm左右
    > 不過可能是封裝大小而非晶片實際面積
    這樣就太小嘍。

  8. > 可是比較小顆(505M)的G94幾乎打贏RV670(666M,差三成)讓人很懷疑他們手上還有多少優勢。
    電晶體數跟面積並不完全成正相關
    RV670的電晶體密度實際上比G94高了1.18倍
    RV670簡單換算成65nm製程也只有265mm*mm
    按照現在出廠的RV670幾乎都通過800MHz測試的說法其實也沒輸拉XDXD
    正好卡在G92和G94中間罷了
    另外追加一下RV770主頻率比RV670來的高,有沒有SHADER異頻不知道
    > 我簡單回他啦,你覺得G8x”不能”堆SP嗎?TPC內部本來就是可以擴充的啊。
    可以,只是單純增加規模的話電晶體數會爆炸
    簡單換算*1.5的192SP的G100電晶體會到達1000M+,而且SP頻率很難再往上拉上去
    相較之下*2的RV770大概只有800M+而已,反正就是效率不行靠SP數量砸死對手_A_
    這樣的情形隨製程提昇會越明顯,45nm是關鍵
    他的意思是指這個
    > 這樣就太小嘍。
    是指封裝後去測量晶片的面積
    這樣會比原本的晶片面積來的大些,G94測出來會到250mm*mm

  9. > 那如果”也”下降分支效率呢?在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎?
    這我也知道_A_
    不過改變sp/thread比例.降低分支效率造成的performce drop有多少?
    會不會根本不值得,還是維持原本的TPC結構下效能更強?
    這些還是問題,反正最終就是取捨而已…
    等卡上市就知道了,5月也很快

  10. 不好意思,我在偷偷改錯字….XD
    —-
    > 可以,只是單純增加規模的話電晶體數會爆炸
    > 簡單換算*1.5的192SP的G100電晶體會到達1000M+,而且SP頻率很難再往上拉上去
    > 相較之下*2的RV770大概只有800M+而已,反正就是效率不行靠SP數量砸死對手_A_
    > 這樣的情形隨製程提昇會越明顯,45nm是關鍵
    > 他的意思是指這個
    好像搞錯一個地方:
    剛剛說過G8x的TPC是完全等比例,所以G92和G94之間的差距可以知道相差的部分就是完整的TPC (4TPC = 249M – alpha)
    所以光是192SP的話,在”不改變sp/thread比例”,”不犧牲分支效率”的前提下剛好是1000M沒錯。
    那如果”也”下降分支效率呢?在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎?
    一邊只有SP數量,一邊是SP數量之外還有SP變頻。所以我說牌的數量是不同的。
    而且先別提我對這個效率損失是否值得非常有疑問…. (G7x在特定shader上可以輸到G8x超過一千倍,而這兩邊的分支粒度大概是880vs32)
    今天如果真的要犧牲分支性能來衝raw performance,考慮當初R5x0留下的空間(4bank x 4~32 shader),RV7x0應該可以把每個bank的ALU拉到64甚至512個(然後再5way),或者是bank數卯起增加到16個,分支性能會掉到256或是512前後。
    但是這些ALU裡面閒置的比例呢?光是從16->48就已經讓效率掉了50%,在維持規模(512thread in ultra thread processor)的前提下,我很懷疑從64shader拉到192shader能不能再次達到提升兩倍的效果。
    —-
    我只是覺得我每次都希望ATI可以讓NIVIDA收起一點傲氣拿出更神奇的東西來,但是ATI卻總是在送死讓人家的鼻子越來越高….orz

  11. > 不過改變sp/thread比例.降低分支效率造成的performce drop有多少?
    > 會不會根本不值得,還是維持原本的TPC結構下效能更強?
    目前測試數據來說,G8x的分支性能大約是每32個pixel做一次branch下,結構可以維持住不產生延遲(ALU無閒置);G92聽說更低但是不清楚是多少。
    而R520是16、R580是48….所以平衡點大概是R520和R580之間。
    考慮R580只有R520效率的兩倍,作三倍的ALU等於閒置了1/3。
    當然只要減少分支使用率就可以強化性能,但是分支本來就是來整合shader material載入,減少overhead用的….
    也就是說分支提升實際上可以減少記憶體頻寬損耗,光這點就顯得開分支來加長shader很值得。

  12. 補充一下最新資料
    RV770是800SP(160*5D),貨真價實
    再加上略高的頻率理論效能是RV670的近3倍,看來真的是R580第2…
    與R580除PS外啥都沒變不同的地方是TMU和ROP都翻倍了
    不過這樣塞的進800M晶體管??還是說這才是R600的真正型態?

  13. 不論追加多少SP(shader),只要不追加register file,電晶體增加的比例都不大:上次R580加了三倍ALU、TMU不加,規模也才大了25%;這次只是加的東西比例有點消長而已。
    重點是:R7x0目前看來架構有變更的機會越來越小,代表他們要延長R6x0的架構壽命、把”本來的R7x0″(大概改名成R8x0了)往後拖大概是跑不掉了。

  14. > 把”本來的R7x0″
    完全沒有這回事
    R8XX.R9XX現在還在先期研究階段
    怎麼可能拿的出來…

  15. 反正chiphell的那些發言就別再認真看待了:分支粒度要透過怎樣的設計才能維持,還有分支粒度本身的價值,那邊根本沒有人考慮過。
    今天R6x0可以輕易追加到上百個shader、相當於內含上千個sp;但是你不更改它的記憶體階層,它的內部資源能夠負擔的效率(實際能維持運作的ALU數量)仍然是不會變的。
    R520只是原始配置的ALU少於這個數字,R580則是大過這個數字,結果就是平均的遊戲實際性能正好位於這兩者中間的程度。
    R5x0的ALU數量就算追加到滿(R580是4x4x3、但原始結構記得是4x4x32為最大數量),實際上的遊戲效率仍然會只有與R580相去不遠的表現;同樣的道理是用於R600、RV670與RV770之間的關係,超出平衡點的SP數量,會在大部份的主流應用(遊戲)裡面出現閒置的狀況,只會在特定的GPGPU設計中得利。
    所以不論怎麼改,R600終究是R600。

  16. > 所以不論怎麼改,R600終究是R600。
    這樣講好像很看輕R600的感覺,所以我解釋一下:
    R520和R580抓的分支粒度是16pixel和48pixel,結果從G8x可以看出,實際上DX9適當的分支粒度,大概32pixel是sweet spot。
    今天R6x0的分支粒度是64pixel(or vertex),如果性能要有所提升的話,實質上就代表DX10適當的分支粒度要高過這個數字,比方說96 ~ 128。(考慮unified shader,本來平均值應該就會有所變化;R5x0時代的分支粒度僅考慮PS)
    而這也代表G8x為基礎的架構也可以調整TPC內的ALU數量,來逼近這個比例。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料