http://www.fudzilla.com/index.php?option=com_content&task=view&id=6004&Itemid=34
RV770 to be twice as fast as RV670 claim
Best case scenario
9600GT所有資源兩倍(shader、TMU、ROP、記憶體容量),效能也沒兩倍。
看來RV770要整整兩倍大了?
不過聽說好像只大了25%….看來又是只增加ALU的魔法…. _A_
上次那篇真的是假新聞嗎?XD
好,畢竟這是FUDzilla….
—-
http://pc.watch.impress.co.jp/docs/2008/0305/amd.htm
AMD、DirectX 10対応ビデオ内蔵チップセット「AMD 780」
AMD780發表,Hybrid Graphic看起來很誘人;不過聽說只有Vista能用。
—-
http://we.pcinlife.com/thread-896580-1-1.html
9800GTX PCB清晰照片
品相頗佳XD
其實是所有資源(shader、TMU、ROP)翻倍又多一些些,這是確定消息(680SP.720SP??)
記憶體大小不知道,但是是真的要裝GDDR5..
ATI的人宣稱面積大小在250mm*mm,我預估有可能到280mm*mm
TDP與3870相同,5月上市
這次的改進比較接近於R520->R580那種資源堆砌
G92不是就已經是頻寬不足的狀況了嘛= =
那麼長是Quadro版本吧(like 2900xt)
後面一堆鋁殼NCC電容讓偶想起本人AGP最後一張卡
耕宇Geforce4 ti4600
經典啊XD~
謎之音:怎麼最近沒聽到假如PS3用g94就會怎樣…
size很接近啊XD
> 其實是所有資源(shader、TMU、ROP)翻倍又多一些些,這是確定消息(680SP.720SP??)
ultra threading 看來是不會變了,thread資源還是不變。
那就是shader加越多分支性能就是反比,學R580的話就是衝3倍ALU,總共960Sp or 192shader(x5D),誰要算現在的分支性能嗎?
實話是連ATI自己的人親口講”確定”都還是要打折扣,我想在場沒有人比David Wang還有份量,但是事實上….orz
> 記憶體大小不知道,但是是真的要裝GDDR5..
裝GDDR5又如何?(轉頭看2900XT)
今天限制似乎是ROP的壓縮能力,多擺ROP來分ringbus controller,只怕會讓頻寬更吃緊。
我比較對有沒有做NUMA有興趣,有做的話會發揮K8般的優勢。
> ATI的人宣稱面積大小在250mm*mm,我預估有可能到280mm*mm
晶片都在他們眼前了,先相信他們說的話吧。
> TDP與3870相同,5月上市
如果這是真的,我可以感受到hw team對driver team的怨言….XDa
> 這次的改進比較接近於R520->R580那種資源堆砌
其實只要分支用得不頻繁就不會糟糕,可以靠raw performance衝出來;當年G7x在SM3前半也是活得好好的,沒被R5x0甩開。
> G92不是就已經是頻寬不足的狀況了嘛= =
以去年RV670的NDA發表會來說,在ATI的人眼裡G92是樣樣不足,成本又高;不知怎的打不贏….orz
> 那麼長是Quadro版本吧(like 2900xt)
那是9800GTX沒錯 _A_
> 謎之音:怎麼最近沒聽到假如PS3用g94就會怎樣…
> size很接近啊XD
65nm + 505M + 240mm^2,都快是CELL + RSX總合了…. _A_
> 我比較對有沒有做NUMA有興趣,有做的話會發揮K8般的優勢。
R700確定有NUMA(好像目前僅只於記憶體共享),但是沒有封裝在一起
> 裝GDDR5又如何?(轉頭看2900XT)
我的問題是要去哪裡生GDDR5_A_
資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
> 以去年RV670的NDA發表會來說,在ATI的人眼裡G92是樣樣不足,成本又高;不知怎的打不贏….orz
哈哈哈!
好吧,我認識的ATI人是說G8X架構沒前途,頻率提昇遠比堆sp困難
要講ATI也有SHADER倍頻技術
當初R600要不是製程瓶頸才不會只做到320sp,C1也不只是如此
等到下一代(G100)最晚下下代(45nm或32nm)電晶體爆炸時NV就知道怎麼死的了XDXD
不過我沒那麼樂觀,NV搞不好還有料_A_
> 晶片都在他們眼前了,先相信他們說的話吧。
另外一個消息是說280mm*mm左右
不過可能是封裝大小而非晶片實際面積
現在的問題似乎不是頻率跟單元數而已,如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘,另外 nvidia 將來也有可能朝較大單元來發展,這些也都不一定,另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多,並不會說只有一方提升而已
> 現在的問題似乎不是頻率跟單元數而已,如果 ATi 能把 compiler 給寫好現狀應該也不會這麼慘,
R7x0看起來是把真正的R7x0換名字成R8x0、然後插進來的東西,就像R420/R480(X800系列)一樣,畢竟他們在API觀點上面功能是比較多。
NVIDIA的底層其實還是4way SIMD,但是上層蓋了一些free swzzle的元件,讓它的ALU動作起來”很像”8way 1D ALU,但是要optimize的時候還是要朝SIMD的方向走。
compiler我覺得ATI他們有苦說不出…. DX10追加的一些精確度規定讓他們的optimize手法綁手綁腳,所以變得很難搞出很大的變化,只能乖乖朝ALU追加的方向走,現在問題是加了 ALU,那要不要配合加register file?有加的話就是看製程、拼規模、拼良率、拼設計能力,以他們自己的說法,他們手上有較先進製程(65 vs 55 or 45),其實有膽的話可以放手一搏;沒加的話就像上面講的一樣了。
> 另外 nvidia 將來也有可能朝較大單元來發展,這些也都不一定,
當他們把register file、control和 graphic asic都全塞進一個unit叫TPC,然後以TPC為單位來追加的時候,就代表他們其實已經找到sweet point了,剩下的比例增加都是在這前提下做的。
就算他們去追加TPC內ALU的規模,顯然也會相對應地提升register file、share memory等階層記憶體的規模。
反正TPC內部、TPC數量都是可以追加的東西,就算沒去分TPC其實ATI也應該知道怎麼去加加減減,但是事先做好模組化設計,要做產品線展開就快了。
> 另一方面就是電晶體數變多了 nvidia 產品的單元數也會變多,並不會說只有一方提升而已
我們都知道register file 和 ALU的數量沒有定比例對應起來的話,增加任何一方就是影響條件分支性能;要避免條件分支性能受到影響,最安全的對應法就是使用變頻shader。
所以其實R600那時候宣稱”不是不會、我們覺得不需要”(PCwatch訪談),疑問就已經很大了。
> R700確定有NUMA(好像目前僅只於記憶體共享),但是沒有封裝在一起
其實也不必封裝在一起了啦….現在封裝成本也不低。
> 我的問題是要去哪裡生GDDR5_A_
> 資源直接乘以2記憶體頻寬維持256bit是很有可能碰到瓶頸
瓶頸大家都一樣_A_
> 哈哈哈!
> 好吧,我認識的ATI人是說G8X架構沒前途,頻率提昇遠比堆sp困難
> 要講ATI也有SHADER倍頻技術
> 當初R600要不是製程瓶頸才不會只做到320sp,C1也不只是如此
> 等到下一代(G100)最晚下下代(45nm或32nm)電晶體爆炸時NV就知道怎麼死的了XDXD
我簡單回他啦,你覺得G8x”不能”堆SP嗎?TPC內部本來就是可以擴充的啊。
G8x和R6x0唯一的差異,就是R600是集中分配thread資源,G8x是每個區塊有自己的thread資源分配。
所以大家都可以犧牲分支性能去堆SP,只要不扯到分支的部分效率都會加很快;但是我覺得分支如果大家有在用的話就不太適合隨便犧牲而已。
要不然你就又要教育一堆developer寫法;偏偏developer現在就是比較親TWIMTBP。
不論以前3dfx輸NV、或者是R300打敗NV3x,都不脫一個狀況:全產品線絕對的性能優勢,之後才能講成本、OEM訂單等等。
現在ATI手上有比較好的製程(衝比較快),照理說他們電晶體壓力也比較小,可是比較小顆(505M)的G94幾乎打贏RV670(666M,差三成)讓人很懷疑他們手上還有多少優勢。
ATI手上當然有shader倍頻的能力,R600分了30幾個分頻區域,但是沒有開放給user看數據,只用在powerplay上。
這他們2007年初就在說了,現在過了整整一年RV670一樣如此、RV770看來也不會變了。其實只要shader加50%時脈性能就差很多了,也比整顆調高時脈要來得容易。
手上多一張牌總比少一張牌好,但是他們似乎不這麼覺得?
> 不過我沒那麼樂觀,NV搞不好還有料_A_
論RD資源來說很難講NV沒有料_A_
> 另外一個消息是說280mm*mm左右
> 不過可能是封裝大小而非晶片實際面積
這樣就太小嘍。
> 可是比較小顆(505M)的G94幾乎打贏RV670(666M,差三成)讓人很懷疑他們手上還有多少優勢。
電晶體數跟面積並不完全成正相關
RV670的電晶體密度實際上比G94高了1.18倍
RV670簡單換算成65nm製程也只有265mm*mm
按照現在出廠的RV670幾乎都通過800MHz測試的說法其實也沒輸拉XDXD
正好卡在G92和G94中間罷了
另外追加一下RV770主頻率比RV670來的高,有沒有SHADER異頻不知道
> 我簡單回他啦,你覺得G8x”不能”堆SP嗎?TPC內部本來就是可以擴充的啊。
可以,只是單純增加規模的話電晶體數會爆炸
簡單換算*1.5的192SP的G100電晶體會到達1000M+,而且SP頻率很難再往上拉上去
相較之下*2的RV770大概只有800M+而已,反正就是效率不行靠SP數量砸死對手_A_
這樣的情形隨製程提昇會越明顯,45nm是關鍵
他的意思是指這個
> 這樣就太小嘍。
是指封裝後去測量晶片的面積
這樣會比原本的晶片面積來的大些,G94測出來會到250mm*mm
> 那如果”也”下降分支效率呢?在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎?
這我也知道_A_
不過改變sp/thread比例.降低分支效率造成的performce drop有多少?
會不會根本不值得,還是維持原本的TPC結構下效能更強?
這些還是問題,反正最終就是取捨而已…
等卡上市就知道了,5月也很快
不好意思,我在偷偷改錯字….XD
—-
> 可以,只是單純增加規模的話電晶體數會爆炸
> 簡單換算*1.5的192SP的G100電晶體會到達1000M+,而且SP頻率很難再往上拉上去
> 相較之下*2的RV770大概只有800M+而已,反正就是效率不行靠SP數量砸死對手_A_
> 這樣的情形隨製程提昇會越明顯,45nm是關鍵
> 他的意思是指這個
好像搞錯一個地方:
剛剛說過G8x的TPC是完全等比例,所以G92和G94之間的差距可以知道相差的部分就是完整的TPC (4TPC = 249M – alpha)
所以光是192SP的話,在”不改變sp/thread比例”,”不犧牲分支效率”的前提下剛好是1000M沒錯。
那如果”也”下降分支效率呢?在TPC裡面要把sp double其實很簡單啊。ATI真的砸得死嗎?
一邊只有SP數量,一邊是SP數量之外還有SP變頻。所以我說牌的數量是不同的。
而且先別提我對這個效率損失是否值得非常有疑問…. (G7x在特定shader上可以輸到G8x超過一千倍,而這兩邊的分支粒度大概是880vs32)
今天如果真的要犧牲分支性能來衝raw performance,考慮當初R5x0留下的空間(4bank x 4~32 shader),RV7x0應該可以把每個bank的ALU拉到64甚至512個(然後再5way),或者是bank數卯起增加到16個,分支性能會掉到256或是512前後。
但是這些ALU裡面閒置的比例呢?光是從16->48就已經讓效率掉了50%,在維持規模(512thread in ultra thread processor)的前提下,我很懷疑從64shader拉到192shader能不能再次達到提升兩倍的效果。
—-
我只是覺得我每次都希望ATI可以讓NIVIDA收起一點傲氣拿出更神奇的東西來,但是ATI卻總是在送死讓人家的鼻子越來越高….orz
> 不過改變sp/thread比例.降低分支效率造成的performce drop有多少?
> 會不會根本不值得,還是維持原本的TPC結構下效能更強?
目前測試數據來說,G8x的分支性能大約是每32個pixel做一次branch下,結構可以維持住不產生延遲(ALU無閒置);G92聽說更低但是不清楚是多少。
而R520是16、R580是48….所以平衡點大概是R520和R580之間。
考慮R580只有R520效率的兩倍,作三倍的ALU等於閒置了1/3。
當然只要減少分支使用率就可以強化性能,但是分支本來就是來整合shader material載入,減少overhead用的….
也就是說分支提升實際上可以減少記憶體頻寬損耗,光這點就顯得開分支來加長shader很值得。
補充一下最新資料
RV770是800SP(160*5D),貨真價實
再加上略高的頻率理論效能是RV670的近3倍,看來真的是R580第2…
與R580除PS外啥都沒變不同的地方是TMU和ROP都翻倍了
不過這樣塞的進800M晶體管??還是說這才是R600的真正型態?
不論追加多少SP(shader),只要不追加register file,電晶體增加的比例都不大:上次R580加了三倍ALU、TMU不加,規模也才大了25%;這次只是加的東西比例有點消長而已。
重點是:R7x0目前看來架構有變更的機會越來越小,代表他們要延長R6x0的架構壽命、把”本來的R7x0″(大概改名成R8x0了)往後拖大概是跑不掉了。
> 把”本來的R7x0″
完全沒有這回事
R8XX.R9XX現在還在先期研究階段
怎麼可能拿的出來…
反正chiphell的那些發言就別再認真看待了:分支粒度要透過怎樣的設計才能維持,還有分支粒度本身的價值,那邊根本沒有人考慮過。
今天R6x0可以輕易追加到上百個shader、相當於內含上千個sp;但是你不更改它的記憶體階層,它的內部資源能夠負擔的效率(實際能維持運作的ALU數量)仍然是不會變的。
R520只是原始配置的ALU少於這個數字,R580則是大過這個數字,結果就是平均的遊戲實際性能正好位於這兩者中間的程度。
R5x0的ALU數量就算追加到滿(R580是4x4x3、但原始結構記得是4x4x32為最大數量),實際上的遊戲效率仍然會只有與R580相去不遠的表現;同樣的道理是用於R600、RV670與RV770之間的關係,超出平衡點的SP數量,會在大部份的主流應用(遊戲)裡面出現閒置的狀況,只會在特定的GPGPU設計中得利。
所以不論怎麼改,R600終究是R600。
> 所以不論怎麼改,R600終究是R600。
這樣講好像很看輕R600的感覺,所以我解釋一下:
R520和R580抓的分支粒度是16pixel和48pixel,結果從G8x可以看出,實際上DX9適當的分支粒度,大概32pixel是sweet spot。
今天R6x0的分支粒度是64pixel(or vertex),如果性能要有所提升的話,實質上就代表DX10適當的分支粒度要高過這個數字,比方說96 ~ 128。(考慮unified shader,本來平均值應該就會有所變化;R5x0時代的分支粒度僅考慮PS)
而這也代表G8x為基礎的架構也可以調整TPC內的ALU數量,來逼近這個比例。