http://pc.watch.impress.co.jp/docs/column/kaigai/20090501_167935.html
1TFLOPSに迫る性能が100ドルちょっとの衝撃「ATI Radeon HD 4770」
http://plusd.itmedia.co.jp/pcuser/articles/0904/28/news061.html
40ナノ世代に突入した「Radeon HD 4770」の”正体”を知る
http://www.4gamer.net/games/089/G008959/20090426001/
HD 4850に迫る3D性能と,アプリ実行時の消費電力改善が魅力(ATI Radeon HD 4700)
其實這樣看會覺得很不能理解的是,明明性能差這麼多,實際遊戲效能卻只差一點點。
VLIW based的shader在非繪圖場合效率可能會有點差異,不過繪圖狀況下好像理由不大。
而且當初除了幾款遊戲之外,R600的shader效率其實一直都不錯….driver真的有差這麼多嗎_A_||||
總之目前cost上面理應ATI有很大的優勢….
4770如果沒有外接電源、定價可以壓到99usd的話就真的可怕了。
現在就已經很有橫掃的態勢在、真的做得到就現存4670和9800GT都甭賣啦….
反過來說,對手出這麼多晶片,還是被G92擋下來實在是個很異常的狀況。_A_|||||||
GT21x應該直接是G9x家族的40nm版….頂多追加GDDR5之類的小改?Compute Shader都作球給它了,照理來說不必改什麼地方。
到時候又可以準備來看競爭力怎樣;反過來說G92refine+40nm+GDDR5在架構效率上應該是沒有輸的理由了,再輸就真的該打_A_||||
—-
反過來說現在在GPGPU上效率發揮最大的還是G8x/G9x/GT200系列….
http://atlasfolding.com/?p=448
YouTubed
23張GTX295真的是太誇張了。
http://www.youtube.com/watch?v=KjOW5iW7dJQ&fmt=22
Atlas Folder – 23 nVidia GTX295 GPU Folding Farm
http://www.youtube.com/watch?v=mxtPksjcpQg&fmt=22
Atlas Folder – Build Your Own GPU Rack
http://www.youtube.com/watch?v=pLubHCmBqpY&fmt=22
Atlas Folder – GPU Folding Farm HOWTO – PART 1
http://www.youtube.com/watch?v=7F3XE1-d_rw&fmt=22
Atlas Folder – GPU Folding Farm HOWTO – PART 2
http://www.youtube.com/watch?v=4Q1nfHJOvGY&fmt=22
Atlas Folder – GPU Folding Farm HOWTO – PART 3
http://www.youtube.com/watch?v=xq1r09ZVfOg&fmt=22
Atlas Folder – GPU Folding Farm HOWTO – PART 4
HD4770真是超有獲利能力.
128bit成本面積136mm2的產品,
竟然可以賣到256bit 231mm2一樣價錢.
G92能檔下來的原因應該是Tex unit比人家多兩倍.
(還是有些shader需要比較多的tex指令,例如做模糊)
ATI設計者很知道這架構的優勢在於同面積下浮點運算
比對手強很多,所以努力放更多SP,加大這方面優勢.
但是固定管線的Tex和ROP,兩社的體積和效率都差不多.
而ATI的TEX通常比NV少.
測試遊戲如果ALU:TEX比例不夠大或是AF開太高,
ATI的Shader效能就很難發揮1Tflops全力.
不過ATI恐怕不在乎這個,反正他成本”非常佔優勢”.
用128bit的140mm2晶片能威脅256bit 231mm2的G92.
基本ATI已經是贏了裡子.
其實不是G92太強,而是NV正在犧牲利潤以維持競爭力.(趕快推40nm的G92吧)
從售價來看,幸好ATI想先求獲利還不打算玩割喉戰,
要不然NV恐怕會輸到當褲子.
之前ATI有說未來會考慮四晶片封裝,
不過RV770要X4應該不可能,1024bit成本太離譜,
耗電量也太超過.
現在既然HD4770只需要128bit,耗電量也不高.
搞不好有機會弄個HD4770X4的卡王.
die size 544mm2小於GT280和Larrabee.
記憶體bus寬度和HD4870X2一樣,
但是卻有4Tflops,64ROP,128TEX…..
—————————————–
Intel:”抗議! 我2Tflops的32Core LRB都還沒出生,
你們怎麼可以先做出超越64Core LRB效能
的產品! 不公平!”
ATI: “………是你自己動作太慢吧XD,
GPU本來就衝很快,你以為還在做CPU嗎?”
之前ATI有說未來會考慮四晶片封裝,
不過RV770要X4應該不可能,1024bit成本太離譜,
耗電量也太超過.
現在既然HD4770只需要128bit,耗電量也不高.
搞不好有機會弄個HD4770X4的卡王.
die size 544mm2小於GT280和Larrabee.
記憶體bus寬度和HD4870X2一樣,
但是卻有4Tflops,64ROP,128TEX…..
—————————————–
Intel:”抗議! 我2Tflops的32Core LRB都還沒出生,
你們怎麼可以先做出超越64Core LRB效能
的產品! 不公平!”
ATI: “………是你自己動作太慢吧XD,
GPU本來就衝很快,你以為還在做CPU嗎?”
從4770幾乎等於4670規模兩倍,TMU和ROP都跟著兩倍的這個特性來看,我覺得ATI的人利用面積和制程優勢的意味還是大過所謂放大設計優勢的地位。RV770比較有這個特性,因為它比例改變了。
40nm底下的G9x大概要把ROP的吞吐加倍,不然就是現在的兩個ROP合併,放同樣頻寬的GDDR5;但是又不太可能讓G92這個晶片的ROP再加倍,那效率不會比較好,所以最後大概還是會變成G92改128bit GDDR5、G94變成64bit GDDR5、然後GT212等於GT200改256bit GDDR5之類的。
整體來說浮點性能強大的特性很難在對手牽制的狀況下得到完整的利用,說起來ATI反而更需要PhsyX….
從4770幾乎等於4670規模兩倍,TMU和ROP都跟著兩倍的這個特性來看,我覺得ATI的人利用面積和制程優勢的意味還是大過所謂放大設計優勢的地位。RV770比較有這個特性,因為它比例改變了。
40nm底下的G9x大概要把ROP的吞吐加倍,不然就是現在的兩個ROP合併,放同樣頻寬的GDDR5;但是又不太可能讓G92這個晶片的ROP再加倍,那效率不會比較好,所以最後大概還是會變成G92改128bit GDDR5、G94變成64bit GDDR5、然後GT212等於GT200改256bit GDDR5之類的。
整體來說浮點性能強大的特性很難在對手牽制的狀況下得到完整的利用,說起來ATI反而更需要PhsyX….
NV和AMD的GPU瓶頸是不同的。
NV這邊可以舉出例子來
96SP 192bit的9600GSO明顯不如64SP 256bit的 9600GT。
實際上沒有比后來的48SP 192bit 9600GSO好多少。
可見,NV的瓶頸在ROP和顯存上。
大批的NV顯卡用上了強力的0.8ns GDDR3,我不清楚這種GDDR3能比4770所用的GDDR5便宜多少。
反過來,AMD這邊,R600、RV670、RV730顯存帶寬每次砍一半,結果性能基本維持。
AMD GPU的瓶頸可能是TMU和ROP,但帶寬基本上不是(浮點能力應該也不至于)。
4850用2000Mhz的GDDR3和2220Mhz的9800GTX至少戰成平手。
4670用128bit壓制192bit的9600GSO。
造成這個差別的顯然就是ATI的幾個節約帶寬的專利技術。
現在9600GT和GTX260+是靠跟對手錯位的顯存規模來迎戰的對手的同級產品的。顯存完全同級的都失手了(9800GT對4850,9500GT對4670)。
所以說,NV下一代選擇錯位的顯存位寬也許比較好?
96bit對陣64bit
192bit對陣128bit
384bit對陣256bit
NV和AMD的GPU瓶頸是不同的。
NV這邊可以舉出例子來
96SP 192bit的9600GSO明顯不如64SP 256bit的 9600GT。
實際上沒有比后來的48SP 192bit 9600GSO好多少。
可見,NV的瓶頸在ROP和顯存上。
大批的NV顯卡用上了強力的0.8ns GDDR3,我不清楚這種GDDR3能比4770所用的GDDR5便宜多少。
反過來,AMD這邊,R600、RV670、RV730顯存帶寬每次砍一半,結果性能基本維持。
AMD GPU的瓶頸可能是TMU和ROP,但帶寬基本上不是(浮點能力應該也不至于)。
4850用2000Mhz的GDDR3和2220Mhz的9800GTX至少戰成平手。
4670用128bit壓制192bit的9600GSO。
造成這個差別的顯然就是ATI的幾個節約帶寬的專利技術。
現在9600GT和GTX260+是靠跟對手錯位的顯存規模來迎戰的對手的同級產品的。顯存完全同級的都失手了(9800GT對4850,9500GT對4670)。
所以說,NV下一代選擇錯位的顯存位寬也許比較好?
96bit對陣64bit
192bit對陣128bit
384bit對陣256bit
>>差別的顯然就是ATI的幾個節約帶寬的專利技術。
>>NV的瓶頸在ROP和顯存上
也許,但不完全是這樣.
與其說是瓶頸不同,不如說是設計方向不一樣,
導致對頻寬的需求不同.
遊戲的shader有上千,有些是需要大量ALU運算,
有些需要大量Tex運算(這又和AF的高低有關).
GPU在哪些測試佔優勢,與其設計注重的方向有關.
NV最近設計大都是靠比人家多的TEX或ROP來對打,
雖然SP運算量居劣勢,在ALU運算需求小的Shader運算
中靠ROP或TEX優勢,想辦法追平.
但問題是TEX和ROP都要對外面GDDR3頻寬存取,
所以NV要發揮這方面優勢,就得配上比ATI更大的頻寬…
例如9600GT有16ROP,但對手HD4650只有8ROP.
(ATI到HD4800等級才用上16ROP.)
不管NV節約頻寬的能力是否比得上ATI.
(我是不覺得有差,9600GSO不算好例子,
16ROP只用192bit本來就不夠用,起碼要256bit)
NV裝了比人家多的TEX或ROP,本來就要更多頻寬.
ROP不是NV的瓶頸反而是NV的優勢(數量多),
只是這需要”頻寬夠大”這個前提,優勢才能成立.
ATI則是在ROP或TEX輸掉的部分,依賴其較強浮點運算能力,想辦法在ALU需求大的Shader運算中再贏回來,
所以ATI的設計方向的頻寬需求原本就比NV小很多.
倒不見得是ATI省頻寬設計上有很明顯領先.
兩社其實都是8ROP最少要128bit以上,
16ROP需要256bit以上,並沒有很大差別.
GPU的瓶頸是一直變動的.
ATI能用小頻寬追平大頻寬的對手,並不是它的ROP
比人家好很多…..只是因為它不是靠ROP贏的XD
>>差別的顯然就是ATI的幾個節約帶寬的專利技術。
>>NV的瓶頸在ROP和顯存上
也許,但不完全是這樣.
與其說是瓶頸不同,不如說是設計方向不一樣,
導致對頻寬的需求不同.
遊戲的shader有上千,有些是需要大量ALU運算,
有些需要大量Tex運算(這又和AF的高低有關).
GPU在哪些測試佔優勢,與其設計注重的方向有關.
NV最近設計大都是靠比人家多的TEX或ROP來對打,
雖然SP運算量居劣勢,在ALU運算需求小的Shader運算
中靠ROP或TEX優勢,想辦法追平.
但問題是TEX和ROP都要對外面GDDR3頻寬存取,
所以NV要發揮這方面優勢,就得配上比ATI更大的頻寬…
例如9600GT有16ROP,但對手HD4650只有8ROP.
(ATI到HD4800等級才用上16ROP.)
不管NV節約頻寬的能力是否比得上ATI.
(我是不覺得有差,9600GSO不算好例子,
16ROP只用192bit本來就不夠用,起碼要256bit)
NV裝了比人家多的TEX或ROP,本來就要更多頻寬.
ROP不是NV的瓶頸反而是NV的優勢(數量多),
只是這需要”頻寬夠大”這個前提,優勢才能成立.
ATI則是在ROP或TEX輸掉的部分,依賴其較強浮點運算能力,想辦法在ALU需求大的Shader運算中再贏回來,
所以ATI的設計方向的頻寬需求原本就比NV小很多.
倒不見得是ATI省頻寬設計上有很明顯領先.
兩社其實都是8ROP最少要128bit以上,
16ROP需要256bit以上,並沒有很大差別.
GPU的瓶頸是一直變動的.
ATI能用小頻寬追平大頻寬的對手,並不是它的ROP
比人家好很多…..只是因為它不是靠ROP贏的XD
> GPU的瓶頸是一直變動的.
> ATI能用小頻寬追平大頻寬的對手,並不是它的ROP
> 比人家好很多…..只是因為它不是靠ROP贏的XD
從底層fillrate測試可以知道,ATI的ROP和NVIDIA的性能沒有很大的差異….
> GPU的瓶頸是一直變動的.
> ATI能用小頻寬追平大頻寬的對手,並不是它的ROP
> 比人家好很多…..只是因為它不是靠ROP贏的XD
從底層fillrate測試可以知道,ATI的ROP和NVIDIA的性能沒有很大的差異….