感想先行:終於輪到NVIDIA出現這種消息了…._A_
GTX350:
GT300 core、55nm、512bit GDDR5 2GB、216GB/s
480sp、64ROP、830/2075/3360
36.3Gpixel/s、84.4Gtexel/s。
die size 576mm^2(same as G100)
一言:搭不起來XD
好吧,作一些校正可能看起來比較像。
根據NVIDIA的說法,G100和後續的數個core屬於GT200的關係,所以短期內應該不會出現GT300,而應該是G105/G110之類的編號。
意思就是短期內再修改TPC結構(8TMU + 3SMx8sp)是不太可能的。
其次,上面的觀念大概是shader/TPC double、ROP維持,那就應該是20TPC(60SM、160TMU)、32ROP。
運作的core時脈訂得太高了,都已經有非等時shader了,現在NVIDIA不太可能搞出個750MHz~800MHz之間的core,大概是750MHz以下比較可能。
shader本身則是2GHz,這接近當初G9x的可達時脈。
GDDR5的時脈定得就有點慢了,3.375GHz比現在4870使用的3.6G還慢,而sample實際的運作時脈是5GHz….
所以校正過的規格應該是:
32ROP x800MHz = 25.6Gpixel/s
160TMU x 800MHz = 128Gtexel/s
60SM x 8sp(3flops) x 2GHz = 2.88TFLOPS
512bit x 3.6GHz = 230.4GB/s
最後是檢討:
65nm到55nm只多了40%的die size可用的關係,在這之中要擠出shader double的空間不太容易,因為根據G100的die photo,TPC(shader + TMU)占的空間應該是有超過一半(約60%)。
所以如果擴增到1.4倍就可以增加兩倍shader的話,那就是代表還是要做一些額外的optimize….以先前西川善司在4gamer的說法,G100的TPC是custom design,大概沒什麼可以縮的空間,能縮的就是ROP了。
那ROP不就等於就得縮到1/2…..怎麼可能XD
話說維持576mm^2的 die size,其實會讓人想到Larrabee….
我認為真做480SP,也是擴大TPC的規模而非增加TPC。
G80架構TPC到ROP是crossbar的。
G80的8X8,GT200的10X8
還算是能夠想象的事物。
但是如Eji所說,這玩意將是20X8……我不知道歷史上有沒有出現過,據我所知,還沒有。
不曉得NVIDIA有否想過把SFU的FMUL升成FMAD…_A_?
不曉得NVIDIA有否想過把SFU的FMUL升成FMAD…_A_?
> 我認為真做480SP,也是擴大TPC的規模而非增加TPC。
> 但是如Eji所說,這玩意將是20X8……我不知道歷史上有沒有出現過,據我所知,還沒有。
十位數node的crossbar真的會很可怕,但是用ringbus or mesh network(如Tile64)….又蠻讓人擔心規模,所以TPC裡面的擴增應該是比較合理的選項。
可是我們是不是忘了:TPC”裡面”也是crossbar啊。_A_
GT200系的TPC/SM結構,應該就是差在倍精度支援(不是個數),以及相應的register file比例。
如果TPC增加一個SM真的就得多吃1/4以上(TMU也很大不可忽視),那老實說增加到哪邊都一樣XD
—-
> 不曉得NVIDIA有否想過把SFU的FMUL升成FMAD…_A_?
那個FMUL的結構和前面的FMAD需求不太一樣,我覺得要upgrade有困難。
> 我認為真做480SP,也是擴大TPC的規模而非增加TPC。
> 但是如Eji所說,這玩意將是20X8……我不知道歷史上有沒有出現過,據我所知,還沒有。
十位數node的crossbar真的會很可怕,但是用ringbus or mesh network(如Tile64)….又蠻讓人擔心規模,所以TPC裡面的擴增應該是比較合理的選項。
可是我們是不是忘了:TPC”裡面”也是crossbar啊。_A_
GT200系的TPC/SM結構,應該就是差在倍精度支援(不是個數),以及相應的register file比例。
如果TPC增加一個SM真的就得多吃1/4以上(TMU也很大不可忽視),那老實說增加到哪邊都一樣XD
—-
> 不曉得NVIDIA有否想過把SFU的FMUL升成FMAD…_A_?
那個FMUL的結構和前面的FMAD需求不太一樣,我覺得要upgrade有困難。
想不想來 黃仁勳要來台大耶
想不想來 黃仁勳要來台大耶
http://0rz.tw/a94oY
http://0rz.tw/a94oY