http://bbs.gzeasy.com/index.php?showtopic=460367
X1800 XT : 8VS 4 QUAD, SHADER CORE结构几乎和R420雷同,只是增加了SM3.0。
ATI将会标榜:R5XX是唯一通过DCT测试的SM3.0 GPU, R520是在SM3.0上是DONE RIGHT。
Ring Bus那里能相当于8个32bit MC。
X1800XT在这个宇宙最准确频率规格:625MHz|1500MT/s。
唯一能支持FP HDR MSAA…
支持FP文理压缩,新的3DC+
Papers在手,手痒。
所以你們這些媒體都欠打。XD
比較有趣的東西我覺得是
FP Tex compress、FP HDR MSAA之類的。
至於Ring Bus,相當於8×32的結構?照這樣看和我先前猜的不一樣….
DCT = Display Compatibility Test,SM3 done right?
這我就不知道是什麼了….
規格是8vs、4quad(16ps),不是10vs…..
總之,就算無力,ATI總是得回擊一下的,不然會被當成紙老虎。
雖然我覺得今年這個態勢,不當紙老虎都不行了….
—-
以下,問答:
R520 on hand 說:
Intel 3.0GHz Pentium4 12 GFLOPs, 5.96 GB/s
RadeonX1800XT 83 GFLOPs, 42 GB/s
Eji 說:
83GFLOPs……有FP filtering & blending嗎?
R520 on hand 說:
i think not
Eji 說:
看起來真的要靠Shader 拼了嗎…….
然後FSAA的FP,倒是真的有做進去
R520 on hand 說:
full time FP32
8XG FLOPS很厉害吗?我怎么一点都不觉得?
Eji 說:
是看不太出來啦……(回頭看G70)
R520 on hand 說:
理论值:
R520:Pixel Shader:120GFLOPS
G70:Pixel Shader:165GFLOPS
Eji 說:
那個83G是啥?
R520 on hand 說:
我就为此感到奇怪。
Eji 說:
怪。
R520 on hand 說:
如果你按照8FLOP per ALU就很接近。
按照650MHz来计算。
我按照625是80
用GPUBENCH跑测试的话,这个东西会很难看。
我想X1800的branch性能非常了得,fear如果用了sm3.0的branch也就很容易解释了。
ati说它是14个周期,而传统是20个周期,但是没有说是不是指nv4x。
Eji 說:
well,除了NV4x也沒別的SM3 device了
R520 on hand 說:
RV530 suck
4 tmu 12 shader.
Eji 說:
……….O_O 4TMU for 12 shader?!
R520 on hand 說:
ya!
Eji 說:
所以是4ROP?
R520 on hand 說:
4rop double z
Eji 說:
wait,所以……R520是幾個TMU?
R520 on hand 說:
16
RV530变成4。
Eji 說:
…….看來還是每個shader有1個TMU…..
但是RV530怎麼會變成4呢….該不會是4×3吧。
R520 on hand 說:
lol。
怪物。
Eji 說:
看起來RV530不見得能夠打贏NV43啊
R520 on hand 說:
可能是不这样弄的话,成本压不下去。
毕竟是FULL FP32。
Eji 說:
RV515是4×1 shader、1TMU 1ALU per pipe;RV530看起來是4×3、1TMU 3ALU per pipe的意思?
但是我覺得,FULL FP32不見得會比FP16 + FP32小啊
你想看看,R520的size大得多离谱。
要知道,nv43是110nm,不会比90nm差很多的尺寸。
剩下的請發表當天再探究吧。
目前看來,ATI 似乎真的沒提供FP filtering & blending,
打算靠Shader處理…. 不過FP filtering & Blending 也許只有HDR流程用到,這也是一種想法就是了
。
話說回來,由於NV4x的Blending在ROP的關係,老實說NVIDIA比較有資格說他們是FP ROP。
重點應該在FP MSAA,SSAA的話G70其實應該是可以手動做到的。
這邊有一個重點在於:FSAA unit為了效率考量,通常會自己準備blender & sampler,因為這樣一來只要記憶體頻寬夠大,就不會有額外的效能損耗,所以我們常說的「MSAA支援與否」也是在指這點。
因為G70的FSAA unit並沒有內建FP blender、Sampler,像上面說的用手動取用的方式做SSAA,會變成與主blender共用而造成性能下降;至於ATI的話顯然就不會有這個問題了。
總之,NVIDIA的目的是透過FP16 得到更好的 Normal mapping品質,以及較好的HDR能力,所以有提供FP filtering & blending;ATI則比較重視FSAA,所以對FSAA unit裡面放了FP支援;可是相當有趣的是,其實單元結構上是相同的,FSAA unit裡面的FP sampler & blender,除了因應FSAA的需求而做了簡化之外,與FP filtering / blending需要的單元其實幾乎完全相同。
所以….其實雙方的考量都是很有趣的。
回過頭來論Shader….以Cho的說法,R520的PS照樣是R3x0/R4x0的設計的話,那就是main32 + mini32,差在能不能FMA,理論值算起來就會變成:
[(3+1)x2+(3+1)]x16 x 625MHz = 120GFLOPs 。
G70則是 [(3+1)+(2+2)]x2 x24 x430MHz = 165.12GFLOPs。
這邊已經把TMU的7flops nrm_pp給除掉了,FP filter & blender也都除外不算。
VS的話,雙方都是4+1D,數量又都是8個…. 所以時脈高的R520佔絕對優勢。
連VS一起加進去的話,就是R520共(4+1)x2 x8 x625M = 50GFLOPs、120G+50G = 170GFLOPs,
對上G70共 (4+1)x2 x8 x 430MHz = 34.4GFLOPs,165.12G+34.4G= 199.52GFLOPs。
所以除了ALU結構上取巧、透過增加功能減少pass數之外,其實拼運算資源的話R520真的會輸得蠻慘的….
所以,SM3+ 看來是有起一點作用…. 比方說那個600指令的Shader demo,ATI宣稱R520只需要14個pass、"以往的產品"則需要20個pass。我相信那個"以往"指的是NV4x & G7x。
當然啦,這又會回到 PS1.1 & PS1.4時期的競爭就是了,這回又是NVIDIA先出,所以大概還是會對廠商起一點影響吧….
不過,因為HLSL的關係,這回廠商要作多個path對應不同profile簡單很多的關係,影響應該會大大減小,也就是說應該還是有機會看到SM3+帶來好處。