http://forums.amd.com/forum/messageview.cfm?catid=328&threadid=94180
The XYZW are the vector element and the T is scalar. Each SIMD processes 16 elements a cycle over four cycles, giving a granularity of 64 elements on 670. The wavefront size, which is different from chip to chip, is this granularity and all instructions in a kernel are executed on group of elements at the wavefront size.
(by Micah Villmow)
所以不論G80或是R600,目前沒有哪個GPU不是4D vector + something else構成的,都不是什麼1D scalar unit…. XD
只是ATI每個core(array)塞了16個4D,NVIDIA每個core只有4~6個4D,結果因為設計複雜度之故,兩邊每個core居然差不多大….。
感覺像三英(x N) 戰呂布
不趴也難
也不能這麼說啦。
RV770雖然在每個array追加了一塊Local Data Share,也在array群外頭放了個global data share,但是要做thread interconnection的時候還是不如G8x的local store好用;當然更極端的,只有一個4D的SPE因為有256KB Local Store,在不少case底下一顆CELL還能跑贏G80和RV670呢。
不過無論如何,R600一直到RV770為止,可說都是專職於”GPU和類似shader工作的GPGPU”,所以繪圖部分現在看來越來越出色…. 但是是不是代表一定要向G80這樣大刀闊斧才能夠在GPGPU市場上取得成功?
從programming model來說其實CELL更單純更好用,但是做到這樣的話顯然身為shader就不太能用了。
所以平衡是很難抓的….
也不能這麼說啦。
RV770雖然在每個array追加了一塊Local Data Share,也在array群外頭放了個global data share,但是要做thread interconnection的時候還是不如G8x的local store好用;當然更極端的,只有一個4D的SPE因為有256KB Local Store,在不少case底下一顆CELL還能跑贏G80和RV670呢。
不過無論如何,R600一直到RV770為止,可說都是專職於”GPU和類似shader工作的GPGPU”,所以繪圖部分現在看來越來越出色…. 但是是不是代表一定要向G80這樣大刀闊斧才能夠在GPGPU市場上取得成功?
從programming model來說其實CELL更單純更好用,但是做到這樣的話顯然身為shader就不太能用了。
所以平衡是很難抓的….