AMD forum的一些本音洩漏

http://forums.amd.com/forum/messageview.cfm?catid=328&threadid=94180

The XYZW are the vector element and the T is scalar. Each SIMD processes 16 elements a cycle over four cycles, giving a granularity of 64 elements on 670. The wavefront size, which is different from chip to chip, is this granularity and all instructions in a kernel are executed on group of elements at the wavefront size.

(by Micah Villmow)

所以不論G80或是R600,目前沒有哪個GPU不是4D vector + something else構成的,都不是什麼1D scalar unit…. XD

只是ATI每個core(array)塞了16個4D,NVIDIA每個core只有4~6個4D,結果因為設計複雜度之故,兩邊每個core居然差不多大….。

在〈AMD forum的一些本音洩漏〉中有 3 則留言

  1. 也不能這麼說啦。
    RV770雖然在每個array追加了一塊Local Data Share,也在array群外頭放了個global data share,但是要做thread interconnection的時候還是不如G8x的local store好用;當然更極端的,只有一個4D的SPE因為有256KB Local Store,在不少case底下一顆CELL還能跑贏G80和RV670呢。
    不過無論如何,R600一直到RV770為止,可說都是專職於”GPU和類似shader工作的GPGPU”,所以繪圖部分現在看來越來越出色…. 但是是不是代表一定要向G80這樣大刀闊斧才能夠在GPGPU市場上取得成功?
    從programming model來說其實CELL更單純更好用,但是做到這樣的話顯然身為shader就不太能用了。
    所以平衡是很難抓的….

  2. 也不能這麼說啦。
    RV770雖然在每個array追加了一塊Local Data Share,也在array群外頭放了個global data share,但是要做thread interconnection的時候還是不如G8x的local store好用;當然更極端的,只有一個4D的SPE因為有256KB Local Store,在不少case底下一顆CELL還能跑贏G80和RV670呢。
    不過無論如何,R600一直到RV770為止,可說都是專職於”GPU和類似shader工作的GPGPU”,所以繪圖部分現在看來越來越出色…. 但是是不是代表一定要向G80這樣大刀闊斧才能夠在GPGPU市場上取得成功?
    從programming model來說其實CELL更單純更好用,但是做到這樣的話顯然身為shader就不太能用了。
    所以平衡是很難抓的….

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料