http://www.beyond3d.com/content/articles/106/
Beyond3D:Tesla 10 & CUDA 2.0: Technical Analysis & Performance
目前改進的範疇都還是用起來比較方便,但是GPU對一般的programmer來說還是很麻煩,因為你要知道為什麼你的程式快不起來,你就非得去了解GPU架構;而Larrabee應該會以幹掉這個部分為主要的賣點….
Missing MUL的問題:在G80時代只有在CUDA底下才能發揮出來,在GT200似乎只要一些排程上的小限制就可以在大部分的狀況下達到理論值;目前PCIe 2.0的頻寬利用率在CUDA底下是大約6GB/s,即總頻寬的75%。
PCI-Express 2.0目前”總算”達到雙向傳輸,或者是邊做單向傳輸、邊做運算;下一代會做到運算與PCIe雙向傳輸可以同時進行。
目前看起來最大的改進可能是那個沒有大幅宣傳的Memory read/write combine(Atomic unit),G80的時候每個warp都還是需要循序讀取、不然就得自己讀進share memory後再排序,這點看起來算是大改進。
雖然B3D敘述的時候講得很保留,說沒什麼魔法、只是會方便些….XD