http://pc.watch.impress.co.jp/docs/column/kaigai/20100729_383968.html
基本アーキテクチャの柔軟さが産んだGeForce GTX 460
討論了GF104增加單元後該怎麼處理記憶體延遲的問題。
不過感覺問題有點回到雞生蛋蛋生雞….
GF100和GF104的整個記憶體系統架構是完全一樣的:
32768 32bit register、64KB shared memory + L1 cache per SM、512KB L2 per ROP。
所以追加只有SP和warp scheduler (和TEX)。
其次是,register file其實一樣可以增加來消化更多的thread需求,以避免sp閒置;
但是除了繪圖之外的工作,在性質上會比較需要cache,所以GF100以擴充shared memory/cache來滿足這些要求,
所以疑問就變成:多出來的東西上哪去了?或者說過去是不是有東西是閒置的?
後藤的看法是,GF104增加sp數量的時候沒有增加register,是因為這些壓力由512KB的L2 cache消化掉了。
不過GF104相對於GF100的cache並沒有增加,這就會變成在繪圖工作上,GF100的L2 cache是沒有滿載的。
對繪圖而言(主要是tex read需求),cache並不會很有效,所以有閒置空間這點或許說得過去;不過要說GPU漸漸地轉向對cache hit有期望似乎是有點讓人疑惑的部分。
GF100系列的cache主要的目的是為了增加有效頻寬,而非過去CPU所謂的隱蔽記憶體延遲才是。
所以以前沒餵飽,現在才補上unit?