http://pc.watch.impress.co.jp/docs/2008/0620/kaigai449.htm
GeForce GTX 280の倍精度浮動小数点演算
倍精度方面提供的功能看起來盡可能塞滿了….不過不可忽略的是,畢竟還是只做1/8而已。
以ALU規模來說,倍精度會比單精度大一些,但是還是占SP總規模10%左右;反過來說,作全速的話就是SP會變成180%。
(還是沒有double就是了)
問題終究是在記憶體頻寬上,以實際運算能量約90GFLOPS來說,Tesla T10P提供了100GB/s的頻寬(以及4GB的容量),其實是有搭上去。
不過以倍精度性能和電晶體規模來說其實是不怎麼樣,混合精度是必要的。
只是CELL也做過這樣的東西(特殊版的Linpack),但是最後還是推出PowerXcell這樣的產品,也許某種意味上全速倍精度是一種宣傳用的東西。