Tib扔過來的東西,先前有看過的印象好像
http://forums.nvidia.com/index.php?showtopic=58846
CUDA optimization vs. CELL, For those who asked…
Intel Core2Quad @ 3.4 Ghz (using 1 of 4 cores) = 376.87 million permutations/second.
nVidia GTS-8800 (320Mb) @ 1.2 Ghz/1.6 Ghz DDR (using 96/96 cores) = 4.66 billion permutations/second.
nVidia GTX-8800 (768Mb) @ 1.35 Ghz/1.8 Ghz DDR (using 128/128 cores) = 6.65 billion permutations/second.
I now will rewrite the CELL engine to incorporate a number of new optimizations I hve discovered whilst writing the CUDA version, but for the sake of reference, the previous CELL version running on 6 SPU’s @ 3.2 Ghz ran at about 5.25 billion permutations/second.
PS3 CELL在還有optimize空間的狀況下,已經有和8800GTX相去不遠的表現….嘿嘿。
當然xRPSx這位仁兄的application本身的條件不見得可以直接和其他人比較,需求也是個問題。
想想GT200的倍精度終究是1/8,其實和目前PS3 CELL的條件很類似,把混合精度考慮進去的話其實也有衝到相當高性能的案例(比方說IBM的CELL用混合精度版本Linpack),這樣的硬體就會讓人思考”出色的單精度性能”帶來的意義。(用強大的單精度運算資源把工作衝到某個程度之後,再由倍精度單元接手)
當然實際CELL增加倍精度單元的成本很小、GT200也提到8:1的倍精度單元占大約10%的SP規模,其實代表單經度和倍精度單元在實際電晶體規模上並沒有很大的差距,有差的只有能不能滿足這些單元的記憶體吞吐能力。
Core2Quad,G80,Cell這些chip隨然都是可拿來作浮點計算,可是指令/架構都不同,比較的價值很可議不是.
一個sin()per cycle和u 十個 ADD per cycle又如何比出優劣呢?而我們又該以什麼觀點,來看待這網告宣傳技倆呢?
Core2Quad,G80,Cell這些chip隨然都是可拿來作浮點計算,可是指令/架構都不同,比較的價值很可議不是.
一個sin()per cycle和u 十個 ADD per cycle又如何比出優劣呢?而我們又該以什麼觀點,來看待這網告宣傳技倆呢?
只要他對你的工作有幫助,你就值得買。
這位在NVIDIA forum發文的人是以自己的程式optimize經驗為根據發文,所以”在他的工作上”CELL和G80一樣快,而且CELL還能更快,那對他而言就不只是廣告,而是可以變成薪水的東西。
當然對我們而言那就不見得了,除非我們座位在他旁邊。
只要他對你的工作有幫助,你就值得買。
這位在NVIDIA forum發文的人是以自己的程式optimize經驗為根據發文,所以”在他的工作上”CELL和G80一樣快,而且CELL還能更快,那對他而言就不只是廣告,而是可以變成薪水的東西。
當然對我們而言那就不見得了,除非我們座位在他旁邊。