Tesla開始吃下TOP500的上位嘍

http://pc.watch.impress.co.jp/docs/news/20100601_371352.html

中国のNVIDIA Tesla搭載スパコンがTOP500の2位に

http://www.itmedia.co.jp/news/articles/1006/01/news013.html

中国産スーパーコンピュータ、IBM抜き世界2位に

先不要講Jaguar本身也打算擴充Tesla….

在〈Tesla開始吃下TOP500的上位嘍〉中有 14 則留言

看樣子，
IBM就算有PowerXCell 32iv也很難奪回第一吧？
不過話說回來，
PowerXCell 32iv到現在連點消息都沒有…

IBM 的下一部超級電腦是用 POWER7（叫 PERCS，Productive, Easy-to-use, Reliable Computing System），第一部電腦會是 Blue Waters，預計 2011 年完成，最高運算速度預計是 10 PFLOPS。
至於 PowerXCell 32iv 應該是去年底就停止發展了（PERCS 這個名字完全和 CELL 相反啊… >.< ）

不是說停產的是PowerXCell 32ii嗎？

要靠32iv奪回來可難嘍~ 不過大家都可以裝Tesla啊….

我個人是認為，如果還在做的話，早該有消息了 😛
整體來說我認為 CELL 架構應該算是失敗了…它沒有達到預期的效能水準，開發的困難度也高，而光靠 HPC 市場基本上是沒辦法養活一個 CPU 的（看看 NEC 的 SX 系列就知道了… 🙁 ）

http://journal.mycom.co.jp/…al/2010/gpu/004.html
話說GF100的SFU有MUL的運算嗎？
還是說之前的單精度浮點數值是CUDA下的關係？

GF100沒MUL了啦，只有一個FMA….所以它每個SP分配到的register file其實是縮回和G80相當的程度，只是一來多了cache讓一些program變得「比較不會變慢」，二來是本來就沒有MUL的話當然不會有missing MUL的問題。

1401MHz×(480SP×2OP+60SFU×4OP)≒1681GFLOPS(1.68TFLOPS)
那麼西川善司的算法有誤了。

>>1401MHz×(480SP×2OP+60SFU×4OP)≒1681GFLOPS
GF100的1 SFU應該還是2Flops吧? (1FMADD)

GeForce GTX 4×0は480SPで1SPあたりが積和算(2OP)をこなせ、さらにSFUは1基あたり4個の浮動小数点乗算をこなせる。
西川在下面的連結文章寫了上面的話：
http://journal.mycom.co.jp/…al/2010/gpu/004.html
>>GF100的1 SFU應該還是2Flops吧? (1FMADD)
現在waffenss兄又說了這句，
所以現在的狀況是…好混亂啊_A_|||

GPU通常應該只算SP的MUL+ADD運算量(2OP)
SFU只需要處理sin cos之類特殊運算
不過有時SFU也順便加了MUL+ADD(2OP)的能力,
這時就把它當成比較肥大的SP來看待.
它的SFU可以做任何SP能做的工作.
例如ATI的運算量就是(4+1) x 2OP x Ghz
NV的話因為SFU比例偏低,(32SP只配4SFU)
且不確定SFU是否有MUL+ADD運算能力.
我們通常不算這SFU的運算量.
而且NV自己的數據似乎也不算進SFU的.
PS:
之前GT280 free mul應該是做在一般SP內.
而非SFU.
否則光靠8:1的SFU比例,數量這麼少
不可能支撐理論上多50%的flops.
free mul應該是SP有特殊模式可以dual issie
每個SP理論上都可多算一次MUL.
西川把SFU也加進總運算量,
而且給他一個很奇怪的4OP數據.這還蠻奇怪的,
不知道4OP是算了甚麼東西。
西川是算OP,而不是一般只算Mul+Add
OP運算可以有很多種不同功能甚至不同精度,
全部混為一談來算總操作次數Gops.
數據就會比較好看…..
但是有些OP/ALU正常使用率可能只有3%,
會造成數據參考價值比較低.
例如G70有很多這種算op的mini ALU.
連貼圖單位的address運算單元都可以挪來當ALU.
所以G70總op數據甚至超過G80.
所以通常比較的還是 Mul+Add 的Gflops運算量.
至少那運算很泛用,比較能看出GPU真實能力.

>>SFUは1基あたり4個の浮動小数点乗算をこなせる。
仔細看看,發現他真的說了1SFU可以算4個FMUL.
嗯~~第一次看到這種說法.
1SFU可以平行處理vec4的向量乘法? 難以理解.
SFU特殊運算單位是把用一般SP需要很多指令模擬的運算,
都硬體化,以提升效率.
也許他是把某SFU硬體指令,解釋為用軟體需要4個乘法來模擬.
所以相當於4個OP?

>>1SFU可以平行處理vec4的向量乘法? 難以理解.
應該是SFU和vec4MUL的電路是有共用的吧？
以上是小弟把後藤大叔的文章重閱後的猜測，
因為他總是將G8x、G9x、GT2xx的架構圖中的2SFU和4MUL畫在一起。
總結來說我覺得是西川善司弄錯了吧？
因為GF100的眾多文章中，
只有西川善司有提及SFU還有MUL運算。

去指正西川好了XD
http://pc.watch.impress.co.jp/…aigai-13.jpg.html
後藤老爹的GT200架構圖
 http://pc.watch.impress.co.jp/…/html/02.jpg.html
和GF100的比較

Eji的碎碎念

Tesla開始吃下TOP500的上位嘍

在〈Tesla開始吃下TOP500的上位嘍〉中有 14 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈Tesla開始吃下TOP500的上位嘍〉中有 14 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆