http://pc.watch.impress.co.jp/docs/news/20100601_371352.html
中国のNVIDIA Tesla搭載スパコンがTOP500の2位に
http://www.itmedia.co.jp/news/articles/1006/01/news013.html
中国産スーパーコンピュータ、IBM抜き世界2位に
先不要講Jaguar本身也打算擴充Tesla….
http://pc.watch.impress.co.jp/docs/news/20100601_371352.html
中国のNVIDIA Tesla搭載スパコンがTOP500の2位に
http://www.itmedia.co.jp/news/articles/1006/01/news013.html
中国産スーパーコンピュータ、IBM抜き世界2位に
先不要講Jaguar本身也打算擴充Tesla….
看樣子,
IBM就算有PowerXCell 32iv也很難奪回第一吧?
不過話說回來,
PowerXCell 32iv到現在連點消息都沒有…
IBM 的下一部超級電腦是用 POWER7(叫 PERCS,Productive, Easy-to-use, Reliable Computing System),第一部電腦會是 Blue Waters,預計 2011 年完成,最高運算速度預計是 10 PFLOPS。
至於 PowerXCell 32iv 應該是去年底就停止發展了(PERCS 這個名字完全和 CELL 相反啊… >.< )
不是說停產的是PowerXCell 32ii嗎?
要靠32iv奪回來可難嘍~ 不過大家都可以裝Tesla啊….
我個人是認為,如果還在做的話,早該有消息了 😛
整體來說我認為 CELL 架構應該算是失敗了…它沒有達到預期的效能水準,開發的困難度也高,而光靠 HPC 市場基本上是沒辦法養活一個 CPU 的(看看 NEC 的 SX 系列就知道了… 🙁 )
http://journal.mycom.co.jp/…al/2010/gpu/004.html
話說GF100的SFU有MUL的運算嗎?
還是說之前的單精度浮點數值是CUDA下的關係?
GF100沒MUL了啦,只有一個FMA….所以它每個SP分配到的register file其實是縮回和G80相當的程度,只是一來多了cache讓一些program變得「比較不會變慢」,二來是本來就沒有MUL的話當然不會有missing MUL的問題。
1401MHz×(480SP×2OP+60SFU×4OP)≒1681GFLOPS(1.68TFLOPS)
那麼西川善司的算法有誤了。
>>1401MHz×(480SP×2OP+60SFU×4OP)≒1681GFLOPS
GF100的1 SFU應該還是2Flops吧? (1FMADD)
GeForce GTX 4×0は480SPで1SPあたりが積和算(2OP)をこなせ、さらにSFUは1基あたり4個の浮動小数点乗算をこなせる。
西川在下面的連結文章寫了上面的話:
http://journal.mycom.co.jp/…al/2010/gpu/004.html
>>GF100的1 SFU應該還是2Flops吧? (1FMADD)
現在waffenss兄又說了這句,
所以現在的狀況是…好混亂啊_A_|||
GPU通常應該只算SP的MUL+ADD運算量(2OP)
SFU只需要處理sin cos之類特殊運算
不過有時SFU也順便加了MUL+ADD(2OP)的能力,
這時就把它當成比較肥大的SP來看待.
它的SFU可以做任何SP能做的工作.
例如ATI的運算量就是(4+1) x 2OP x Ghz
NV的話因為SFU比例偏低,(32SP只配4SFU)
且不確定SFU是否有MUL+ADD運算能力.
我們通常不算這SFU的運算量.
而且NV自己的數據似乎也不算進SFU的.
PS:
之前GT280 free mul應該是做在一般SP內.
而非SFU.
否則光靠8:1的SFU比例,數量這麼少
不可能支撐理論上多50%的flops.
free mul應該是SP有特殊模式可以dual issie
每個SP理論上都可多算一次MUL.
西川把SFU也加進總運算量,
而且給他一個很奇怪的4OP數據.這還蠻奇怪的,
不知道4OP是算了甚麼東西。
西川是算OP,而不是一般只算Mul+Add
OP運算可以有很多種不同功能甚至不同精度,
全部混為一談來算總操作次數Gops.
數據就會比較好看…..
但是有些OP/ALU正常使用率可能只有3%,
會造成數據參考價值比較低.
例如G70有很多這種算op的mini ALU.
連貼圖單位的address運算單元都可以挪來當ALU.
所以G70總op數據甚至超過G80.
所以通常比較的還是 Mul+Add 的Gflops運算量.
至少那運算很泛用,比較能看出GPU真實能力.
>>SFUは1基あたり4個の浮動小数点乗算をこなせる。
仔細看看,發現他真的說了1SFU可以算4個FMUL.
嗯~~第一次看到這種說法.
1SFU可以平行處理vec4的向量乘法? 難以理解.
SFU特殊運算單位是把用一般SP需要很多指令模擬的運算,
都硬體化,以提升效率.
也許他是把某SFU硬體指令,解釋為用軟體需要4個乘法來模擬.
所以相當於4個OP?
>>1SFU可以平行處理vec4的向量乘法? 難以理解.
應該是SFU和vec4MUL的電路是有共用的吧?
以上是小弟把後藤大叔的文章重閱後的猜測,
因為他總是將G8x、G9x、GT2xx的架構圖中的2SFU和4MUL畫在一起。
總結來說我覺得是西川善司弄錯了吧?
因為GF100的眾多文章中,
只有西川善司有提及SFU還有MUL運算。
去指正西川好了XD
http://pc.watch.impress.co.jp/…aigai-13.jpg.html
後藤老爹的GT200架構圖
http://pc.watch.impress.co.jp/…/html/02.jpg.html
和GF100的比較