而且還比QS22(5/14)還早…._A_a
http://www.fixstars.com/company/press/20080403.html
フィックスターズ、最新型Cell/B.E.を搭載したアクセラレータボードを発売
http://www.fixstars.com/products/gigaaccel180/
Cell搭載アクセラレータボード GigaAccel180
Fixstars目前是請日本IBM做OEM、然後以整體服務包裝的方式銷售。
ex:
フィックスターズ、みずほ証券のデリバティブシステムをCell/B.E.で高速化に成功
http://ameblo.jp/mikisatoshi/entry-10103289680.html
ヘテロジニアス・マルチコアプロセッサの普及
這篇寫得真不錯….CELL的重心其實在於software managed cache/scratchpad memory的記憶體model,可以針對用途做到非常精細的控制,達到最高的效率,但是要達到這麼高的效率,顯然地需要長期且深入的optimize。
其實是在批判速成programmer生產速食code的弊害啊….XD
—-
http://www.realworldtech.com/forums/index.cfm?action=detail&id=91674&threadid=91674&roomid=2
Topic: Updated CELL/BE roadmap
http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/080610_Cell_Strat_JHC_Japan.pdf
– PowerXCell 32ii (2 x PPE’ + 32 x SPE’) is replaced by PowerXCell 32iv (4 x PPE’ + 32 x eSPE)
– higher frequency (~3.8GHz)
– 100% backword compatible
– Performance on PPE significantly better
– Performance per SPE equal or better (Significantly better on applications that benefit from new instructions)
– Better inter-SPE latency
– More on-chip memory (Is it mean LS will be larger than 256KB?)
– Better main memory latency and bandwidth
http://forum.beyond3d.com/showthread.php?t=48722
Updated Cell roadmap
所以PowerXCell 32iv的強化有下列幾點:
1. PPE本身性能強化(同時數量增加;但是其實考慮原始的CELL的話,其實core比例是維持,然後PPE強化)
2. SPE新增指令強化、EIB效率改善(降低SPE間溝通的latency)
3. 可能有擴充Local Storage容量(引入SOI eDRAM?)
4. 記憶體系統升級
PDF被抽掉了所以找不到原文,三月的還沒有提到PowerXCell 32iv這個名字。
http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/ibm.pdf
939 :MACオタ:2008/06/22(日) 00:27:13 ID:7EkjfsSX
6/10のセミナー資料、もう少し掘っていたら次世代CELLについて言及した別のがあったす。
http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/080610_Cell_Strat_JHC_Japan.pdf
・従来型Cell/B.E.わ2009年に45nmプロセス化
・以前のロードマップにあった2*PPE + 32*SPEの”PowerXCell 32ii”わキャンセル。代わりに
4*PPE + 32*SPEの”PowerXCell 32iv”へ。
・PowerXCell 32ivの世代でPPEに手を入れる -> PPE’ へ
・同じくSPEわ”eSPE”に進化
・クロックも上げる、~3.8GHz
・その他PowerXCell 32iv世代の特徴わ、下記の通り
- 100% backward compatible
- PPE性能わ大幅向上
- SPEわ新命令追加以外わ現状並 (新命令セットを使用するソフトわ大幅に性能向上)
- SPE間の通信レイテンシ削減
- More on-chip memory (LS増量か?)
- メインメモリアクセスの大域幅増強とレイテンシ削減
所以看來真的要用RAMBUS TBI(XDR3)了?放上1TeraFLOPS性能對1TB/s頻寬….XD
考慮TBI的進程,也難怪在2010年才要推出。
(反倒是Larrabee和GPU都在2009年就要衝2TFLOPS了….但是記憶體頻寬如果是用GDDR5的話,512bit + 5GHz也頂多還在320GB/s左右)
所以說先前才會傳出Larrabee打算用RAMBUS的新聞,他們畢竟知道這個差距很大。
就算有POWER7的加持,PPE’相對SPE來說還是個很慢的東西,追加PPE的數量對成本來說是很大的負擔。(畢竟PPE+L2直接等於4x SPE的面積)
PowerXCell 32iv,iv代表4個PPE。而設置回到4PPE+32SPE,這點與現在的CELL比例完全相同,有點回到過去”PE”這個組成單位的意味。
也就是說CELL未來實際的強化是透過底層指令追加與結構改善來達成;相對來說,過去2PPE + 32SPE有點透過提高平行化來提高運算密度的味道….這似乎暗示的是運算模式的性能改善被半導體技術之類的製造因素趕過去了。
如果真的是採用XDR3(TBI)的話,相當於512bit可以取得1TB/s的頻寬,等於每個CELL分到了256GB/s,介面則從64bit XDR變成128bit XDR3、傳輸速度則從XDR的3.2Gbps(400MHz x 8),提升到XDR3的16Gbs(500MHz x 32),等於記憶體頻寬比例也大了十倍,幾乎和浮點性能達成1:1的比例,這下看起來反而更像過去的general purpose CPU…(這回還要換成DDR系來衝容量的話就更困難了….)
總之想說的是,x86 PC和HPC only的processor可以使用到的資金規模實在差太多了啊…..XD
—-
補充-高速的Software Render:
http://www.transgaming.com/products/swiftshader/
SwiftShader (DX9 class)
http://www.radgametools.com/pixomain.htm
Pixomatic Rendering Technology (DX7 class)
當然還有鼎鼎大名的Renderman。
一邊是記憶體頻寬(可能)比較大但是沒有fix function;一邊是(晶片八成比較大所以)比較有raw performance,可能有一些fix function但是記憶體頻寬可能較小。其實我還蠻有興趣,到時候PowerXCell 32iv 和Larrabee跑Software Rasterizer的時候哪邊比較快….(前者2010年、後者2009年)

