http://pc.watch.impress.co.jp/docs/column/kaigai/20091209_334552.html
仕切り直しとなったLarrabeeの何が問題だったのか
http://pc.watch.impress.co.jp/docs/column/kaigai/20091210_334671.html
IntelはLarrabee計画とアーキテクチャをどう変えるのか
想要繼續讓CPU變快,many-core走high thoughtput勢在必行。
但是Larrabee靠繪圖來套must have策略來減低成本最後是行不通,因為x86的overhead看來還是太大了。
而且這個策略有很大的要因在bottom up,要靠低階產品來衝大數….
雲端的multi-core看起來不像是可以幫忙衝出大量的東西。
「多くの人がLarrabee=グラフィックスと見るが、
グラフィックスは汎用データ並列コアの普及戦略として持ち出された、
極端な言い方をすれば”方便”に過ぎない。 」
well,顯然沒有人真的認為Intel是想要graphic,他們只是奉行「moore’s law = Convergence」而已。 (更正)
反正晶片越大一定塞越多東西,CPU總有一天連地表都會吃進去….(笑)
但是,CPU為了對抗latency犧牲太多效率,對只要對付眼睛的GPU而言主要的工作接近徹底平行化是最大的恩惠,所以半導體製程過去是CPU的助力,現在變成對手的助力….
也許CPU想要把GPU吃掉,還得等到類似CD音質對音效卡一樣,有另外一個可以讓大部分的user看不出需要買主力硬體的另一個市場飽和因素的出現才行:到AC97和HD-codec的時代,除了專業創作用途之外user幾乎已經沒有買音效卡的必須性,音質的另外一個重點又卡在難以擴充的喇叭等視聽環境上,結果就變成相對起來投資極高,這點到目前為止都沒有大改變….
反過來說,Full HD底下大部分遊戲看不到現行硬體更換的必然性,會不會變成user覺得不必再升級的一個重要理由?
GPU長期以來靠遊戲市場的成長來維繫成長,但是遊戲市場目前的趨勢也是傾向萎縮,雖然和過去PS2一樣、PS3/XBOX360等高階console的壽命期末期應該還是會讓PC遊戲市場得到一點回溫的效果,但是會不會有PS4/XBOX次代機那又是另一個問題。也許遊戲市場的主流就這麼走向攜帶為主、一去不復返也說不定。
不過理想上來說,繪圖應該會走到大部份的人都可以滿足於肉眼所見的畫面,就和音效走到大家都滿足雙耳所聞的境界為止,那麼應該還有個十年可走才是。到時候3D stack memory說不定都出來了,再來談CPU整併GPU吧。
話說要老調重彈的是,Larrabee的通用性能也沒人懷疑過,問題是商業模式能不能支撐。
比方說非繪圖領域的HPC相關運算上,Larrabee的確有大大甩離現有GPU的能力,雖然規模也是甩蠻遠的。
繼續下去Larrabee花的錢說不定會超過AMD+NVIDIA總合起來花在GPU的開發費用上。
http://www.lockergnome.com/theoracle/2009/12/05/what-is-intel-doing/
What Is Intel Doing?
Back in 2006, when we first got the first details about Larrabee, the performance goal was “1TFLOPS@ 16 cores, 2.0 GHz clock, 150W TDP”
At SGEMM Performance test [4K by 4K Matrix Multiply, QCD], Intel achieved 417 GFLOPS using half the cores on the prototype card, and reached 825 GFLOPS by enabling all the cores. While looking at the numbers alone, one might think that these scores are below the level of ATI Radeon 4850 and nVidia GeForce GTX 280/GTX 285. Of course, there is a “but” coming – unlike theoretical numbers that are usually disclosed by ATI and nVidia – this was an actual SGEMM benchmark calculation used in the HPC community.
1. Intel Larrabee [LRB, 45nm] – 1006 GFLOPS
2. EVGA GeForce GTX 285 FTW – 425 GFLOPS
3. nVidia Tesla C1060 [GT200, 65nm] – 370 GFLOPS
4. AMD FireStream 9270 [RV770, 55nm] – 300 GFLOPS
5. IBM PowerXCell 8i [Cell, 65nm] – 164 GFLOPS
If you’re wondering where products such as Intel Harpertown-based Core 2 Quad or Nehalem-based Core i7 stand, the answer is quite simple – i7 XE 975 at 3.33 GHz will give you 101 GFLOPS, while Core 2 Extreme QX9770 at 3.2 GHz gives out 91 GFLOPS.
http://brightsideofnews.com/news/2009/11/17/nvidia-nv100-fermi-is-less-powerful-than-geforce-gtx-285.aspx
UPDATE #2: nVidia NV100 [Fermi] is less powerful than GeForce GTX 285?
Fermi是512個INT/FMA(不能同時運作),所以帳面上浮點性能可能不會好過MAD+MUL的GT200b太多。
尤其是後者因為register file的關係克服missing MUL問題之後,事情就不太好看了。
所以Fermi的優點剩下記憶體頻寬擴增之後理應搭配擴充的TMU/ROP….
http://forum.beyond3d.com/showthread.php?p=1322632#post1322632
Faster dense matrix-matrix products on ATi hardware
筆記。
閱讀全文 Larrabee的檢討 →