Larrabee on Siggraph2008 | Eji的碎碎念

http://www.siggraph.org/s2008/attendees/program/item/?type=papers&id=34

Larrabee: A Many-Core x86 Architecture for Visual Computing

This paper introduces the Larrabee a many-core hardware architecture, a new software rendering pipeline, a many-core programming model, and performance analysis for several applications. Larrabee uses multiple in-order x86 CPU cores that are augmented by a wide vector processor unit, as well as fixed-function co-processors. This provides dramatically higher performance per watt and per unit of area than out-of-order CPUs on highly parallel workloads and greatly increases the flexibility and programmability of the architecture as compared to standard GPUs.

我開始認定Intel想要拿一堆x86 core硬幹software rasterizer了….

Larrabee沒有提到GPU最主要的三大要素：Rasterizer、TMU、ROP，我深深地懷疑其實Intel認定Larrabee靠32core CPU + AVX，就可以跑software rasterizer，它的作法可能只是把Rasterizer、TMU、ROP等需要的指令，加到AVX裡面，並且以firmware level的software來排程而已。

反正馬上就要揭曉….

—-

話說Intel的人很斬釘截鐵地說「Larrabee的texture sampler比G80功能還要強大」….不過講話的態度不脫「Come on, how hard it could be?」。

今天就算GMA3x00直接擴大個十倍二十倍其實也不會慢到哪邊去才對，不過重點是要有就對了。

在〈Larrabee on Siggraph2008〉中有 7 則留言

AVX本质是多线程调度？
天晓得intel能做到什么程度

Larrabee的AVX本身顯然與multi-thread沒關係，因為他是8個512bit的register，DX10的register要求則是128個32bit register，我想它應該是想用cache解決一切。(包含register file在內的全部問題)
如果Larrabee沒有足夠的專用硬體的話，那就會變成
幾個core作rasterizer、幾個core作TMU、幾個core作ROP、幾個core作shader program的方式….那就不太可能快得起來了。

這概念怎麼像是小型的CUDA？

> 小型的CUDA
不知道AVX怎麼處理移位的需求，不過至少大型unified cache、直接存取記憶體之類的特性是不會變的，主要的需求都由Intel強大的cache系統處理掉。
現在的問題是siggraph08這篇措詞看起來，真的像是沒有TMU和ROP，全部要靠software rasterizer….那麼和既有的GPU相比，Larrabee就真的在電晶體規模上天生就要大很多了，實際性能能發揮在graphic上的相比之下也會比較少。
(給個參考數字：NVIDIA先前宣稱G71/7900GTX的總浮點性能當量是1.8TFLOPS，shader只占其中的200GFLOPS左右)
Intel手邊有個比較有效的競爭優勢是3D stack memory；不過一來這容量有限，只能做在封裝上，實質上就是L3之後再多一個容量很大的L4 cache，但是shader越來越強化，代表texture的比例越來越大，容量並不大的3D stack memory雖然可以處理frame buffer需求(因為解析度提升速度有限)，但是也無法處理材質。
其次，這個東西也不是只有Intel 他們在做而已：
http://pc.watch.impress.co.jp/…219/nanotech2.htm
這邊可以看到Toshiba也在做立體積層memory結構。

發佈留言取消回覆

AT表示:

8 7 月, 200812:42 上午

AVX本质是多线程调度？
天晓得intel能做到什么程度

Eji表示:

8 7 月, 200812:04 下午

Larrabee的AVX本身顯然與multi-thread沒關係，因為他是8個512bit的register，DX10的register要求則是128個32bit register，我想它應該是想用cache解決一切。(包含register file在內的全部問題)
如果Larrabee沒有足夠的專用硬體的話，那就會變成
幾個core作rasterizer、幾個core作TMU、幾個core作ROP、幾個core作shader program的方式….那就不太可能快得起來了。

Eji表示:

8 7 月, 200812:04 下午

Larrabee的AVX本身顯然與multi-thread沒關係，因為他是8個512bit的register，DX10的register要求則是128個32bit register，我想它應該是想用cache解決一切。(包含register file在內的全部問題)
如果Larrabee沒有足夠的專用硬體的話，那就會變成
幾個core作rasterizer、幾個core作TMU、幾個core作ROP、幾個core作shader program的方式….那就不太可能快得起來了。

baburu表示:

8 7 月, 20089:43 下午

這概念怎麼像是小型的CUDA？

baburu表示:

8 7 月, 20089:43 下午

這概念怎麼像是小型的CUDA？

Eji表示:

9 7 月, 20084:25 上午

> 小型的CUDA
不知道AVX怎麼處理移位的需求，不過至少大型unified cache、直接存取記憶體之類的特性是不會變的，主要的需求都由Intel強大的cache系統處理掉。
現在的問題是siggraph08這篇措詞看起來，真的像是沒有TMU和ROP，全部要靠software rasterizer….那麼和既有的GPU相比，Larrabee就真的在電晶體規模上天生就要大很多了，實際性能能發揮在graphic上的相比之下也會比較少。
(給個參考數字：NVIDIA先前宣稱G71/7900GTX的總浮點性能當量是1.8TFLOPS，shader只占其中的200GFLOPS左右)
Intel手邊有個比較有效的競爭優勢是3D stack memory；不過一來這容量有限，只能做在封裝上，實質上就是L3之後再多一個容量很大的L4 cache，但是shader越來越強化，代表texture的比例越來越大，容量並不大的3D stack memory雖然可以處理frame buffer需求(因為解析度提升速度有限)，但是也無法處理材質。
其次，這個東西也不是只有Intel 他們在做而已：
http://pc.watch.impress.co.jp/…219/nanotech2.htm
這邊可以看到Toshiba也在做立體積層memory結構。

Eji表示:

9 7 月, 20084:25 上午

> 小型的CUDA
不知道AVX怎麼處理移位的需求，不過至少大型unified cache、直接存取記憶體之類的特性是不會變的，主要的需求都由Intel強大的cache系統處理掉。
現在的問題是siggraph08這篇措詞看起來，真的像是沒有TMU和ROP，全部要靠software rasterizer….那麼和既有的GPU相比，Larrabee就真的在電晶體規模上天生就要大很多了，實際性能能發揮在graphic上的相比之下也會比較少。
(給個參考數字：NVIDIA先前宣稱G71/7900GTX的總浮點性能當量是1.8TFLOPS，shader只占其中的200GFLOPS左右)
Intel手邊有個比較有效的競爭優勢是3D stack memory；不過一來這容量有限，只能做在封裝上，實質上就是L3之後再多一個容量很大的L4 cache，但是shader越來越強化，代表texture的比例越來越大，容量並不大的3D stack memory雖然可以處理frame buffer需求(因為解析度提升速度有限)，但是也無法處理材質。
其次，這個東西也不是只有Intel 他們在做而已：
http://pc.watch.impress.co.jp/…219/nanotech2.htm
這邊可以看到Toshiba也在做立體積層memory結構。

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

在〈Larrabee on Siggraph2008〉中有 7 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆