http://www.siggraph.org/s2008/attendees/program/item/?type=papers&id=34
Larrabee: A Many-Core x86 Architecture for Visual Computing
This paper introduces the Larrabee a many-core hardware architecture, a new software rendering pipeline, a many-core programming model, and performance analysis for several applications. Larrabee uses multiple in-order x86 CPU cores that are augmented by a wide vector processor unit, as well as fixed-function co-processors. This provides dramatically higher performance per watt and per unit of area than out-of-order CPUs on highly parallel workloads and greatly increases the flexibility and programmability of the architecture as compared to standard GPUs.
我開始認定Intel想要拿一堆x86 core硬幹software rasterizer了….
Larrabee沒有提到GPU最主要的三大要素:Rasterizer、TMU、ROP,我深深地懷疑其實Intel認定Larrabee靠32core CPU + AVX,就可以跑software rasterizer,它的作法可能只是把Rasterizer、TMU、ROP等需要的指令,加到AVX裡面,並且以firmware level的software來排程而已。
反正馬上就要揭曉….
—-
話說Intel的人很斬釘截鐵地說「Larrabee的texture sampler比G80功能還要強大」….不過講話的態度不脫「Come on, how hard it could be?」。
今天就算GMA3x00直接擴大個十倍二十倍其實也不會慢到哪邊去才對,不過重點是要有就對了。
AVX本质是多线程调度?
天晓得intel能做到什么程度
Larrabee的AVX本身顯然與multi-thread沒關係,因為他是8個512bit的register,DX10的register要求則是128個32bit register,我想它應該是想用cache解決一切。(包含register file在內的全部問題)
如果Larrabee沒有足夠的專用硬體的話,那就會變成
幾個core作rasterizer、幾個core作TMU、幾個core作ROP、幾個core作shader program的方式….那就不太可能快得起來了。
Larrabee的AVX本身顯然與multi-thread沒關係,因為他是8個512bit的register,DX10的register要求則是128個32bit register,我想它應該是想用cache解決一切。(包含register file在內的全部問題)
如果Larrabee沒有足夠的專用硬體的話,那就會變成
幾個core作rasterizer、幾個core作TMU、幾個core作ROP、幾個core作shader program的方式….那就不太可能快得起來了。
這概念怎麼像是小型的CUDA?
這概念怎麼像是小型的CUDA?
> 小型的CUDA
不知道AVX怎麼處理移位的需求,不過至少大型unified cache、直接存取記憶體之類的特性是不會變的,主要的需求都由Intel強大的cache系統處理掉。
現在的問題是siggraph08這篇措詞看起來,真的像是沒有TMU和ROP,全部要靠software rasterizer….那麼和既有的GPU相比,Larrabee就真的在電晶體規模上天生就要大很多了,實際性能能發揮在graphic上的相比之下也會比較少。
(給個參考數字:NVIDIA先前宣稱G71/7900GTX的總浮點性能當量是1.8TFLOPS,shader只占其中的200GFLOPS左右)
Intel手邊有個比較有效的競爭優勢是3D stack memory;不過一來這容量有限,只能做在封裝上,實質上就是L3之後再多一個容量很大的L4 cache,但是shader越來越強化,代表texture的比例越來越大,容量並不大的3D stack memory雖然可以處理frame buffer需求(因為解析度提升速度有限),但是也無法處理材質。
其次,這個東西也不是只有Intel 他們在做而已:
http://pc.watch.impress.co.jp/…219/nanotech2.htm
這邊可以看到Toshiba也在做立體積層memory結構。
> 小型的CUDA
不知道AVX怎麼處理移位的需求,不過至少大型unified cache、直接存取記憶體之類的特性是不會變的,主要的需求都由Intel強大的cache系統處理掉。
現在的問題是siggraph08這篇措詞看起來,真的像是沒有TMU和ROP,全部要靠software rasterizer….那麼和既有的GPU相比,Larrabee就真的在電晶體規模上天生就要大很多了,實際性能能發揮在graphic上的相比之下也會比較少。
(給個參考數字:NVIDIA先前宣稱G71/7900GTX的總浮點性能當量是1.8TFLOPS,shader只占其中的200GFLOPS左右)
Intel手邊有個比較有效的競爭優勢是3D stack memory;不過一來這容量有限,只能做在封裝上,實質上就是L3之後再多一個容量很大的L4 cache,但是shader越來越強化,代表texture的比例越來越大,容量並不大的3D stack memory雖然可以處理frame buffer需求(因為解析度提升速度有限),但是也無法處理材質。
其次,這個東西也不是只有Intel 他們在做而已:
http://pc.watch.impress.co.jp/…219/nanotech2.htm
這邊可以看到Toshiba也在做立體積層memory結構。