CELL、GPU與Larrabee的異同

http://pc.watch.impress.co.jp/docs/2008/0811/kaigai458.htm

Cell B.E.と似て非なるLarrabeeの内部構造

https://www-903.ibm.com/kr/event/download/200806_344_green/d_07.pdf

COMIC: A Coherent Shared Memory Interface for Cell BE

檢討起來的話就會變成10core好像是筆誤….XD

假設總計都是4MB L2 cache的話，10core只有2560KB，由於後面有提到每個TMU有32KB texture cache，這不就變成有48個TMU….

何況內文也有提到，512bit雙向ringbus會在超過16core的時候再加第二組bus，所以32core的話就會變成1024bit雙向bus，既然重複提到16core這個數字，那麼表格裡面的10core就有可能是筆誤了。XD

只是vector throughtput(160 per clock)也是支持10core的另一個數字就是了….

總之這張表看來不能太在意。_A_

不過文章裡面另外有提到幾點要注意的：

1. 每個core有32KB texture cache，這可能是放在core上、或者是TMU這邊；針對每個core可以提供32KB，而且這個空間是與core的256KB L2 cache分開。

2. ring bus是在奇偶數clock各送一個方向的資料，以簡化設計，在ring bus上也沒有storage，cache的資料同步性則會以硬體來維持。

3. 論文內的”fiber”指的是software manage thread，這等於是用軟體排程來”預測延遲”、透過軟體使得L2 cache的空間可以發揮目前GPU常見的hardware threading般的作用。CPU core的4 thread SMT則是用來應付L1 miss、存取L2時的不固定延遲。此外，cache透過指令可以提供類似scratchpad memory般的使用法；話說Nehalem的L2也是256KB….

4. Larrabee預設會有TMU而沒有ROP，這邊的ROP指的是rasterization、Z/stencil、alpha blending。因為ROP的規模很難估計是否適當，用硬體的話又會造成靈活度的限制，所以全以軟體執行，當然前提是可以提供適當性能。在架構圖上的fix function則是對應到display function logic等固定功能線路，並不是ROP的部分。由於Larrabee在TMU這部分已經有電晶體投資，現在Larrabee和GPU主要的性能差，就在延遲吸收、與ROP軟體化之後的性能差距。

結論：intel的自信全在cache設計上。

Eji的碎碎念

CELL、GPU與Larrabee的異同

發佈留言取消回覆

現在只剩下黑歷史….

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆