拿掉L2 的Celeron vs 拿掉L2的Fermi？

如題。此一時彼一時。

初代Celeron性能低落的一大原因是off-die的L2 cache被拔掉，只靠L1非常悲慘；
後來on-chip的cache發達之後補回了這個問題，但是Fermi這樣的GPU會如何呢?

Nvidia Geforce GTX 460 mit 384 SPs ab 1. Juni? – News – Hardware-Infos

裡面提到的spec為384sp、48TMU、32ROP，亦即直接縮減GPC數量與ROP數量來進行線性縮減。
不過這裡面有個有趣的情報是，據稱還會把ROP裡面的768KB L2(128KBx6)給直接移除。
情報來源的可信度之外，單從可能性來說，Fermi最大的特色為與share memory並列的L1 cache結構，透明的L2 cache移除應該只有性能衝擊，造成的問題大概只有多大、以及影響多廣而已；有可能影響die size以及CUDA運算性能面。
此外，Fermi 的tex cache系統與運算用的cache是分開的….

在〈拿掉L2 的Celeron vs 拿掉L2的Fermi？〉中有 6 則留言

完全拿掉不可能，只是換成唯讀的吧。

拿掉的目的是為了省die size，不拿的話就變成512KB超巨大的tex cache….但這樣好像沒什麼幫助。
事實上G80/GT200都已經有16~24KB per TPC的tex L1 cache、32KB per ROP的tex L2 cache(所以G80有192KB、G92有128KB、GT200有256KB)，都是read only。
Fermi應該是把ROP這一塊tex L2從32KB放大成128KB、然後做成writable，這樣就有768KB的unified L2可用，這樣的話texture cache的特殊行為只發生在SM的L1上，L2就全部是一般的cache。
所以改成read-only(=全給texture)，對相對於G80/GT200來說TMU削弱的Fermi來講好像有點不合理。
—-
而根據B3D fourm某些測試，G86之類的低階有拿掉L2 cache的前例，所以這次也許也有機會？

GT460應該也是和GF100用完全一樣的設計.
沒辦法輕易”拿掉”省電晶體才對.
等多只是為了良率,故意關掉面積不小的L2.
類似Cache做壞的Pentium, 關掉Cache當Celeron來賣…
以Fermi之前的良率,大部份的Die應該都是做壞的.
反正那本來是要報廢的,挑一下再找出能賣錢的.

如果只考慮 GPU 有沒有 L2 cache 這件事，如果基本上的 texture cache、const cache 都不變的前提，那 L2 cache 其實至少對繪圖的效率影響是很小的（因為很明顯的現在的 GPU 並沒有很大的 L2 cache，也過得好好的）。至於 GPGPU，目前適合 GPGPU 的應用，也都是在根本沒有大的 L2 cache 的 GPU 上跑得很好，所以很明顯的，就算真的沒有 L2 cache，也不會有太大的影響。
Fermi 的 L2 cache，其中一個重要的效果，是讓 GPGPU 的適用範圍擴大，也就是讓它的 performance cliff 變小。簡單的說，最早的 GPU，適合的應用跑得快，不適合的就非常慢。L2 cache 可以讓這些不適合的應用變得比較沒這麼慢，就不會那麼不適合（甚至還有機會跑得比同等級的 CPU 快）。
至於和 CPU 相比，則是很不適當的。GPU 的設計，原本就是考慮以大量平行運算去隱藏 memory latency 為基礎，因此對 cache 的需求原本就低。CPU 則並非如此，因此需要大的 cache。所以 CPU 沒有 cache 當然就表現奇差，GPU 則不會如此。

其實我比較好奇的是，Fermi關掉L2 cache後，Folding@Home分數會掉多少。（酒）

Eji你好，不好意思在你文章留言，
我本身也是ACG的同好，看了你BLOG覺得蠻喜歡的^^
我有成立個動漫性質的網站：
神櫻島　http://www.kamisakura.net/
想與你交換連結，不知道你能不能接受..?

Eji的碎碎念

拿掉L2 的Celeron vs 拿掉L2的Fermi？

在〈拿掉L2 的Celeron vs 拿掉L2的Fermi？〉中有 6 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈拿掉L2 的Celeron vs 拿掉L2的Fermi？〉中有 6 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆