CELL

號稱Bulldozer的真面目之類的

17 4 月, 2009 Eji 44 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20090417_125584.html

AMDの2010年代のCPUアーキテクチャBulldozerの実像

基本上就是stack memory可以提供記憶體頻寬的話就可以把GPU包進去….的感覺。

可是我不懂的是GPU為什麼不能也靠stack memory提高性能….不管了_A_

總之GPU要被CPU取代，除非

1. CPU在繪圖面的進步速度高過GPU，這很難

2. GPU所要應付的需求增加速度減緩，這也很難

3. GPU持有的優勢被CPU超過

GPU持有的優勢有內部(繪圖用的)平行單元較多、還有記憶體頻寬很大這兩點。

記憶體頻寬很大是主要的優勢，而這點一直建立在繪圖用的記憶體、以及直接焊死在電路板上，所以同等成本可以達成的記憶體頻寬比較高這兩點。

CPU則是”單元數量被記憶體頻寬限制住”，做了也沒用所以一直比較少。

這兩點的解答直接看CELL就知道了，只要系統層面配合，CPU要做也可以做到不小的頻寬，達到不小的輸出能力。

記憶體頻寬的優勢，目前CPU幾乎都一直維持在接近十倍左右….如果被追到剩兩三倍的話就不妙了。

Stack memory真的可以做到那麼厲害(比方說後藤老爹說的1TB/s)的話，那GPU如果沒這個技術大概就很難維持住優勢。

而就算GPU廠商也有了stack memory，雙方的記憶體頻寬差距變成1TB/s + 200~300GB/s vs 1TB/s + 30~40GB/s的話，那麼比例上就沒有差很多….GPU就很危險了。

—-

追記：去把3D stacked memory的論文翻出來了。

http://www.cc.gatech.edu/~loh/Papers/isca2008-3Ddram.pdf

他們的simulate規模可是1~8GB on die….

die size是每層300mm^2前後，密度是27.9Mb/mm^2(約3.5MB)，每層厚度大約100um。

所以疊到1~8GB基本上就變成方形柱狀體了。

如果memory module也這樣3D stacked的話容量就不得了了。

在〈號稱Bulldozer的真面目之類的〉中有 44 則留言

Sat.表示:

18 4 月, 200910:40 上午

以現在的情況來看，遊戲廠商被現在遊戲的製作成本給壓到喘不過氣來，要說 GPU 所被要求的運算量線性上的增加是不太可能的，相反的遊戲所需要的運算性能增長應該是會趨緩，這情況下 GPU 的應用就要轉往別的地方去了，至於說其他地方的應用層面是否大到能支撐現有的 GPU 市場就又是另外一個問題了。

Reply
Sat.表示:

18 4 月, 200910:40 上午

以現在的情況來看，遊戲廠商被現在遊戲的製作成本給壓到喘不過氣來，要說 GPU 所被要求的運算量線性上的增加是不太可能的，相反的遊戲所需要的運算性能增長應該是會趨緩，這情況下 GPU 的應用就要轉往別的地方去了，至於說其他地方的應用層面是否大到能支撐現有的 GPU 市場就又是另外一個問題了。

Reply
Eji表示:

18 4 月, 200910:52 下午

基本上作遊戲的廠商負擔的成本已經快要和影業差不多了….
當初消費性音效卡市場也是遇到需求成長的上限，那是因為音效的環境需求比較高，結果整備成本變成非線性提升的時候，就卡在CD這個程度，然後音效的有損壓縮技術發展又透過網路傳播推波助瀾….就變成我們現在這樣。
GPU的成長是不是差不多也該遇到上限了？

Reply
Eji表示:

18 4 月, 200910:52 下午

基本上作遊戲的廠商負擔的成本已經快要和影業差不多了….
當初消費性音效卡市場也是遇到需求成長的上限，那是因為音效的環境需求比較高，結果整備成本變成非線性提升的時候，就卡在CD這個程度，然後音效的有損壓縮技術發展又透過網路傳播推波助瀾….就變成我們現在這樣。
GPU的成長是不是差不多也該遇到上限了？

Reply
waffenss表示:

18 4 月, 200911:03 下午

CPU記憶體頻寬不是沒辦法做到像GPU這麼大,
只是因為超大頻寬沒有很大幫助,不值得CPU廠商做投資.
因為CPU的執行單位太少,而且CPU核心很重視Latency.
加大cache或改用LS(都是降低Latency)
往往比加倍記憶體頻寬更有效果.
即使CPU, 像CELL 2006年已經將GPU頻寬追到1:2
(24GB/s vs 高階Geforce7800GTX的44GB/sec)
某些128bit中階GPU頻寬可能還低於CELL……
但是….這樣的CELL其實也完全沒動搖到GPU的競爭力.
所以”頻寬其實並不是CPU能不能取代GPU的最大因素”.
CPU運算能力不如GPU(含特製硬體Tex,ROP….)才是!
連為高運算能力特化的CELL都如此,何況一般CPU.
就算22nm可以讓AMD放上16個複雜X86 CPU核心.
它的平行運算能力還是很弱.
因為22nm同面積起碼可以放6個RV790還有找.
那是5000個SP的等級了…..根本不是同量級的對手.

Reply
waffenss表示:

18 4 月, 200911:03 下午

CPU記憶體頻寬不是沒辦法做到像GPU這麼大,
只是因為超大頻寬沒有很大幫助,不值得CPU廠商做投資.
因為CPU的執行單位太少,而且CPU核心很重視Latency.
加大cache或改用LS(都是降低Latency)
往往比加倍記憶體頻寬更有效果.
即使CPU, 像CELL 2006年已經將GPU頻寬追到1:2
(24GB/s vs 高階Geforce7800GTX的44GB/sec)
某些128bit中階GPU頻寬可能還低於CELL……
但是….這樣的CELL其實也完全沒動搖到GPU的競爭力.
所以”頻寬其實並不是CPU能不能取代GPU的最大因素”.
CPU運算能力不如GPU(含特製硬體Tex,ROP….)才是!
連為高運算能力特化的CELL都如此,何況一般CPU.
就算22nm可以讓AMD放上16個複雜X86 CPU核心.
它的平行運算能力還是很弱.
因為22nm同面積起碼可以放6個RV790還有找.
那是5000個SP的等級了…..根本不是同量級的對手.

Reply
waffenss表示:

19 4 月, 200912:11 上午

>>GPU的成長是不是差不多也該遇到上限了？
上限可以大概看到 , 但是應該還蠻遠.
其實如果我們現在的家用螢幕科技還停留在VGA解析度,
專職GPU可能即將被淘汰掉了.
因為Intel i7應該已經勉強可以用SwiftShader
DX9軟體引擎跑低畫質版CRISIS.
再過2~3年Intel CPU應該就有辦法以最高畫質
跑比CRISIS更好的畫面了.
如果大家都只有VGA螢幕, 那又何必花大錢買能跑1080P
的高階顯示卡? 用8~16核心CPU的一部分核心算圖,
然後從主機板上輸出畫面就好了.
所以GPU會像音效晶片一樣被CPU吃掉.
但是現實是電腦螢幕和家用螢幕解析度都還在一直進步.
視覺運算的需求也跟著一直增加.
起碼10年內不會停止吧.

Reply
waffenss表示:

19 4 月, 200912:11 上午

>>GPU的成長是不是差不多也該遇到上限了？
上限可以大概看到 , 但是應該還蠻遠.
其實如果我們現在的家用螢幕科技還停留在VGA解析度,
專職GPU可能即將被淘汰掉了.
因為Intel i7應該已經勉強可以用SwiftShader
DX9軟體引擎跑低畫質版CRISIS.
再過2~3年Intel CPU應該就有辦法以最高畫質
跑比CRISIS更好的畫面了.
如果大家都只有VGA螢幕, 那又何必花大錢買能跑1080P
的高階顯示卡? 用8~16核心CPU的一部分核心算圖,
然後從主機板上輸出畫面就好了.
所以GPU會像音效晶片一樣被CPU吃掉.
但是現實是電腦螢幕和家用螢幕解析度都還在一直進步.
視覺運算的需求也跟著一直增加.
起碼10年內不會停止吧.

Reply
Eji表示:

19 4 月, 200912:23 上午

可是上面不是在講市場因素嗎….
GPU繼續線性下去應該真的還大有可為，至少黃仁勳也說還能玩個10~15年，可是市場能夠支撐這個消費循環繼續下去是另一個問題吧。

Reply
Eji表示:

19 4 月, 200912:23 上午

可是上面不是在講市場因素嗎….
GPU繼續線性下去應該真的還大有可為，至少黃仁勳也說還能玩個10~15年，可是市場能夠支撐這個消費循環繼續下去是另一個問題吧。

Reply
waffenss表示:

19 4 月, 20091:19 上午

遊戲的製作成本其實跟硬體成長沒有很直接的關係.
主要是廠商一直想把遊戲做得像hollywood電影等級,
甚至超越電影規模,才會導致開發成本無止盡暴增.
這跟硬體有沒有一直成長其實沒有直接關係.
就算用Wii的解析度來做,不需要多少硬體效能.
其實史詩級規模的大作也不會便宜到哪.
因為電影等級遊戲需要研發人力規模就是這麼大.
如果只靠GPU硬體進步,讓畫面有進步.
例如: 480P的三國無雙=>720P的三國無雙=>
1080P的三國無雙=>2560P的三…
No AA => 2XAA => 4xAA => 8xAA…..
遊戲規模都差不多,
那麼開發成本其實沒有增加多少,
因為畫質是靠硬體而進步,
而不是靠增加研發人力來把遊戲規模做大而進步.
遊戲規模的增長會趨緩,
但遊戲需要的運算性能增長還是可以一直增加下去.
一直到市場覺得畫面解析度與畫質已經不必再提高為止.

Reply
waffenss表示:

19 4 月, 20091:19 上午

遊戲的製作成本其實跟硬體成長沒有很直接的關係.
主要是廠商一直想把遊戲做得像hollywood電影等級,
甚至超越電影規模,才會導致開發成本無止盡暴增.
這跟硬體有沒有一直成長其實沒有直接關係.
就算用Wii的解析度來做,不需要多少硬體效能.
其實史詩級規模的大作也不會便宜到哪.
因為電影等級遊戲需要研發人力規模就是這麼大.
如果只靠GPU硬體進步,讓畫面有進步.
例如: 480P的三國無雙=>720P的三國無雙=>
1080P的三國無雙=>2560P的三…
No AA => 2XAA => 4xAA => 8xAA…..
遊戲規模都差不多,
那麼開發成本其實沒有增加多少,
因為畫質是靠硬體而進步,
而不是靠增加研發人力來把遊戲規模做大而進步.
遊戲規模的增長會趨緩,
但遊戲需要的運算性能增長還是可以一直增加下去.
一直到市場覺得畫面解析度與畫質已經不必再提高為止.

Reply
Eji表示:

19 4 月, 20091:48 上午

waffen兄，你會讓我覺得像是當初的鐵拳5 for PS3….雖然那材質已經rebuild了。
不過單純材質容量隨解析度上升就已經有相當負擔了吧？

Reply
Eji表示:

19 4 月, 20091:48 上午

waffen兄，你會讓我覺得像是當初的鐵拳5 for PS3….雖然那材質已經rebuild了。
不過單純材質容量隨解析度上升就已經有相當負擔了吧？

Reply
Eji表示:

19 4 月, 20092:44 上午

另外一個問題是一開始提到的”16個複雜x86核心”的事情，後藤老爹那篇的說法是，core增加會停止在4核心前後，然後每個核心會開始擴充各自的vector能力。
雖然我不知道為什麼你會算成16core vs 5000sp，大概是面積直接乘吧；不過它原文其實是說，即使放了16個core，CPU core本身的面積只吃了200mm^2裡面的80mm^2，那照你的比例算法就會變成16個core + 3000個sp。這樣的話同等面積其實能放的vector unit數量相差其實是不大的….

Reply
Eji表示:

19 4 月, 20092:44 上午

另外一個問題是一開始提到的”16個複雜x86核心”的事情，後藤老爹那篇的說法是，core增加會停止在4核心前後，然後每個核心會開始擴充各自的vector能力。
雖然我不知道為什麼你會算成16core vs 5000sp，大概是面積直接乘吧；不過它原文其實是說，即使放了16個core，CPU core本身的面積只吃了200mm^2裡面的80mm^2，那照你的比例算法就會變成16個core + 3000個sp。這樣的話同等面積其實能放的vector unit數量相差其實是不大的….

Reply
苦、空、無常、無我表示:

19 4 月, 20092:21 下午

 http://www.eetimes.com/…html?articleID=216403284
(英文)
http://www.eettaiwan.com/…480102_NT_2af8dafd.HTM
(繁中)

Reply
苦、空、無常、無我表示:

19 4 月, 20092:21 下午

 http://www.eetimes.com/…html?articleID=216403284
(英文)
http://www.eettaiwan.com/…480102_NT_2af8dafd.HTM
(繁中)

Reply
Sun.表示:

19 4 月, 20092:29 下午

解析度的提升固然是很重要，但是相對的物件精細度的上升跟貼圖的品質等也是影響玩家購買新顯卡的一大動力，以無雙來說新作的無雙 ORZ 就只有提高解析度，在畫面表現的評價就非常的低，另外以 COD 或 GTA 這類的遊戲來看如果只有 PS2 等級的模型跟貼圖應該也是會被人抓來罵。
況且在一些情況下廠商寧可讓解析度不要提高太多也要讓畫面的複雜度做的比以往要高，像是這個 Star Ocean4 就只有 882*496 no AA。其實他們大可以用 PS2 等級的畫面然後做到 720P 4xAA，只是這樣一來評價可能會更慘
 http://www3.telus.net/…s_analysis_StarOcean4.jpg
解析度的提高在畫面的品質上的確是能有直接的提升，可是光靠解析度的提升是否能吸引玩家去換購顯卡則是一大問題，特別是當遊戲中呈現的東西等級不太會有快速增長的時候。
舉個例來說廠商要去說服那些能用 1080P 2xAA 跑遊戲的使用者去換可以跑 1440P 8xAA 的顯卡，可是他們玩到的遊戲內容根本上沒有差別，這是比跟玩家說你的舊顯卡只能玩 COD2 但是換了一張後可以跑 COD4 要差上很多的。
另外如果看電視的解析度發展也是一個有趣的事，在進到 1080P 後要電視再往上面走一次就變得非常的困難了，整體的環境要改變最快也要十年以上，光從 480i->1080P 至今都還未普及來看，要進到 4k2k 的電視很可能是 2020 年後的事了。

Reply
Sun.表示:

19 4 月, 20092:29 下午

解析度的提升固然是很重要，但是相對的物件精細度的上升跟貼圖的品質等也是影響玩家購買新顯卡的一大動力，以無雙來說新作的無雙 ORZ 就只有提高解析度，在畫面表現的評價就非常的低，另外以 COD 或 GTA 這類的遊戲來看如果只有 PS2 等級的模型跟貼圖應該也是會被人抓來罵。
況且在一些情況下廠商寧可讓解析度不要提高太多也要讓畫面的複雜度做的比以往要高，像是這個 Star Ocean4 就只有 882*496 no AA。其實他們大可以用 PS2 等級的畫面然後做到 720P 4xAA，只是這樣一來評價可能會更慘
 http://www3.telus.net/…s_analysis_StarOcean4.jpg
解析度的提高在畫面的品質上的確是能有直接的提升，可是光靠解析度的提升是否能吸引玩家去換購顯卡則是一大問題，特別是當遊戲中呈現的東西等級不太會有快速增長的時候。
舉個例來說廠商要去說服那些能用 1080P 2xAA 跑遊戲的使用者去換可以跑 1440P 8xAA 的顯卡，可是他們玩到的遊戲內容根本上沒有差別，這是比跟玩家說你的舊顯卡只能玩 COD2 但是換了一張後可以跑 COD4 要差上很多的。
另外如果看電視的解析度發展也是一個有趣的事，在進到 1080P 後要電視再往上面走一次就變得非常的困難了，整體的環境要改變最快也要十年以上，光從 480i->1080P 至今都還未普及來看，要進到 4k2k 的電視很可能是 2020 年後的事了。

Reply
waffenss表示:

20 4 月, 20092:30 上午

>>waffen兄，你會讓我覺得像是當初的鐵拳5 for >>PS3….雖然那材質已經rebuild了。
>>不過單純材質容量隨解析度上升就已經有相當
>>負擔了吧？
不一定,要看當初PS2 TK5 Team的做法.
其實有辦法可以不太增加負擔.
貼圖解析度以我的經驗,如果遊戲規格
只要求使用512×512,
Source會要求先做到1024X1024以上
(通常乾脆做2048×2048了)
因為設計材質的時間和尺寸其實沒有明顯關聯.
1024×1024貼圖的成本不會是512×512貼圖4倍.
甚至差不到10%…..
Source大一點做的時候也比較好辨視細節.
所以通常是先做大一點,再Downsample+銳利化,
變成最後要的512×512.
好處是以後硬體性能更好時,這張Source材質可以沿用.
不用再浪費重製貼圖的成本.
如果以後要改高解析度?就拿Source再出一次大圖就好了.
512×512–>1024×1024–>2048×2048
所以改貼圖解析度其實不一定會增加額外開發成本.
當然不是所有研發者都是這種做法…..
有的team就是真的死命的照目前規格做Source.
所以變成PS2的同樣貼圖移植到PC,PS3整個要重來一遍.
再燒一次錢,有的甚至就省錢不改貼圖……
如果開發者一開始做圖就考慮到以後新改版
還能繼續使用這些source,
那麼改版成本就不會明顯增加(只是改參數重新存檔而已)
Downsample+銳利化,其實有時候也意外的省下成本.
因為常常是一開始初期規劃的貼圖規格開太低.
(怕硬體跑不動)等新硬體到位時卻發現,
其實解析度還有很大提升空間.
或是上市時間delay太久,品質跟不上其他遊戲.
專案就會考慮可不可以增加貼圖解析度,
如果當初貼圖source只照預定保守規格做,那就不妙了.
只好整個翻掉重做! 但是研發時程可能被打亂.
所以我的經驗是盡量要求Source要更高解析度.
(甚至要求外包單位也照這規矩)
免去未來不必要的重做成本及時程的困擾.
頂點模型其實也可以靠硬體無痛升級.
未來DX10,DX11時代應該是可以直接靠硬體做tesselation加面,
然後靠Height Map的資料做頂點displacement.
所以你GPU硬體越來越強,能分割的面就更細,
能長成更細緻的模型.
這也是未來不用一直重製更高面模型的研發方式.

Reply
waffenss表示:

20 4 月, 20092:30 上午

>>waffen兄，你會讓我覺得像是當初的鐵拳5 for >>PS3….雖然那材質已經rebuild了。
>>不過單純材質容量隨解析度上升就已經有相當
>>負擔了吧？
不一定,要看當初PS2 TK5 Team的做法.
其實有辦法可以不太增加負擔.
貼圖解析度以我的經驗,如果遊戲規格
只要求使用512×512,
Source會要求先做到1024X1024以上
(通常乾脆做2048×2048了)
因為設計材質的時間和尺寸其實沒有明顯關聯.
1024×1024貼圖的成本不會是512×512貼圖4倍.
甚至差不到10%…..
Source大一點做的時候也比較好辨視細節.
所以通常是先做大一點,再Downsample+銳利化,
變成最後要的512×512.
好處是以後硬體性能更好時,這張Source材質可以沿用.
不用再浪費重製貼圖的成本.
如果以後要改高解析度?就拿Source再出一次大圖就好了.
512×512–>1024×1024–>2048×2048
所以改貼圖解析度其實不一定會增加額外開發成本.
當然不是所有研發者都是這種做法…..
有的team就是真的死命的照目前規格做Source.
所以變成PS2的同樣貼圖移植到PC,PS3整個要重來一遍.
再燒一次錢,有的甚至就省錢不改貼圖……
如果開發者一開始做圖就考慮到以後新改版
還能繼續使用這些source,
那麼改版成本就不會明顯增加(只是改參數重新存檔而已)
Downsample+銳利化,其實有時候也意外的省下成本.
因為常常是一開始初期規劃的貼圖規格開太低.
(怕硬體跑不動)等新硬體到位時卻發現,
其實解析度還有很大提升空間.
或是上市時間delay太久,品質跟不上其他遊戲.
專案就會考慮可不可以增加貼圖解析度,
如果當初貼圖source只照預定保守規格做,那就不妙了.
只好整個翻掉重做! 但是研發時程可能被打亂.
所以我的經驗是盡量要求Source要更高解析度.
(甚至要求外包單位也照這規矩)
免去未來不必要的重做成本及時程的困擾.
頂點模型其實也可以靠硬體無痛升級.
未來DX10,DX11時代應該是可以直接靠硬體做tesselation加面,
然後靠Height Map的資料做頂點displacement.
所以你GPU硬體越來越強,能分割的面就更細,
能長成更細緻的模型.
這也是未來不用一直重製更高面模型的研發方式.

Reply
waffenss表示:

20 4 月, 20093:26 上午

>>廠商寧可讓解析度不要提高太多也要讓畫面的複雜度
>>做的比以往要高，像是這個 Star Ocean4 就只有
>>882*496 no AA。其實他們大可以用 PS2 等級的
>>畫面然後做到 720P 4xAA，只是這樣一來評價…
其實這不是寧可解析度不提高.
應該是開發者想要畫面效果更複雜,
但是高解析度時硬體跑不動….
如果能跑1080P, 廠商不會故意只做882*496
降解析度都是不得已的決定.
也許花很多時間最佳化,可以跑到720P.
但是SO4研發成本與時程可能不允許這樣搞.
直接降解析度是最快速的方案.
封閉硬體上,要跑更高解析度,還是更複雜的shader.
性能是固定的,開發者要自己取捨怎樣才最好.
提高解析度只是我認為去使用GPU線性成長性能的
方法之一,當然加長Shader,更多效果也可以.
只是這比較麻煩,可能會增加研發成本.
因為新硬體才跑的動的shader技法,
之前可能根本就不存在或是沒辦法實作,
所以要花時間為了新硬體重寫.
這方面提升的程度比較受限於研發成本.
SO4本來就是次世代的研發案,當然不可能只照PS2規格做.
我說的能運用GPU性能,不是真的完全只依賴解析度提升.
拒絕使用次世代的功能.
只是說即使不大幅增加成本也是有方法能用到GPU性能.

Reply
waffenss表示:

20 4 月, 20093:26 上午

>>廠商寧可讓解析度不要提高太多也要讓畫面的複雜度
>>做的比以往要高，像是這個 Star Ocean4 就只有
>>882*496 no AA。其實他們大可以用 PS2 等級的
>>畫面然後做到 720P 4xAA，只是這樣一來評價…
其實這不是寧可解析度不提高.
應該是開發者想要畫面效果更複雜,
但是高解析度時硬體跑不動….
如果能跑1080P, 廠商不會故意只做882*496
降解析度都是不得已的決定.
也許花很多時間最佳化,可以跑到720P.
但是SO4研發成本與時程可能不允許這樣搞.
直接降解析度是最快速的方案.
封閉硬體上,要跑更高解析度,還是更複雜的shader.
性能是固定的,開發者要自己取捨怎樣才最好.
提高解析度只是我認為去使用GPU線性成長性能的
方法之一,當然加長Shader,更多效果也可以.
只是這比較麻煩,可能會增加研發成本.
因為新硬體才跑的動的shader技法,
之前可能根本就不存在或是沒辦法實作,
所以要花時間為了新硬體重寫.
這方面提升的程度比較受限於研發成本.
SO4本來就是次世代的研發案,當然不可能只照PS2規格做.
我說的能運用GPU性能,不是真的完全只依賴解析度提升.
拒絕使用次世代的功能.
只是說即使不大幅增加成本也是有方法能用到GPU性能.

Reply
㊣路人N㊣表示:

21 4 月, 20095:42 上午

個人認為在可預見的未來裡(起碼是五年內)，CPU 還沒辦法整合高階的 GPU 運算能力進去。
1. CPU 真的要整合高階 GPU 的運算能力是不是又要多增加運算單元？以目前 Intel Nahalem 模擬 DX10 的效能來看，還是低的可憐，要增加圖形運算能力最有效的手段不外乎加大平行處理能力，直接增加處理單元，不過這也牽扯到製程的負荷能力跟成本。
2. 個人認為頻寬還是頗大的問題，即使 2006 年底 cell 已經拉近這個距離了，不過才兩年的光景，GTX295 的記憶體頻寬也拉到等效 224GB/s，最快的 PC 記憶體頻寬也不過在 14GB/s 左右，而且未來 GDDR5 的時代還可預見頻寬的成長，而給 CPU 用的 DDR4、DDR5 也不知道還在哪個 lab 驗證 XD；除去掉頻寬的問題，一般的通用處理應用上(辦公室應用？)，app 對 cpu 的平行度要求不算太高，也只有播放 HD 影片多核心會比較輕鬆一點，反而是 memory respond time 的影響會比較明顯，這點也跟目前 GPU 的記憶體應用相衝突(高頻寬高延遲，靠 thread 切換隱藏 latency，但是一般 app 沒有這麼多 thread 去切換)。
總之，個人認為，CPU 要快速達到 GPU 的繪圖能力最快的方法就是包一顆 GT200 或是 RV790 上去，然後把 cpu、記憶體顆粒直接黏死在主機板上，大概就像是 Lynnfield 這樣子吧…lol
話說 GT200 的最大材質是 8192×8192….

Reply
㊣路人N㊣表示:

21 4 月, 20095:42 上午

個人認為在可預見的未來裡(起碼是五年內)，CPU 還沒辦法整合高階的 GPU 運算能力進去。
1. CPU 真的要整合高階 GPU 的運算能力是不是又要多增加運算單元？以目前 Intel Nahalem 模擬 DX10 的效能來看，還是低的可憐，要增加圖形運算能力最有效的手段不外乎加大平行處理能力，直接增加處理單元，不過這也牽扯到製程的負荷能力跟成本。
2. 個人認為頻寬還是頗大的問題，即使 2006 年底 cell 已經拉近這個距離了，不過才兩年的光景，GTX295 的記憶體頻寬也拉到等效 224GB/s，最快的 PC 記憶體頻寬也不過在 14GB/s 左右，而且未來 GDDR5 的時代還可預見頻寬的成長，而給 CPU 用的 DDR4、DDR5 也不知道還在哪個 lab 驗證 XD；除去掉頻寬的問題，一般的通用處理應用上(辦公室應用？)，app 對 cpu 的平行度要求不算太高，也只有播放 HD 影片多核心會比較輕鬆一點，反而是 memory respond time 的影響會比較明顯，這點也跟目前 GPU 的記憶體應用相衝突(高頻寬高延遲，靠 thread 切換隱藏 latency，但是一般 app 沒有這麼多 thread 去切換)。
總之，個人認為，CPU 要快速達到 GPU 的繪圖能力最快的方法就是包一顆 GT200 或是 RV790 上去，然後把 cpu、記憶體顆粒直接黏死在主機板上，大概就像是 Lynnfield 這樣子吧…lol
話說 GT200 的最大材質是 8192×8192….

Reply
waffenss表示:

21 4 月, 200911:05 上午

>>GT200 的最大材質是 8192×8192
超過4096的材質目前不太實際.
8192×8192一張圖要32~64MB.
遊戲關卡至少需要上百張貼圖,
以256MB~512MB的顯卡來說,
材質1024~2048左右還是主流.
8192×8192總有一天會用到.

Reply
waffenss表示:

21 4 月, 200911:05 上午

>>GT200 的最大材質是 8192×8192
超過4096的材質目前不太實際.
8192×8192一張圖要32~64MB.
遊戲關卡至少需要上百張貼圖,
以256MB~512MB的顯卡來說,
材質1024~2048左右還是主流.
8192×8192總有一天會用到.

Reply
Eji表示:

21 4 月, 20095:00 下午

well，要整合的畢竟不是GPU，而是GPU般的運算能力…. 所以老實說Larrabee那個LNI我覺得以後幫助會相當大。
從市場因素來看，CELL拉近的距離被甩開其實是很理所當然的事情，畢竟繪圖需求一直是個平行化無敵的世界，但是CPU”目前的主要工作”比較沒有辦法這樣。至於記憶體頻寬的問題，五年內的話stack memory大概還不是很有辦法出來….要不然我是覺得差距其實沒有想像中大。
反過來說，就算CPU可以和GPU比肩，要是做得這麼快只有HPC市場用得到其實是場面也算很糟就是了，不能只有HD decode這個用途來支撐那一定玩不下去的。

Reply
Eji表示:

21 4 月, 20095:00 下午

well，要整合的畢竟不是GPU，而是GPU般的運算能力…. 所以老實說Larrabee那個LNI我覺得以後幫助會相當大。
從市場因素來看，CELL拉近的距離被甩開其實是很理所當然的事情，畢竟繪圖需求一直是個平行化無敵的世界，但是CPU”目前的主要工作”比較沒有辦法這樣。至於記憶體頻寬的問題，五年內的話stack memory大概還不是很有辦法出來….要不然我是覺得差距其實沒有想像中大。
反過來說，就算CPU可以和GPU比肩，要是做得這麼快只有HPC市場用得到其實是場面也算很糟就是了，不能只有HD decode這個用途來支撐那一定玩不下去的。

Reply
waffenss表示:

21 4 月, 20099:56 下午

Stack memory不太了解,不知道Latency怎樣.
Well….搞不好CPU這邊5年後願景講的相當美好,
結果GPU先用stack memory也說不定.
畢竟GPU對頻寬的需求衝的比較快…..
CPU還沒有20GB/s的需求時,GPU已經需要200~300GB/s
很可能GPU開始用Stack memory時,搞不好
PC CPU都還沒用到DDR5呢? (Larrabee不算的話)

Reply
waffenss表示:

21 4 月, 20099:56 下午

Stack memory不太了解,不知道Latency怎樣.
Well….搞不好CPU這邊5年後願景講的相當美好,
結果GPU先用stack memory也說不定.
畢竟GPU對頻寬的需求衝的比較快…..
CPU還沒有20GB/s的需求時,GPU已經需要200~300GB/s
很可能GPU開始用Stack memory時,搞不好
PC CPU都還沒用到DDR5呢? (Larrabee不算的話)

Reply
gddr8表示:

21 4 月, 200910:17 下午

stack memory是个什么东西？这玩意的容量能做得大吗？如果做不大，可能没什么意义，因为8192×8192以上的规格马上要出现了…..

Reply
gddr8表示:

21 4 月, 200910:17 下午

stack memory是个什么东西？这玩意的容量能做得大吗？如果做不大，可能没什么意义，因为8192×8192以上的规格马上要出现了…..

Reply
Eji表示:

22 4 月, 20092:54 上午

關於3D stacked memory….
http://www.cc.gatech.edu/…rs/isca2008-3Ddram.pdf
you can read this.

Reply
Eji表示:

22 4 月, 20092:54 上午

關於3D stacked memory….
http://www.cc.gatech.edu/…rs/isca2008-3Ddram.pdf
you can read this.

Reply
waffenss表示:

22 4 月, 200910:32 上午

看來就是3D Memory技術嘛.
這把memory垂直疊數層在處理器上.
所以不會增加Die的面積,
像蓋大樓一樣,地基面積不變,
跟一般外部記憶體相比,可以縮小面積.
而且疊在一起比MCM多晶片封裝距離更近,
所以理論上latency可以比較好.
也許能取代L3 cache和傳統Edram.
但是問題也很大.
多層wafer貼在一起,良率一定受影響.
散熱也有問題.
它的位置是在die上面, 原本那個地方是接散熱片….
很尷尬的位置.
就算這些都不是問題,
它的容量和Edram一樣有限,只是好一點.
和edram一樣不太適合一般CPU使用.
因為CPU的資料不固定大小,
倒是更適合GPU.
反正GPU可以只放frame buffer或Z buffer.
像C1用Edram那樣的做法.
看起來這反倒是GPU在頻寬上把CPU甩的更遠的機會.

Reply
waffenss表示:

22 4 月, 200910:32 上午

看來就是3D Memory技術嘛.
這把memory垂直疊數層在處理器上.
所以不會增加Die的面積,
像蓋大樓一樣,地基面積不變,
跟一般外部記憶體相比,可以縮小面積.
而且疊在一起比MCM多晶片封裝距離更近,
所以理論上latency可以比較好.
也許能取代L3 cache和傳統Edram.
但是問題也很大.
多層wafer貼在一起,良率一定受影響.
散熱也有問題.
它的位置是在die上面, 原本那個地方是接散熱片….
很尷尬的位置.
就算這些都不是問題,
它的容量和Edram一樣有限,只是好一點.
和edram一樣不太適合一般CPU使用.
因為CPU的資料不固定大小,
倒是更適合GPU.
反正GPU可以只放frame buffer或Z buffer.
像C1用Edram那樣的做法.
看起來這反倒是GPU在頻寬上把CPU甩的更遠的機會.

Reply
waffenss表示:

22 4 月, 200910:40 上午

>>他們的simulate規模可是1~8GB on die….
這就跟光碟可以疊很多Layer一樣.
願景講的很好,但是成本和良率就……
類似這種立體化的晶片生產技術好像聽過很多年,
實務卻一直無法商業化.
技術不夠好的話
80%良率疊很多層就變成
80%x80%x80%x80%x80%x80%x80%x80%= 13%

Reply
waffenss表示:

22 4 月, 200910:40 上午

>>他們的simulate規模可是1~8GB on die….
這就跟光碟可以疊很多Layer一樣.
願景講的很好,但是成本和良率就……
類似這種立體化的晶片生產技術好像聽過很多年,
實務卻一直無法商業化.
技術不夠好的話
80%良率疊很多層就變成
80%x80%x80%x80%x80%x80%x80%x80%= 13%

Reply
GDDR8表示:

22 4 月, 200910:37 下午

1~8GB on die?那还要显存做什么!

Reply
GDDR8表示:

22 4 月, 200910:37 下午

1~8GB on die?那还要显存做什么!

Reply
Eji表示:

24 4 月, 20091:36 下午

> 80%良率疊很多層就變成
> 80%x80%x80%x80%x80%x80%x80%x80%= 13%
大哥，那是memory不是logic耶。這個13%的意思是什麼？
每層80%應該是用+的吧，而且redundancy下去就可以解決啦。

Reply
Eji表示:

24 4 月, 20091:36 下午

> 80%良率疊很多層就變成
> 80%x80%x80%x80%x80%x80%x80%x80%= 13%
大哥，那是memory不是logic耶。這個13%的意思是什麼？
每層80%應該是用+的吧，而且redundancy下去就可以解決啦。

Reply

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

Eji的碎碎念

號稱Bulldozer的真面目之類的

在〈號稱Bulldozer的真面目之類的〉中有 44 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈號稱Bulldozer的真面目之類的〉中有 44 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆