GPU

Desktop繪圖市場的哀愁

10 10 月, 2009 Eji 37 則留言

http://en.expreview.com/2009/09/05/nvidia-geforce-gt240-to-boast-96-stream-processors.html
NVIDIA GeForce GT240 to Boast 96 Stream Processors

http://nueda.main.jp/blog/archives/004685.html
NVIDIAの次期ミドルGPU GT240のベンチマーク

老實說GT240這個名字還真的是直接洩底…. 性能應該在G92 based的GTS250以下。
96sp、128bit GDDR5、用GT200縮減而來的24sp TPCx4、主要目的是為了notebook市場，所以盡可能放在40w以下的TDP。

NVIDIA的desktop整個就是預期會挨打的狀況….不論desktop市場和高性能notebook繪圖年底以前應該都是ATI可以囊括的感覺，看到HD5770的定價高到半邊天，看了都在懷疑那個是不是要促進RV770和G92/GT200清倉用的，雖然AMD本家最近還是有點疲軟，獨立GPU的市占率消長應該是可以預見才對。

但是NVIDIA似乎根本就覺得desktop市場年底起不來會繼續縮水、notebook對DX11的需求不會高之類的想法，於是年底的重頭戲似乎是40nm、150mm^2(850M trans)、Cortex-A9 based、G9x graphic(with CUDA)、前代4x性能但TDP維持0.5w的Tegra T2….雖然說這個看起來有點ARM+ION的玩意兒自覺不是沒有吸引力，但是除了Zune HD之外沒有幾個人採用的Tegra能不能殺出一片天還真的是很有疑問。

有人說得好，NVIDIA現在最大的問題，或許是缺乏穩定人心的roadmap。

在〈Desktop繪圖市場的哀愁〉中有 37 則留言

waffenss表示:

11 10 月, 20092:39 上午

目前看來PDA各廠2010預定用的都是高通或OMAP或
三星的Arm+SGX的方案,或三星S3C6410.
NV的動作遠遠落後其他晶片供應商.
NV的hanheld手持市占率明年應該不會成長.

Reply
Eji表示:

11 10 月, 200910:56 下午

NVIDIA動作比人家慢這點沒話說啦，所以用的廠商不是大廠，是鴻海轉投資的mobilnova，產品也不是傳統的handhold而是smartbook這個筆電皮手機骨的玩意兒。
不過Cortex-A9已經可以和Atom正面拼性能了啊….2GHz拼贏Atom 1.6GHz….然後SGX也有MPcore了，很好奇G9x到底有多少優勢。

Reply
水球表示:

12 10 月, 20091:45 下午

最近黃仁勳年薪又再度調回一美元，倒是讓人思考一個問題：現在的 NVIDIA 處境和當初 NV30 的年代，有什麼不一樣？

Reply
路人表示:

12 10 月, 20098:14 下午

該不會NV的GTX3X0有問題啊!
不然怎有這樣的動作

Reply
waffenss表示:

13 10 月, 200912:04 上午

>>該不會NV的GTX3X0有問題啊!
不會啦,GT300應該快ready了.
只不過是DX11產品上市至少晚了對手一季,錯失年末商戰,
以及尺寸大良率偏低成本過高,
還有被對手ATI從低中高階,從桌機到NB,全面領先推出
DX11產品,市占率被吃掉…….的問題而已.
ATI又要玩帽子戲法,仿照RV770,RV730,RV710,RV740
快速世代更新的劇本….全面轉換成DX11 R800產品.
相較之下NV的RoadMap還真的看不出來有在規劃.

Reply
Eji表示:

13 10 月, 20098:47 下午

40nm良率一樣的話，尺寸大的一定良率比較差，所以Fermi變得走的是高附加價值路線，以Tesla和Quadro為主、消費性GPU市場為輔；但是這樣的話GPGPU在消費市場的應用當然就會變得比較慢….只是他們在科學市場的耕耘也是有看到成效就是了，相較之下ATI只有幾個client勉強派得上用場。
反過來說GPU消費市場就完全是放著等死的狀態，市占率被吃掉沒錯。
但是反過來說，與其說DX11領先，還真的會有點懷疑現在是不是真的有辦法靠DX11來「領先」….遊戲市場還是被本世代的console綁著啊。

Reply
水球表示:

13 10 月, 200911:12 下午

AMD（和Intel）真正在乎的，還是明年底那票Bulldozer整合Evergreen的APU，這時候搞出Vision這種「你不必管這顆晶片裡面塞了多少個CPU core和怎樣規模的GPU，只要知道這顆單晶片solution可以做到怎樣的表現就好了」的行銷策略，一點都不讓人意外，反正也很難解釋。
當然我相信很多人都對Fusion嗤之以鼻就是了。（酒）

Reply
Wed.表示:

14 10 月, 20093:35 上午

與其說被 console 綁著不如說是被龐大的遊戲規模給綁著，先不談 DX11 究竟有多少遊戲真的要用到 DX10 都還是問題。龐大的成本導致廠商在遊戲技術的進展緩慢下來，即使有投資其研發週期也被拉長許多，要追上顯卡的進步速度是不可能的，在遊戲畫面進展緩慢的現在就算推出高性能顯卡，或是高規格顯卡，對玩家的意義也只剩下開更高解析度或是 AA 而已，沒有遊戲會真正須要用到這些東西。
這種情況下只要中低階市場在價格跟性能上能追上對手就不會有太大問題了，高階市場轉向真正肯花大錢買處理器的人或許還比較有用一些，只不過這其中的陣痛期是免不了的。

Reply
Eji表示:

14 10 月, 20097:59 上午

> Bulldozer整合Evergreen
能做到多大呢….

Reply
steven_jou0407表示:

14 10 月, 20093:59 下午

http://tinyurl.com/yk9u8v5 黃老大:科科
http://ppt.cc/UdX2 AMD:呵呵
Intel:就剩我倆囉~揪咪索尼:哭哭

Reply
Eji表示:

14 10 月, 20094:18 下午

SONY還有SGX543MPx可以用….w

Reply
waffenss表示:

14 10 月, 20095:57 下午

PSP2: SGX543MPx
NDS2: Tegra
聽起來還蠻值得期待…..
任社應該是不會用到Tegra2

Reply
afxif表示:

15 10 月, 20091:43 上午

Bulldozer的fusion怎么也該是evergreen的下一代甚至下下代了。

Reply
waffenss表示:

15 10 月, 200911:23 上午

>>Bulldozer的fusion怎么也該是evergreen
>>的下一代甚至下下代了。
不一定.
我是不認為AMD會把die size做到比c2Q和i7大很多.
畢竟製程不是其強項,大晶片良率太差.
AMD頂多是在同樣die size(成本)放進CPU和GPU.
從45nm->32nm已經可以多放一倍電晶體了.
2010用32nm, 高時脈CPU能合理生產的Size大約
可放入2B的電晶體…再更大就是怪物級的生產成本.
分一半給GPU也只有1B電晶體.
很有可能只是放Juniper(HD5770)
剩餘1B電晶體剛好夠放比i7還大一點的CPU
依目前CPU緩慢的成長需求,其實這已經很夠了.
以後只要一直update更大的GPU核心就好了……
我預期最初的fusion是至少i7等級的效能
加上HD5770規模的GPU.
對高階Desktop也許不夠高檔,但是NB市場這種
中階整合晶片效能算是很高級了…..

Reply
waffenss表示:

15 10 月, 200911:36 上午

續上.
而且在整合晶片組放太高檔的GPU也沒意義.
因為你不可能給它256bit DDR5以上的高頻寬…..
而且頻寬很可能要和CPU共享,
所以放128bit中階GPU核心已是極限.
能做出來就已經是大突破了.
至少成本上絕對比4核主流CPU+中階獨立顯卡更具C/P值.
Fusion想打的應該是對價格有些敏感,
又需要一定效能的主流PC & NB市場.

Reply
Thu.表示:

15 10 月, 20091:53 下午

如果只是把 GPU 塞進 CPU 當中，這樣的作法跟把 GPU
塞進北橋當中差異似乎不大，對他們真正在意的部分幫助
也相當的有限。
我想在他們的思維中與其思考要放多大的 GPU 進去 CPU
當中，不如思考該怎麼樣讓 CPU 能有效的利用放進去的
運算單元當作如 SSE FPU SIMD 之類的來利用，這樣一
來用途就大的多了。如果只是單純的思考 CPU+GPU 的遊
戲方案，這對 CPU 跟北橋 GPU 都能一手包的 AMD 來說
似乎沒有硬要把 CPU 跟 GPU 作在一起的必要。

Reply
水球表示:

15 10 月, 20092:19 下午

坦白講，不只NB，無論Intel Sandy Bridge和AMD Fusion，對設計低功耗、低成本和緊緻機構的PC，像AIO，或「近PC」的高效能Home Server，簡直是超級救星，這影響絕對不是只從「CPU + GPU會變多大顆」就可以看出來的，簡化整體系統架構及成本才是重點。
更重要的是，這樣會讓Intel/AMD的PC平台更具排他性，進一步擠壓獨立顯示卡的空間，如果NVIDIA想繼續在x86 PC市場玩下去，如何構建自有平台，是遲早都得面對的難題。當然，開闢一個新戰場，可能是比較實際的作法。
最後，常常聽人把AMD的製程技術和晶片設計能力講得跟垃圾一樣，不過嚴格來講，論汎用處理器領域，考量到成本控制能力，全世界大概也只有Intel有能力壓過AMD了（現在的IBM都不見得有這麼行），AMD更沒理由比NVIDIA沒本錢做更大型的GPU，只是他們不做而已，千萬別小看x86修羅場磨練出來的能力，RV770和RV870怎麼看都只是牛刀小試罷了。

Reply
Eji表示:

15 10 月, 20094:34 下午

我是蠻同意GPU做得這麼大主要的原因是因為平行化有顯著效用所以盡可能做到記憶體系統成本和晶片面積成本可以負擔的邊緣，來爭取性能的觀點，畢竟會說「GPU比CPU好做」這種話說成立也對說不成立也對。
成立的部份，是CPU相對於GPU來說單一thread的加速結構怎樣都會比較複雜，GPU主要是內部interconnection的成本極高，但是這方面的設計實話是network topology和supercommputing那邊有很多時例可以學。
不成立的部份，主要卡在driver、developer supporting這些部份和compiler一樣都不是一蹴可幾的，不是光製程堆得大，底層測試跑得快就可以解決。
至於上面提到的CPU+GPU solution會對其他市場的影響極大的部份應該是頗為顯而易見，但是這些市場目前本來是依存於DSP之類，現在則是把GPU作為整合用的運算資源轉移，也就是說對純GPU廠商而言的確是一開始就感覺踏不進來的地方。
顯然考慮製程，AMD一定有本錢「做」一狗票比NVIDIA更大的GPU，但是因為沒有CUDA之類的東西，它沒有本錢讓這些可能比NVIDIA的大的GPU，賣得出好價錢，只能當成Radeon被「糟蹋」，這就和K8往Server殺，desktop市場就空出來了是同樣的道理。
基本上兩個汎用x86 CPU廠商都在設法靠平台排他性來把NVIDIA擠出去….所以NVIDIA另闢戰場應該是很明顯的道理，問題是戰場多大？
GTC上頭當然看起來都很大，都是grand challenge等級的東西，但是誰知道呢….只是如果可以和Quadro一樣變成製造業主力的話，那應該會比較踏實一點。

Reply
Thu.表示:

15 10 月, 200911:56 下午

換個方面說是 CPU 要求的 RAS 跟良率遠高過高階
GPU，以主要產品的 size 來看其實 CPU 並沒有比 GPU 要小，就像鮮少有人拿 IA64 去跟 GPU 比 size 一樣。
會認為 AMD 製程不如人是還頗怪的，全世界除了 IBM
Intel 外究竟有那間真的技術比他好了，或許 Toshiba
有機會但量產上還是輸 AMD，更別說台灣的兩間跟 AMD 實在是沒得比。
至於說 Tegra 用在下代掌機上我是頗懷疑他的性能的，畢竟是個只能跑 4x fps Quake3 的產品，或許以電力來說會是可接受的選擇吧!

Reply
水球表示:

16 10 月, 200912:29 上午

「成立的部份，是CPU相對於GPU來說單一thread的加速結構怎樣都會比較複雜，GPU主要是內部interconnection的成本極高，但是這方面的設計實話是network topology和supercomputing那邊有很多實例可以學。」
這句話講的嚴謹一點，應該說：這些「晶片內部」的network topology和interconnection，已經有一票network processor可以學，只是都貴的嚇人，例如IBM幫Cisco做的那票怪物，而事實上，現在的GPU也沒做到那麼誇張的程度。
on-chip fabric和off-chip fabric其實是差很多的，這也就是為何很多人講multi-core在實作領域上不等於single chip SMP的道理。

Reply
waffenss表示:

16 10 月, 20092:13 上午

APX 2500推測應該是用GF6100改的核心,120Mhz
1組VS,2組PS+Tex,2組ROP.
如果NDS2解析度不高於PSP,Tegra650這3D效能
應該是勉強還可以啦.它跑Q3A 45fps是800×480有開AF和AA
如果只跑iphone那種480×320解析度一畫面,效能夠了.

Reply
Fri.表示:

16 10 月, 20095:02 上午

PSP 解析度是 480*272 不到 480*320。
好或壞還是相對來看的，如果 NDS 下一次仍然不打算在
性能上往上拉太多的話，用 Tegra 應該是夠的，畢竟他
們沒有太多 SoC 的設計能力。

Reply
Eji表示:

16 10 月, 20094:47 下午

你們都覺得任天堂會用檯面上已經推出的Tegra嗎？
不會來order個新晶片嗎？

Reply
afxif表示:

16 10 月, 20094:55 下午

任天堂一直是買設計自己找代工廠生產的，所以說專門設計一款新的也是完全可能。
但是NV手頭可用的也就那個設計吧，太多改動應該不會有
而且，還有給游戲主機賣力，下一代的GPU必敗的詛咒，應付應付方可保平安。

Reply
Fri.表示:

16 10 月, 200910:27 下午

以前幾代掌機直接拿 ARM 來用的情況來說，他們直接拿
現有的 Tegra 來用的機會並不低，另外在製程不變動的
情況下(或是說沒辦法變動的情況下)，要 nVidia 設計出
一顆耗電差不多，但性能高很多的 GPU 應該不太可能，
除非說他們捨棄上面的 shader pipe，然後全都改成固
定的硬體線路，這樣在低解析的掌機上可能會看到比較好
的表現。

Reply
Eji表示:

17 10 月, 20091:15 下午

我記得Tegra是55nm的…. 換個製程順便作個refine的機會不小吧。

Reply
waffenss表示:

18 10 月, 200911:35 下午

初代Tegra應該是65nm.
不過由於NDS系列要求10~14hours以上的遊戲時間.
如果NDS電池容量沒有很大進步,以3.7V,1100mah電池來說.
全系統耗電量不能超過0.4W才有可能勉強達到10hours.
扣掉LCD的耗電,能留給Tegra和DRAM消耗的瓦數恐怕不多,
65nm版的Tegra應該是一開始就出局了.
初代Tegra的耗電量約0.5~1W
靠製程65nm改40nm,die size不到一半,
也只能把耗電量壓低到勉強可以接受.
應該是沒有多少性能強化的空間吧.
追求便宜省電的硬體是N社一貫政策.
如果是像PSP用兩倍大的電池還只要求跑3~4小時.
性能強化的空間就很大了.

Reply
afxif表示:

20 10 月, 200912:25 下午

DSi的10到14小時只有最低亮度時候才能達到，一般是6到8小時。
我不認為任天堂還會堅持10到14小時的標準，真要節電從芯片下手不如上OLED更實際。
而且PSP也好NDS也好，作為游戲機，CPU和顯核之間是偏重于顯核的吧，而Tegra雖然比過去的偏了顯核很多，但是論填充率一類的暴力性能，2004年的PSP顯核其實也不落下風。
直接拿Tegra用我覺得對于游戲機來說還是不平衡。
ARM11+Tegra T2預訂的GF9顯核+3MB eDRAM混出來也許好。

Reply
waffenss表示:

20 10 月, 20093:28 下午

從GBA~GBASP~NDS~NDSL~NDSi
N社每一代掌機都要求10Hr.
除非N社高層全部換掉,否則想法還是一樣.
下一代幾乎99%可以確定還是會走便宜省電路線吧.
CPU和GPU效能一向不是N社考量的重點
否則NDS和Wii就不會現在這種爛性能了.
何況對N社來說Arm11+GF6核心, 已經是大躍進了.

Reply
afxif表示:

20 10 月, 20094:31 下午

不要忘記GBL和GBM的存在。
游戲時間長固然是好事，但是我認為超過6-8小時之后的意義并不是很大。
而且再出現觸控或者體感那樣的爆點的機會也不大了，下一代掌機了不起加上多點觸控，但PSP的下一代未必就沒有。
GB、NDS、Wii確實都以弱勝強了
但是GBA、SFC，任天堂還是以強勝強的呀。

Reply
waffenss表示:

21 10 月, 200911:39 上午

看了一下SGX的文件.
最小1USSE的SGX520 ,在65nm只有2.6mm2
4USSE的SGX540或545,在65nm約12.5mm2
6200要77M電晶體,在110nm時是110mm2
從110nm->65nm,die size約縮小到35%.
而GF6100約等於6200的一半規格,約40M電晶體.
估計65nm時GF6100其die size約20+mm2
很明顯論規格/成本/效能/耗電量方面,
Tegra1都很難抗衡其他廠商的SGX方案.
至於Tegra2的GF9,其最小核心是9100M.
8SP,8Tex,4ROP,規格等於是G86的一半.
其電晶體約在105M左右,
若用40nm生產其die size至少15mm2
其競爭對手使用的3D core應是新的SGX543MP系列
基本型4組USSE2的SGX543大概16mm2(65nm)
8組USSE2的SGX543MP2大概32mm2(65nm)
從65nm->40nm,die size約縮小到38%.
估計SGX543在40nm大概只有6.1mm2
而SGX543MP2在40nm大概只有12.2mm2

Reply
Wed表示:

21 10 月, 200912:55 下午

PSP2 如果是明年底出的話應該沒機會用到 40nm 因為
Toshiba 本身沒這段的製程，但卻有機會能直接用上 32nm，以 AMD 的時程來看的話，明年中 Toshiba 小
尺寸的產品或許有機會能達到他們要的量產能力。
相反的 NDS2 採用 55nm 的機會可能會大過 40nm，主機
跟顯卡要求的良率畢竟不一樣，除非戳 TSMC 在 40nm 上
良率能拉上來，不然的話降一級用 55nm 的可能性也不低。

Reply
waffenss表示:

21 10 月, 20092:09 下午

Toshiba這個40nm的製程不能用嗎?
http://news.softpedia.com/…c-Process-96282.shtml

Reply
Eji表示:

22 10 月, 20094:16 上午

SGX的效能的話有一個要保留的部份是，SGX的所有運算能量都靠USSE了，沒有ROP….只有tiling和pixel的一些基本功能，還有texture logic，blending之類和運算有關的就是USSE負責。
雖說GMA500會慢應該都是driver的錯，不過Tegra和SGX拼性能我倒是還有點保留。

Reply
Wed.表示:

22 10 月, 20097:03 上午

沒注意到這次 Toshiba 有發展 40nm 製程，這樣的話或
許也有機會去用到吧!
Pixel processor 就要看他們究竟做了多少的東西進去
了，況且 GF6200 的 ROP 以現在的眼光來看也沒有什麼
太多的特異功能，主要有差的可能是 HDR 的部分，另一
方面是因為輸出的對像解析度相對小很多，所以不需要去
發展成 Tegra 那樣。如果說下一代掌機是 1280*720
等級遊戲的競爭或許對 Tegra 會比較有利，但以現在來
看最多做到 640*360 的掌機似乎沒有必要那麼強調高解
析輸出，或是說 ROP 不用那麼好外部頻寬也不用吃的那
麼大。
不過也是因為他們只要求低解析度所以才能仰賴大量的
tile 去拼畫面，多 GPU 的情況下性能的成長才比較線
性。反過來說是如果 SGX 要做到 PC 上會被過差的 ROP
跟記憶體控制器給拖垮整體的性能，但現在用在的地方卻
是比當年 DC 輸出解析度更低的攜帶裝置，這問題相對就
小很多了。

Reply
waffenss表示:

22 10 月, 200910:22 上午

>>SGX的所有運算能量都靠USSE了，沒有ROP….
>>只有tiling和pixel的一些基本功能，還有texture >>logic，blending之類和運算有關的就是USSE負責。
這一點的確是USSE的疑慮
從PowerVR官方文件中的圖,
Tex unit和Pixel processing unit還留著,
但專利資料又有說USSE取代了那些固定管線.
MTMP replaces the function of geometry processing 1502, texturing and shading 1508, alpha test 1509, fogging 1510 and alpha blend 1511 unit
不過以效能來看Tex decompress和filter
都不可能用USSE來跑.
看看creative Zii那顆ZMS-05,24顆PE.
基上是只有SP沒有Tex和Rop的GPGPU晶片.
有8Gflops,3D繪圖卻只有吐血的42Mpixel/sec….
軟體繪圖就是這麼慘.
由SGX仍明顯快過全硬體線路的MBX來看.
推測,SGX仍是傳統GPU架構,Tex和ROP還是硬體線路.
但其中某幾段簡單運算,像是Blend和Fog,以及DX7的
多重貼圖的混合,有可能用USSE來做.
這部份對效能不會有太大影響.
推測它專利講的replace,並沒有真的用在SGX.
或許那專利是原本要用在取消的SGX510.
預計比SGX520更小更低階,
但SGX520已經只有1組USSE了.
SGX510能再縮減啥? 也只有把Tex和ROP都砍掉.
做出來的話有可能是1.xmm2的最小Shader3.0 GPU.
不過基於現實效率考量,這設計大概不值得繼續下去.
我認為SGX架構最令人擔心的不是這方面.
而是每Pxiel可分配的ALU運算量太少.
USSE2每cycle只能處理2個FP32.
其ALU/ROP比例非常低,和DX8.1時代差不多.
所以SGX架構每Pixel能分配的Shader運算量,
恐怕不會比Xbox1多多少.

Reply
Eji表示:

22 10 月, 200912:03 下午

> 我認為SGX架構最令人擔心的不是這方面.
> 而是每Pxiel可分配的ALU運算量太少.
> USSE2每cycle只能處理2個FP32.
> 其ALU/ROP比例非常低,和DX8.1時代差不多.
DX8.1時代的XBOX解析度是640×480，而這個市場的device最高可用解析度短期內只有800×480其實也還好….
不過我倒覺得這個比例其實代表一件事情，就是目前SGX的USSE、USSE2設計和G80以來的NVIDIA一樣都是綁固定規格的fix unit，所以他們遇上市場短期內增加(2010年)的性能需求，就是拿mutli-core出來，然後每個core的fixfunc能力就感覺有點多。
而USSE是1D FP32、USSE2是2D FP32，所以未來應該是慢慢擴充這個方向走，然後把需要的unit數(形同fixfunc單元數)再減回來。

Reply