GPU

GTX580紙面發佈

1 11 月, 2010 Eji 21 則留言

http://nueda.main.jp/blog/archives/005307.html
GF110を搭載したGeForce GTX 580は11月8日に発表

S|A只要寫NVIDIA的，看起來就有那麼一點像股票網站….w

不過512sp看起來的確很像GF100 debug。
只是還是有修改一些東西，以致於和GTX480相同的core/clock設定下，
據稱還有10%的改善，並且在提高過的設定下，耗電量比GTX480低。
這要算到架構還是製程respin則各有看法；但是NVIDIA的TDP數字畢竟比較浮濫一點….

(補充：TMU 64 -> 128，對GF100來說算是蠻重要的補強….不過沒差到一個世代才對)

剩下的則是ATI跳出來講「benchmark向無意義」的over-tessellating。
要說這樣是DX11最快，顯然是站不住腳；對手則是Cayman單晶片。
先不管能不能贏，實物得拖到明年就顯得非常慘。

Edit：
http://www.gdm.or.jp/voices_html/201010/20101104a.html
「正直、本当に出るとは思ってなかった」(11/4) —某ショップ店員談

居然似乎可以當天發售，看來狀況沒想像中的差。

http://www.microsoft.com/taiwan/silverlight/
結果說不定還是小光郵貼比較受人矚目_A_

在〈GTX580紙面發佈〉中有 21 則留言

shady表示:

2 11 月, 201012:02 下午

>>(補充：TMU 64 -> 128，對GF100來說算是蠻重要的補強….不過沒差到一個世代才對)
想問Eji大，
不知warp的派送是否有如GF104般？
因為從anandtech對GF104的解說文章來看，
GF100的TMU好像跟G7x一樣，
發送TMU或CUDA Core以外的單元時，
就有一組CUDA Core是沒有動的…。
如果有GF104的warp派送方式，
小弟覺得GF100應該會有更多的效能增長。

Reply
waffenss表示:

2 11 月, 20107:04 下午

之前一直沒想到這問題.
Anandtech是這樣畫.
GF100
http://images.anandtech.com/…/GTX460/GF100sm.png
GF104
http://images.anandtech.com/…IDIA/GTX460/EUs.png
但是別的網站pcinlife的圖,畫的和anandtech不同.
http://www.pcinlife.com/…tx460/arts/gf104_sm.png
差別在於Anand連attribute interpolator
插補器和Tex,都畫成需要透過Warp Scheduler發放工作.
這樣會變成GF100有六個單位,卻只能發放2個工作.
而GF100有七個單位,卻只能發放4個工作.
似乎會有大量單位閒置……
如果是pcinlife的圖,就是5個單位,發放4個工作.
硬體平行利用率很高.
感覺上蠻怪的…..
為什麼固定管線的插補器和Tex也需要搶Scheduler….
也許Anandtech一直都畫錯了也說不定.

Reply
waffenss表示:

2 11 月, 20108:35 下午

Chiphell說很快上市,SA說是紙上發表.
嗯…..下週就知道誰對了.
總不會其實有兩種GF110同時流片吧….
如果GF110只是GF100 A4版Bugfix重新流片.
應該很快就能上市才是…..
改128TMU的話,就變動很大,今年出不來也是正常.
(GF100->GF104變動很大上市就隔了5個月)
不過這樣GF100,104,110就三種不同GPC配置.
還真是太折騰有限的研發能量…..

Reply
shady表示:

3 11 月, 20108:48 上午

>>也許Anandtech一直都畫錯了也說不定.
就算如waffenss兄所說的，
但GF100如有GF104的Warp Scheduler，
應該會有一定程度的提升吧？
尤其在不相依的狀況下應該會很有幫助。

Reply
waffenss表示:

4 11 月, 20109:51 上午

如果GF100有GF104的Warp Scheduler.
Shader ALU的運算效率應該會比較好一點.
不過應該不會相差多少,甚至不變.
因為GF104在Perlin Noise之類的純ALU測試中
理論上它的sp數是GTX480的70%.
時脈少5%…..測出來也就是60幾%效能.
有些ALU測試甚至只有60%.
好像沒多出任何效能,沒有明顯進步.
對遊戲繪圖效率影響最大的反而是460的TEX數量夠多.
Tex Rate直逼GTX480,也終於拉近和ATI的差距.
我覺得Tex才是GF100最弱的地方.
這麼大的晶片竟然只有60個TEX….G92等級.
也許Fermi當初可能是把Larrabee當假想敵造成的吧??
這麼看輕固定管線的運算量…
與其改Warp Scheduler.
狂加TEX應該比較有效,連5870都有80tex.
照GF100那種尺寸,沒放個128個真的太丟臉.
G92的64TEX只佔約240M電晶體上下.
可見得TEX固定管線的電晶體量很省.
就算GF100弄到兩倍的128TEX,
Die Size應該只多8-9%左右.

Reply
shady表示:

5 11 月, 20109:36 上午

>理論上它的sp數是GTX480的70%.
>時脈少5%…..測出來也就是60幾%效能.
>有些ALU測試甚至只有60%.
>好像沒多出任何效能,沒有明顯進步.
雖然贊同waffenss兄所說的TMU是重點。
但若非CUDA Core單元的需求量大時，
且又是無相依性的話，
應該會有不小的效能增長。
而且GF104不就是因為它的Warp Scheduler，
其效能才能有GF100的50%以上不是嗎？
若GF104配的是GF100Warp Scheduler的話，
可能連GF100的40%都不到…。
如果現在的GF104只有256個sp，
若遇上非CUDA Core單元的需求量大時，
且又是無相依性的情況，
其平均效能應該在GF100的40%~50%之間遊走。
但這256sp的GF104若配的是GF100Warp Scheduler，
若遇上同樣狀況的話，
其平均效能應該不會有這麼好吧？
不過最後還是得看程式的方面如何，
才能判斷其效能座落於何處。
回到TMU身上，
GF10x的單一TMU的TA:TF是1:4，
而AMD的R8x0則是4:4，
若GF10x也是4:4的話，
不知這樣會有多少差異。

Reply
waffenss表示:

6 11 月, 20102:23 上午

如果是GF104的SM當然不會配上GF100的Warp Scheduler,
畢竟多了一組Array,所以才需要提升Warp發放數.
但是加到48SP,再增加Warp發放能力的SM
真的有比較有效率嗎?(相對於32SP+原本的Scheduler)
這樣講好了,
Perlin Noise是大量ALU運算,不需Tex也不太可能卡ROP.
比的是單純的ALU運算量.
GF104和GF100的Per SP運算能力沒甚麼差別.
只是改動Warp Scheduler發放數.
如果GF104有因為新Warp Scheduler
讓SM/SP Array使用效率變好.
那麼在專門測shader ALU運算的Perlin Noise應該要
贏過相同SP數的GF100架構,沒錯吧?
那我們再看看GTX465和GTX460
460有336SP x 1.350Ghz時脈 = 453.6Gop/s
465有352SP x 1.215Ghz時脈 = 427.6Gop/s
所以說理論上460有多6%的ALU運算量.
在ALU limited的case應該要贏6%上下.
而超過6%的部分就是架構改進提升效率的證據….
這應該是合理的預期吧.
但是實際上…..
http://ixbtlabs.com/articles3/video/gf104-p7.html
卻是Perlin Noise完全沒差….
連那6%的基本該有的優勢都沒.
只贏0.5%….也就是ALU效率還倒退5.5%
(或許是相對RegisterFile比較少的關係?)
Perlin Noise是純ALU運算,不太需要讀寫記憶體.
效率只受ALU能力影響,已經把影響因素縮到最少了.
我沒辦法想像到還有甚麼因素能影響效能.
總之,GF104就是沒有辦法只靠ALU運算贏過GF100.
我只能結論不靠TEX的話,新的SM效率沒有明顯改變.
如果GF104沒有這個Warp發放能力,當然效率會變差.
但是如果GF110也不改48SP,那就不必換這新Warp發放器.
不管NV是為了新Warp發放器增加到48SP,
還是為了增加到48SP而實做新Warp.
總之效率和原本”甚麼都不改”是一樣的,甚至稍微變差.
而真正讓GF460繪圖效率提升的其實是增加大量TEX.
所以如果讓GF100的32SP的SM也有高比例的TEX.
同SP數時運算效率可能還比GF104好…
而且架構變動比較少.
NV之所以改48SP,應該只是為了湊384SP/2000M晶體
這規模來抗衡Cypress.
因為如果用32SP的GF100 SM,
384SP需要湊12SM=3GPC.
可是3GPC沒辦法拼成矩型的Die……
所以要用2GPC達成384SP,把SM改成48SP是唯一的路.
但是原本的發放器是for 2x16Array的設計.
沒辦法讓3×16也維持相同效率.
所以Warp的Dual發放只是為了彌補48SP效率變差的做法.
至少目前並沒有提升Shader效率
(CUDA方面還不太清楚).
而GF110還是4GPC/512SP,
其實維持原本32SP的SM就好了….
沒有多一組Array的話,光是改Warp發放器,
可能提升的效率只不過抵銷增強Warp發放器
花費的電晶體成本,那不如不改….

Reply
shady表示:

6 11 月, 20101:17 下午

waffenss兄，
小弟已表明在：
1. SFU、LS等非SP單元需求量大。
2. 非相依性。
3. 以上這2者不得缺1的情形下。
所以只針對SP的對比，
應該是看不出GF104的Warp Scheduler的好處。
今天假設GF104的SM的CUDA Core只有2組(32sp)，
來和GF100的SM做比較，
如遇到小弟上述之情形，
應該就有差異了。
所以最主要還是要看繪圖方面，
如果繪圖中遇到小弟上述之狀況，
那會有幫助。
若不是小弟所述的情況，
就不會比較好。
當然TMU增為原來的2倍，
會比改Warp Scheduler更為實際就是了。
>>回到TMU身上，
>>GF10x的單一TEX的TA:TF是1:4，
>>而AMD的R8x0則是4:4，
>>若GF10x也是4:4的話，
>>不知和原來的TEX相比會有什麼差異？
話說沒有人回答小弟這問題嗎？(問法稍微修改了。)

Reply
Eji表示:

6 11 月, 20103:14 下午

to shady兄：
言下之意不是指SP而是在說整體單元利用率嗎？
因為又提到SFU又提到LS（偏偏除了內部運作的constant brocast之外繪圖不會用到LS），這其實會變成接近針對性optimize問題….所以我覺得還蠻籠統的。
換句話說，這或許會變成「是不是GF100的排程器設計上就是沒辦法把所有指令單元跑出極限」的問題。
所以有另外一個說法是「其實double TMU並不見得是修改chip得來的」，就像上面S｜A所說的re-spin；只是這還蠻八卦的….
反之，這GF100還真像當年R600….

Reply
waffenss表示:

6 11 月, 20109:32 下午

非SP單元若照網路上的圖都是畫成要接受Scheduler指派
尤其是AnandTech畫的最誇張.
但是這很可能都是畫錯了.
Warp的數量未必和非SP單元有關.
而且很可能根本沒關係.
非SP單元的指令應該有其它控制機制.
否則像是Tex就會沒辦法和所有ALU同時使用.
因為GF100只有2個Warp.
但實際上GF100和其他GPU一樣是Tex單位運算是免費的.
穿插少數TEX指令並不會造成ALU運算量降低.
GF100的兩個Warp本來就不同的工作不相關.
反倒是GF104要在一Warp中找出可以平行分配給2組
SP Array的兩個指令.這會有相依性的問題.
所以GF104的實測反而效率比較差.
GF100本來就是兩個Warp對兩個Array剛剛好.
改成GF104的Warp並沒有辦法讓GF100更好.
除非其他單位也要受Warp控制才能動作,
但目前並沒證據顯示是這樣,實測也測不出那種情形.

Reply
waffenss表示:

7 11 月, 201012:03 上午

SFU和L/S在繪圖中的比例很低或甚至用不到.
繪圖問題主要還是SP Array是否能充分運用.
而這方面,GF100其實比較有效率,
2個Warp配2個Array,毫無相依性的問題.
但是2個Control unit可以服務2個ALU運算單位.
這樣Control unit比例過高,而ALU單位比例太低.
所以電晶體運算密度太低.
於是GF104重點在於可以用少一點電晶體達到類似的高效率.
2個Control unit最多可以服務2~4個ALU運算單位.
總體使用率上升.電晶體運算密度上升
但是其實SP本身的使用效率其實是下降的.
因為會有3組SP Array只有2組能跑的worst case.
在很少需要SFU和L/S的軟體中.
GF104反而無法勝過同等SP的GF100.
還好TEX數量夠多,從這方面可以繪圖性能大贏..
若GF100配GF104的Warp單位.
也許GPGPU方面會提升一點.
但一般遊戲不太常用SFU,也不需要L/S.
只需要大量SP/ALU, 其實同時脈性能不會有明顯提升.
與其改這個,倒不如增加Tex.
>>GF10x的單一TEX的TA:TF是1:4，
>>而AMD的R8x0則是4:4，
>>若GF10x也是4:4的話，
>>不知和原來的TEX相比會有什麼差異？
我不知道你在講甚麼1:4….
應該是AnandTech的錯誤資訊,之前已有討論過.
G80是1:2 每TPC有4TA/8TF
G92是1:1 每TPC有8TA/8TF
GT200是1:2 每TPC有4TA/8TF
GF100是1:1 每SM有4TA/4TF
GF104是1:1 每SM有8TA/8TF
GF100的問題只是TEX數量太少.
所以GF104直接Double.
TA/TF比例沒有改變
可以看出NV從G92後一直想砍對GPGPU無用的TEX.
但是越砍TEX繪圖時性價比越差…..GF100算砍到最底了.
GF104則又面對現實,重回重視傳統繪圖需求的路線上.
固定管線的性能數量仍是繪圖性能的重要因素.

Reply
Eji表示:

7 11 月, 20109:05 上午

> 可以看出NV從G92後一直想砍對GPGPU無用的TEX.
> 但是越砍TEX繪圖時性價比越差…..GF100算砍到最底了.
> GF104則又面對現實,重回重視傳統繪圖需求的路線上.
> 固定管線的性能數量仍是繪圖性能的重要因素.
基本上繪圖而言GPU最大的價值還是在固定管線上，
TMU也好ROP也罷都是高重複性的東西，
全拿去消耗programmable資源實在是很昂貴，
雖然靈活性差了點但是性能衝擊小。
此外，這個設計取捨其實還有另一個值得考量的部分，
就是SP和Tex的距離。
目前AMD和NVIDIA的設計都把SP和TMU放在一起，
Larrabee則是把TMU放在ring bus上頭。
結果就是Larrabee標榜「可以視需求增減TMU數量」，
但是TMU的效率卻會受限於內部頻寬。
然後Cayman似乎想要把SP和TMU切得開一點….
—-
討論起繪圖管線的重要性和比例的時候，
又會讓人回到vector processor沒有既定市場當靠山，
單獨面對泛用處理器性能價格比洪流的歷史問題，
過去HPC市場上vector vs scalar、以及GPU和遊戲市場的歷史都證明了這件事情。
不過其實這或許開始有變動：
首先是桌上型應用對multicore需求有限、目前的CPU大多以server市場主導開發路線、網路頻寬的提高與雲端化的需求等等。
遊戲開發的成本面上來看，電影級的大規模的遊戲開發也走到一個頂峰上不去了，除非又有新的創新之類。
(反倒是電影製作透過GPU改善流程效率這幾年變成常識)
以個人的看法來說，大規模平行運算主要的應用，其實本來就離不開繪圖領域太遠。
性質上離開太遠的就又是HPC那樣的無根浮萍，沒有辦法支撐專用處理器。
只是繪圖領域本身也有其瓶頸和經濟規模的限界存在，
現在CPU來蠶食鯨吞GPU市場的底層了。
本來這是整合晶片組的範圍所以應該影響不大，
不過SandyBridge和Llano的繪圖性能應該會讓這個狀況被打破，
而金流出問題的話製造面得燒的錢就沒著落了。

Reply
shady表示:

7 11 月, 20109:33 上午

>>若GF100配GF104的Warp單位.
>>也許GPGPU方面會提升一點.
>>但一般遊戲不太常用SFU,也不需要L/S.
>>只需要大量SP/ALU, 其實同時脈性能不會有明顯提升.
>>與其改這個,倒不如增加Tex
所以說如果有使用到compute shader或CUDA做遊戲中非繪圖以外的運算(如物理)，
那就會有幫助囉？
>>可以看出NV從G92後一直想砍對GPGPU無用的TEX.
>>但是越砍TEX繪圖時性價比越差…..GF100算砍到最底了.
>>GF104則又面對現實,重回重視傳統繪圖需求的路線上.
>>固定管線的性能數量仍是繪圖性能的重要因素.
若GTX580的TEX從GTX480的60個提升為128個，
那這樣大慨能提升多少性能？
(因為看到一些謠言說GTX580大概有15%的效能改善，
這應該是只有”SP+時脈”增加的效能吧？
若TEX有翻倍應該不是只有這樣吧？)

Reply
Eji表示:

7 11 月, 20102:41 下午

>因為看到一些謠言說GTX580大概有15%的效能改善，
>這應該是只有”SP+時脈”增加的效能吧？
>若TEX有翻倍應該不是只有這樣吧
我們稍微看一下帳面加多少:
sp 480sp -> 512sp 6%
core 700MHz -> 772MHz 10%
sp 1401MHz -> 1544MHz 10%
mem 3696MHz -> 4008MHz 6%
其實要我說的話15%前後的改善應該是這些部分來的….不過也有人說20~30%。
應該是文件裡面遊戲選項和分數差加上幾何平均之後造成的落差被稀釋；
不然說起來GTX480大概也有GTX460的1.6倍，可是tex吃重的case上頭GF100就會被GF104追上。
然後double TMU還得看記憶體頻寬容許的範圍….
聽起來好像沒有很明顯沒錯，可是別忘了GT200b和RV870都有80個TMU….好不容易GF110現在才補滿了正當進化的範疇。
這下換Cayman想砍Tex了：24 SIMD Engine + 64 TMU with 8bit linear filtering per cycle

Reply
shady表示:

8 11 月, 20102:14 下午

>>24 SIMD Engine + 64 TMU
Eji大這數字怎麼兜啊？

Reply
Eji表示:

8 11 月, 201010:25 下午

> 24 SIMD Engine + 64 TMU
> Eji大這數字怎麼兜啊？
因為兜不起來所以來源說TMU和SIMD array脫鉤；
不過fudzilla 隨後來了個 24 SIMD arrays (x16x4=1536sp) + 96TMU的數字….

Reply
shady表示:

9 11 月, 201010:09 上午

>>不過fudzilla 隨後來了個 24 SIMD arrays (x16x4=1536sp) + 96TMU的數字….
這樣的規格，
有比HD5870吃更多電嗎？
沒記錯的話，
之前謠傳CaymanXT要有小於300W的功率，
就算比GTX580低，
還是得比謠傳的CaymanPro的225W高吧？
還是說這是CaymanPro的規格？
又或者時脈高出很多？

Reply
Rhys表示:

9 11 月, 20103:06 下午

不算紙面發佈…香港已有貨開賣~

Reply
shady表示:

10 11 月, 201010:53 上午

>>其實要我說的話15%前後的改善應該是這些部分來的….不過也有人說20~30%。
現在規格出來了，
TEX還是64個。
說真的，TEX有128個也不大可能只有最大30%的增長。
現在看來HD6970只要有略低於GTX580的功耗，
應該就能幹掉GTX580了吧？

Reply
waffenss表示:

10 11 月, 20101:26 下午

假設4D VLIW的使用效率好可以彌補5D的差距….那麼,
SIMD Array從20–>24 (20%)
Tex從80–>96 (也是20%)
全體時脈小幅度增加(10%).
這樣基本繪圖性能至少應該有25-30%成長.
TS部份因為架構整個換代,這部份可能更高.
而GTX580主要靠單位全開(6%)和提高時脈(10%).
平均繪圖上提升15%左右.
HD6970繪圖性能應該有機會和GTX580看齊.
而且成本低的多,Die估計400mm2上下吧(增加20%).

Reply
Eji表示:

11 11 月, 201012:17 上午

to shady兄:
> TEX還是64個。
> 說真的，TEX有128個也不大可能只有最大30%的增長。
事實上，主要的修改似乎是texture filtering 的強化，GF110和GF104一樣有single cycle FP16 filtering，但其他的format並沒有明顯的強化，所以並不能說是tex/filtering=1:2，但是這對某些case應該會有幫助。

Reply

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

Eji的碎碎念

GTX580紙面發佈

在〈GTX580紙面發佈〉中有 21 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈GTX580紙面發佈〉中有 21 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆