特訓第四天,網路資源取得

特訓第四天,網路資源取得

WL-500g固定化,於是可以上來直接key blog了….
中午NB就放在AP附近掛著。

那部Athlon 1.1GHz換了Driver之後開始猛當,開機後沒多久就reboot,開始覺得實體零件有問題;結果拆開一看,那張GF2MX的風扇早就卡住很久了….晚上在附近的燦坤買了CoolerMaster的北橋散熱片後搞定。

然後最近半夜開始固定到網咖上網,去GZeasy回文。
所以關於R520最近還是有資料可以聊….下面就來一點吧。

1. R520的Pixel Shader ALU看起來還算是相當強大。
首先是Dynamic Branch方面似乎做得非常好(至少ATI宣稱),因為threading數最後達到512個,比先前傳聞的多很多,所以應該有辦法隱藏branch增加後多出來的penlty。

舉例,根據ATI的說法,R520的分支可以密集到4×4 pixel block的範疇;根據NVIDIA的develop guide,NV4x則是30×30的規模。這個block代表"每幾個pixel作一次branch"可以由threading隱藏branch penlty的關係,所以越小越好。

先前PCwatch提到,E3時ATI提供的資料上,C1是64、而R520是128 thread;但是現在R520大幅增加threading數量的同時,hotchip05時C1的公開資料上thread也增加到94個。(vertex 31、pixel 63 max,總Register 數量是24,576個FP32,即96thread x256個,而有2個thread可能有其他用途;從這樣估算的話,R520的512thread、代表具備的總register數量可能高達131,072個?)

至於NVIDIA方面,Tech-Report後來有刊出一些來自NVIDIA針對於threading的回應,前面提到NV4x的建議branch頻率 blocking 是30×30 pixels(實際上大概是880左右),而G70是這個數字的1/4左右;但是從TR引用測試數據來看,看起來NV40的threading數目較少,可能還比後續的NV4x其他產品(如NV41/42/43)來得小。

也就是說,NV40的block可能的確在64×64左右,但其餘的NV4x改進到32×32以內,建議的分隔block也變得比較小;唯shader大量使用branch的狀況不多,所以並沒有出現branch造成的影響大過管線結構優勢的狀況。
(如NV43並沒有因為flow control上的改進-4096pixel改到1024pixel以內應該算很大的差異-而跑贏管線數量較多的NV40;而後來的NV42可能就會有機會用較少的管線跑贏NV40,比方說,注意NV42的電晶體數量為202M,已經較NV41的不滿200M稍大)。

G70的branch penlty改進更多,建議block已經小到16×16的程度,雖然還是離R520的4×4有段距離;不過由於G7x的中階尚未推出,所以也沒有看到NVIDIA修改建議的blocking。(從上面的進展狀況來看,也許其餘G7x到時候會改到8×8?)
這個也相對地可以讓人看出這幾個GPU在ALU數量與register file大小之間的關係。

以我的推論來說,很可能Flow Control的成本高低與register file的大小成負相關的狀況,所以要改善這點只要增大register file(同時即可提高threading數量),就可以負擔更頻繁的Dynamic branch,也就是成本降低,而其餘結構就可以不需要修改太多….

[quote]R520由於ATI的取捨在於效能,所以先將Register File追加到目前的規模;而NVIDIA當時並沒有給這麼大數量的Register File,但日後新的產品如果追加到滿足與ATI相同需求的規模,就可以在不修改程式的狀況下達到相同的表現;唯由於NVIDIA的ALU較多,很可能所需的電晶體比例會比ATI目前的產品大。

而考慮NV4x產品線內register file的狀況,應該可以想像NVIDIA的取捨上認為目前flow control的使用頻率較低,管線數量影響較大,而隨著趨勢的發展進行調整,所以對register file容量的取捨與ATI有所不同。[/quote]

所以或許樂觀一點說,就是「只要製程技術可以負擔到某種程度」,register file大小就不會成為問題的話,flow control的成本就會變得可以忽略;但同時,也許要到這時候shader的 flow control才會普及。

[quote]話說針對這部份補充一點感想:
光就threading的部份,ATI目前對結構上的闡述要來得比NVIDIA明朗,到目前為止NVIDIA GPU的threading數量仍然是未公開的,甚至連threading都沒有提到,還要自己去PCWatch看訪談、去Hotchip查論文(也只有"hundreds"這個詞);但是ATI卻連threading數量都給了。這讓我想到後藤弘茂大叔當初對NV3x那篇感想中提到的"變得饒舌的ATI與變得沉默的NVIDIA",在R300推出後這個現象尤其明顯。[/quote]

其他討論請參照GZeasy顯示卡技術版的相關討論串:
http://bbs.gzeasy.com/index.php?showtopic=461530&st=0

2. 生產方面,TSMC這回要大失血了。
TSMC的成本保護協定有規定晶片單價上限;其實charge per die的意義本來就是如此。
所以單顆ATI最高付的價格是150usd…. 其實這也只是稍貴的程度而已。

但是,由於Low-K的問題很複雜,目前R520的成本波動極大,最低是420元前後,最高甚至會超過700…. usd。
絕大部分的狀況是500~600usd,所以實質上TSMC目前是賣一顆賠三顆的狀況。

TSMC當然是想和ATI另外談價格,不過ATI得了便宜自然是不輕易鬆口,現在ATI完全是在燒TSMC的錢,假設TSMC的wafer分配量給NVIDIA與ATI是相同的,那我會覺得TSMC可能有每月損失數百萬美金的立即危險。

總之,TSMC和ATI聽說打算興訟了….至於UMC看著TSMC的慘況,當然是不願意簽成本保護協定,所以其實R521、RV516、RV531這三個晶片目前仍然是空氣。

3. 目前所有合作廠商拿到樣品的進度非常緩慢
已經有不少人跳出來罵了。
或許ATI認定OEM單已經絕望,所以全力衝retail?

至於媒體拿到的進度有快有慢,至少 ikari 所在的電腦王雜誌有拿到:
https://www.pchome-advance.com.tw/viewtopic.php?t=163
這邊是他們的數據,16ps版625/1500的設定下可以跑9000出頭,所以9100這個分數至少還算是真的;cho測的數據低了些,但是還是有8600~8700,這可能是Driver差距。

聽說ATI在英國的合作商OCUK表示,大量供貨大概要等到12月;不過我是覺得從良率來看,供貨速度本來就是涓滴細流了,只是何時輪到的問題而已。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料