特訓第四天，網路資源取得

WL-500g固定化，於是可以上來直接key blog了….
中午NB就放在AP附近掛著。

那部Athlon 1.1GHz換了Driver之後開始猛當，開機後沒多久就reboot，開始覺得實體零件有問題；結果拆開一看，那張GF2MX的風扇早就卡住很久了….晚上在附近的燦坤買了CoolerMaster的北橋散熱片後搞定。

然後最近半夜開始固定到網咖上網，去GZeasy回文。
所以關於R520最近還是有資料可以聊….下面就來一點吧。

1. R520的Pixel Shader ALU看起來還算是相當強大。
首先是Dynamic Branch方面似乎做得非常好(至少ATI宣稱)，因為threading數最後達到512個，比先前傳聞的多很多，所以應該有辦法隱藏branch增加後多出來的penlty。

舉例，根據ATI的說法，R520的分支可以密集到4×4 pixel block的範疇；根據NVIDIA的develop guide，NV4x則是30×30的規模。這個block代表"每幾個pixel作一次branch"可以由threading隱藏branch penlty的關係，所以越小越好。

先前PCwatch提到，E3時ATI提供的資料上，C1是64、而R520是128 thread；但是現在R520大幅增加threading數量的同時，hotchip05時C1的公開資料上thread也增加到94個。(vertex 31、pixel 63 max，總Register 數量是24,576個FP32，即96thread x256個，而有2個thread可能有其他用途；從這樣估算的話，R520的512thread、代表具備的總register數量可能高達131,072個？)

至於NVIDIA方面，Tech-Report後來有刊出一些來自NVIDIA針對於threading的回應，前面提到NV4x的建議branch頻率 blocking 是30×30 pixels(實際上大概是880左右)，而G70是這個數字的1/4左右；但是從TR引用測試數據來看，看起來NV40的threading數目較少，可能還比後續的NV4x其他產品(如NV41/42/43)來得小。

也就是說，NV40的block可能的確在64×64左右，但其餘的NV4x改進到32×32以內，建議的分隔block也變得比較小；唯shader大量使用branch的狀況不多，所以並沒有出現branch造成的影響大過管線結構優勢的狀況。
(如NV43並沒有因為flow control上的改進－4096pixel改到1024pixel以內應該算很大的差異－而跑贏管線數量較多的NV40；而後來的NV42可能就會有機會用較少的管線跑贏NV40，比方說，注意NV42的電晶體數量為202M，已經較NV41的不滿200M稍大)。

G70的branch penlty改進更多，建議block已經小到16×16的程度，雖然還是離R520的4×4有段距離；不過由於G7x的中階尚未推出，所以也沒有看到NVIDIA修改建議的blocking。(從上面的進展狀況來看，也許其餘G7x到時候會改到8×8？)
這個也相對地可以讓人看出這幾個GPU在ALU數量與register file大小之間的關係。

以我的推論來說，很可能Flow Control的成本高低與register file的大小成負相關的狀況，所以要改善這點只要增大register file(同時即可提高threading數量)，就可以負擔更頻繁的Dynamic branch，也就是成本降低，而其餘結構就可以不需要修改太多….

[quote]R520由於ATI的取捨在於效能，所以先將Register File追加到目前的規模；而NVIDIA當時並沒有給這麼大數量的Register File，但日後新的產品如果追加到滿足與ATI相同需求的規模，就可以在不修改程式的狀況下達到相同的表現；唯由於NVIDIA的ALU較多，很可能所需的電晶體比例會比ATI目前的產品大。

而考慮NV4x產品線內register file的狀況，應該可以想像NVIDIA的取捨上認為目前flow control的使用頻率較低，管線數量影響較大，而隨著趨勢的發展進行調整，所以對register file容量的取捨與ATI有所不同。[/quote]

所以或許樂觀一點說，就是「只要製程技術可以負擔到某種程度」，register file大小就不會成為問題的話，flow control的成本就會變得可以忽略；但同時，也許要到這時候shader的 flow control才會普及。

[quote]話說針對這部份補充一點感想：
光就threading的部份，ATI目前對結構上的闡述要來得比NVIDIA明朗，到目前為止NVIDIA GPU的threading數量仍然是未公開的，甚至連threading都沒有提到，還要自己去PCWatch看訪談、去Hotchip查論文(也只有"hundreds"這個詞)；但是ATI卻連threading數量都給了。這讓我想到後藤弘茂大叔當初對NV3x那篇感想中提到的"變得饒舌的ATI與變得沉默的NVIDIA"，在R300推出後這個現象尤其明顯。[/quote]

其他討論請參照GZeasy顯示卡技術版的相關討論串：
http://bbs.gzeasy.com/index.php?showtopic=461530&st=0

2. 生產方面，TSMC這回要大失血了。
TSMC的成本保護協定有規定晶片單價上限；其實charge per die的意義本來就是如此。
所以單顆ATI最高付的價格是150usd…. 其實這也只是稍貴的程度而已。

但是，由於Low-K的問題很複雜，目前R520的成本波動極大，最低是420元前後，最高甚至會超過700…. usd。
絕大部分的狀況是500~600usd，所以實質上TSMC目前是賣一顆賠三顆的狀況。

TSMC當然是想和ATI另外談價格，不過ATI得了便宜自然是不輕易鬆口，現在ATI完全是在燒TSMC的錢，假設TSMC的wafer分配量給NVIDIA與ATI是相同的，那我會覺得TSMC可能有每月損失數百萬美金的立即危險。

總之，TSMC和ATI聽說打算興訟了….至於UMC看著TSMC的慘況，當然是不願意簽成本保護協定，所以其實R521、RV516、RV531這三個晶片目前仍然是空氣。

3. 目前所有合作廠商拿到樣品的進度非常緩慢
已經有不少人跳出來罵了。
或許ATI認定OEM單已經絕望，所以全力衝retail？

至於媒體拿到的進度有快有慢，至少 ikari 所在的電腦王雜誌有拿到：
https://www.pchome-advance.com.tw/viewtopic.php?t=163
這邊是他們的數據，16ps版625/1500的設定下可以跑9000出頭，所以9100這個分數至少還算是真的；cho測的數據低了些，但是還是有8600~8700，這可能是Driver差距。

聽說ATI在英國的合作商OCUK表示，大量供貨大概要等到12月；不過我是覺得從良率來看，供貨速度本來就是涓滴細流了，只是何時輪到的問題而已。

Eji的碎碎念

特訓第四天，網路資源取得

發佈留言取消回覆

現在只剩下黑歷史….

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆