R580架構工程師interview

http://www.beyond3d.com//reviews/ati/r580/int/
可以看看ATI的工程師們的想法,尤其是這邊有對G7x結構的看法:

http://www.beyond3d.com//reviews/ati/r580/int/index.php?p=02

ATI的工程師們覺得,G7x增加PS時可能會增加TMU,
造成Tex:ROP的比值增加(G70時是3:2,G71也許會惡化至2:1),
是個"往回看"的選擇,會影響架構的平衡性。

(反過來說,這是預示G71可能還是會增加ROP來配合PS增加? 好,這是YY….)

此外,另一個理由是每個時脈可以獲取的頻寬比例在下降(R300時是3:4、R580是7:8),
但是TEX的消耗量其實是在增加(解析度增加、以及HDR造成資料量增加),
所以增加TMU在這裡也會變成負面因素;
ATI的人並不在意增加TMU造成增加頻寬需求,但是他們不希望再降低ALU:TEX的比值。

此外,ATI的人認為從新的遊戲來看,ALU瓶頸越來越嚴重,
所以他們不擔心TMU數量會成為R580的瓶頸。
(而且他們補充:增加TMU數量對頻寬瓶頸沒有幫助,假設遇到的是頻寬瓶頸)

至於我們看到Dispatcher因為沒有增加資源(維持同樣的512 threads),
R580應該會遇到分支上較大的成本問題,ATI的工程師是承認的;
但是他們也同時認為,從現有的實測上來看,3x ALU帶來的好處仍然多過壞處。
(同時也代表分支成本的問題比想像中輕)

所以即使他們並沒有將資源跟著增倍,R580仍然在所有他們做的測試裡面跑得比R520快,
於是他們便不擔心這個問題,即使有些狀況R580似乎沒有明顯地比R520快,但是總和起來終究較快;
而以R520的標準再增加register file,很可能成本上便不夠合算….
結論終究是R580沒有增加dispatcher所持有的threading資源。

—–
此外,基本上R5x0的設計已經可以達到線性的ALU增設,
每個dispatcher可以設置1、2、3、4….個ALU(目前R580是12個ALU)。

但是B3D在他們的R580 review內容已經證實,R5x0的關閉管線必須以Dispatcher為單位,
所以R580如果要關閉管線,關掉一個dispatcher就是變成12TMU、36PS,以下類推。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料