原文-後藤弘茂海外News:アーキテクチャの改革を”急ぎすぎない”NVIDIA
本文為前一篇「分為兩派的DX10支援方向」的延續,討論了NVIDIA對DX10支援的方向取捨….
當然,就像02在 NVIDIA:人類進化太快造成不良後果 提到的,雖說搞笑歸搞笑、但是基本上靈活度與速度仍然是相對的,冒然地追求過度的靈活性,將會在架構上造成過大的overhead、進而失去效率。
當然,這時候就會變成”Unified-Shader到底會帶來效率的提高還是降低?”的問題。
就算以支持US最力的ATI自己的說法來說,每個shader unit的Unified化,理論上仍然需要30%~40%的規模增長。
(EDIT:原文為-
「Unified-Shader型実装が、コストが高いことは、同アーキテクチャを取るGPUベンダーも認めている。例えば、ATIのRick Bergman(リック・バーグマン)氏(Senior Vice President, PC Business Unit, ATI Technologies)は「DirectX 10をサポートするには、30~40%程度のロジック(回路)が余計に必要となるだろう」と語っていた。
ATIのUnified-Shaderはオーバーヘッドがあるわけだ。それに対して、Kirk氏は、Independent-Shader型の方がオーバーヘッドが少ないことを示唆している。実際、Unified-Shaderへ向けてさまざまな要素を実装しつつあるATI GPUは、ダイサイズが肥大化しつつある。これは、ATIにとって重荷になっているはずだ。」
但Dave Baumann認為,這R.Bergman的發言是指Support DX10的spec,並非指Unified Shader。其發言於B3D Forum上對於後藤本文的討論串上可以閱覽到。)
如果單純這樣看的話,就會變成比較一個1.3倍的US、以及一個”1+1=2″的VS/PS。
US可以同時做兩者的工作、分離VS與PS則能夠保持效率….
但是,在R520發表的時候,ATI曾經提過、R5x0以Ultra-Threading Dispatcher(透過維持相當大規模的register file,來提供更大的threading數量)來提高其Shader Unit的使用率,減少效率的衰減;而C1則使用與其類似的thread控制結構,但是thread數量相對少相當多。
以cho過去的說法來說,US可以大幅度地提高branch-penlty的對抗能力,因為US本身結構上就較適合來做branch。
而NVIDIA則回歸到半導體成本的看法,透過比較G71與R580/C1的die與可發揮效率的比較,來論斷自己的成本觀念較好;但是過去也提過了,實質上NVIDIA在NV4x這個世代所投資的大量資源積累,對他們轉移到US的確發揮不了太多的幫助。
雖說進化與革命自然是不能相提並論,過快的進化不會帶來比較好的結果;但是市場的選擇通常不會與這種”好壞”有絕對的關係…