GeForce8延續

最近可能真的步調該放慢一點…..在年底NVIDIA的新產品只能算是產品小改款。

GeForce 8700 — G84的65nm版、或者是G98。前者的話是2TPC、後者的話就是3TPC。
GeForce 8950 — G92,規模應該會是6TPC,最高階版很可能是雙晶片的MCM。

這兩款的Shader可能會從MAD+MUL改成MAD+ADD,修改的部分不多,主要是成本改善。
不過本來G8x就已經幾乎完整支援DX10.1,就算僅止於改bug也還很夠用,而且PCIe 2.0也會開出來….
本來因為bug搭不起來的BR02會弄出A5版來配合,繼續對永遠打不死的AGP市場供貨。

看來雖然還是有點小改款,G8x會再陪伴我們好一陣子。

另外,如果G98確實是3TPC化,這樣和6TPC的G92就可以達成1:2,高階則是雙G92的MCM共12TPC,就可以達成從低到高剛好1:2:4,彌補先前G8x在G80與G84中間落差過大(沒有4TPC產品)的問題。

8/31的時候ZOL主辦一個NVIDIA市場經理專訪,在提供的資訊上面出現下面這張圖:
http://vga.zol.com.cn/topic/636500.html

上面提到G92 1000M電晶體。注意是「顯示卡」的總電晶體發展趨勢,不是單一GPU….且原始網址的G92數字已經被mask掉了。這夠此地無銀三百兩了吧XD

—-
補充一點別的東西: 兩顆G92該怎麼連接的問題,其實要回頭檢視G8x的TCP、以及CELL computing Board。

從CELL computinb Board的結構上、RSX對XDR存取的效率可以知道,線性對應定址、Cache coherency protocol做得好的話,一個GPU可以非常有效率地對另一個device的local memory作讀寫,所以其實我們大可把多數GPU用線性定址mapping串接起來,所以要是G92有512bit,那兩個G92就可以256bit對外、256bit互接就可以了;而G92的單晶片產品只要封裝上不實作完整的512bit,就可以達到產品區隔。

當然實體層不見得是這樣,可是觀念應該很接近了:既然上層結構(TCP)已經做了切割,那麼要做的其實只是把TPC–ROP中間這段corssbar跨晶片連結起來就可以。那麼前端FIFO workload的分配做好之後,所有的動作其實就都與Driver沒有關係,那連結效率就只剩底層I/O overhead,以及分離成兩塊的記憶體造成的一些零碎問題,但是這都可以解決(極端地來說對每塊ROP而言記憶體都是切塊分散的)。

用BR03對這部分也有一個明顯的好處:GPU BIOS其實在BR03上,對Host而言BR03後全部視為同一個GPU,除了能跨越BR03的NVIDIA之外。這對上述的實做法其實也是有利,只是沒搞錯的話目前Quadro Plex靠的也是BR03,這顆晶片適合這樣像多層星形連結的方式嗎?這倒是還有疑問。

在〈GeForce8延續〉中有 8 則留言

  1. >參考:GPU workload分析。
    這是發生在PC上面的狀況吧^^?
    (還是說這是G7x和R5x0的時代…?)
    如果說PS3等的家用遊戲機目前也有page10和page22的情況,
    若能將這些效能拿出來的話,
    畫面應該會向上提升吧^^?

  2. 有些性能可能是”拿不出來”….比方說,看了這篇就會覺得PCIe好像有很多資源可以利用,但是大家都知道去利用它的Turbo Cache在市場上很失敗。
    另外這樣乍看之下好像是C1能利用的ALU資源很多,但是其實不只是C1、G70剩餘的性能也一堆,所以能不能利用到真的很讓人懷疑。

  3. >所以能不能利用到真的很讓人懷疑。
    對G8x這算是比較有效率的核心來說還是如此嗎^^?

  4. > 對G8x這算是比較有效率的核心來說還是如此嗎^^?
    反過來說好了,和R5x0/R6x0比起來,不覺得G8x的TMU/ALU比率很低嗎?
    R5x0:1:3 (16TMU-48ALU)
    R6x0:1:4 (16TMU-64ALU)
    G80:1:2 (128個1Dx2倍時脈 vs 32TMU,約同G7x)
    G84/G86:1:1 (32個1Dx2倍時脈 vs 16TMU)

  5. 感覺最近的問題似乎都繞在同一個地方轉,G8x 的高效率或是 C1 R6x0 R5x0 G7x 的低效率,這或許又是一個類似 multi thread > single thread 的話題(笑),另外一點 G8x 的效率問題一樣存在,這點從 G80 跟 G84 相比其實也不難看出來,但是在目前習慣拿不同家產品直接類比的情況下這點往往也被忽略了。

    要期望 PS3 在 RSX 上用到更多資源不如期待他們在 Cell 上能更有效率的使用。

  6. > 要期望 PS3 在 RSX 上用到更多資源不如期待他們在 Cell 上能更有效率的使用
    我倒是很肯定對NVIDIA而言,G80(NV50)的效率比G70低就是了….
    在G70推出之前一段時間,曾經有人問G70是不是NV50,不過NVIDIA的人(我忘記是不是David Kirk)倒是很直接地說G70不是NV50,而且比NV50強;當然他的意思應該不是絕對性能高低的問題,而是半導體成本固定的狀況下,而這正是PS3設計當時遇到最主要的問題。
    比方說大家都知道8800GTX快過7900GTX SLI、甚至是7950GX2的Quad-SLI,但是前者的電晶體成本也高過後者相當數量(即使是四顆G71的良率,和巨大的單顆G80的良率顯然仍有相當差距)。
    而另一個title應該有針對這點提過,就是G8x在asic部份提供的一些功能(基本上就是DX10 cover DX9+的部份)可以讓XBOX360往PS3移植title的時候會順暢一些;而這些功能和G8x的GigaThread相比應該是不會真的很吃電晶體,只是強調很多次了,NVIDIA當時的政策是不做custom IP給SONY(時間太短),所以要就是G7x、G8x兩者擇一,而以console封閉環境而言,追求訂製軟體可以發揮的空間理所當然選擇G7x。

  7. 電晶體:效率嗎? 這點 G7x 無疑是壓勝過 G8x 的,換種方式來說的話則是 US 架構下電晶體大量的膨脹,要固定 Shader 的性能比他們差可能是數個世代後或是 GS 大量應用之後的事了,不過目前我們也可以看出所謂的 GS 在初代的 DX10 顯卡下可以說是沒有任何作用,SM4.0 的差異也沒出來(或是說本來就不會有),整個的差異只在 VS 跟 ROP 上面有較大的差異,如果以 G7x 的作法強化 VTF 跟 ROP 在低電晶體上超越 G8x 可能並不會太困難。
    另外一點以 SCEI 當時採用 RSX(G7x) 我一直都覺得這點算是正確的,除非說他們選擇採用自定的 API 不然要去採用一個新的 spec 實在不太可能,OPGL 的規範定的太慢,DX10 又受制於人,跟著 nvidia 當時的進度來走算是比較穩健的作法,另外一點是 G8x 並無經過驗證,以當時時間點的緊迫程度來說不太可能會去跟他們一起玩
    雖然說我們還是會常聽到人說 C1 很多地方勝過 RSX 之類等的話,但是這一直以來都沒有個準過,以 GT5P 來說目前有什麼遊戲能做到同等級的水準? GT5P 在畫面上並沒有用到很多 SPE 的功能,他只是以高水準的建模在製作而已,不可否認的 C1 的 ROP 比 RSX 要好的多,問題是仍在一些方面的表現不及 RSX,anyway 我不會愚蠢到拿 Perfect dark zero 來做 C1 的實力代表,但是很多人會拿 resistance 來做 RSX 的實力代表。
    最後是移植的問題,這部分我真的覺得跟前者是一樣的問題,針對 C1 spec 來移往 PS3 的東西自然是問題很多,如果用 G8x 來做的確是會方便一些,不過反過來呢?
    這應該已經不是用有問題能形容的了,這一代的 console 於畫面上的表現我想在顯卡上面的戰爭應該是差不多要結束了,顯卡上畫面的戰爭應該是會丟回 PC 上了。
    一邊是挖DX9+一邊是挖 SPE,問題或許是誰先挖跟那邊比較好挖以及那一邊比較容易挖完這樣而已。

  8. 說起來G7x和G8x的ROP性能倒是真的差不少….
    這邊跑Time Leap的demo,shader的部分的確G84是和G71差蠻多的,性能大概只有1/2;但是MSAA性能整個差一級,如果effect全部關光的話,128bit的G84可以開8xAA和G71開4xAA差不多快,這真的超可怕。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料