[G70]準備迎接512bit GPU?

B3D這幾天一直有人說R520的記憶體介面有驚喜….
但是GDDR4還沒下文,所以只能想到512bit了。

XGI的192bit應該是很折衷的東西,我是覺得ATI大概不會弄個半調子的384bit….
而且前幾天看到C1用FP10,這個大概就代表R520有很大的機會可以開FP FSAA…..

所以,NVIDIA要怎麼上呢?

FP10的部份,Hotball兄有一些評論:
source:https://www.kimicat.com/phpBB2/viewtopic.php?t=660

[quote]這個 FP10 是針對 HDR 的需求設計的。

理論上,如果是 7 bits mantissa 和 3 bits exponent,應該就沒有剩下的空間可以放正負號了。當然,frame buffer 裡面通常也不太需要存放正負號(雖然如果有的話,有時候也蠻方便)。但是,另一方面,文章裡面也提到這個 FP10 的範圍是 -32 ~ +32,因此它應該還是有正負號。最可能的解釋是,它的 mantissa 只有 6 bits,exponent 還是 3 bits,而 bias 是 3。不過,這樣一來,它的精確度就只有 7 bits,似乎反而是一種損失。但是,另一方面,由於浮點數的特性,它在暗色部份(就是數字較小的一邊),它還是可以有等同 8 bits 的精確度。

如果放棄正負號的話,就可以有 8 btis 的精確度,至少和原來的 8 bits 定點數有相同(或稍高)的精確度。[/quote]

總之,從這點來看,R520要是開FP FSAA,性能上大概絕對會領先吧。
FP10看起來就是個性能掛帥效果折衷的格式….
不過,OpenEXR是ILM/LucasArt拿去做電影成品的格式,拿來RT3D也的確太暴力了些。

這讓人想到David Kirk當初說的"第一次做就做對的事做到好",NV30拼死命支援OpenEXR,結果搞到效能亂七八糟,到NV40才比較像話些….
David Kirk用的是那種效果必需要先到理想,效能可以靠製程慢慢改善這樣的態度,這種作法到NV30第一次才死得非常慘。
只能說久多良木健或許真的說得對,NVIDIA和SONY都是只顧美學成本放旁邊的浪漫派….
所以他們一見如故、相談甚歡,苦的就是底下的小職員了,要跟著上面的老大硬上這樣。

最後,hotball大對"512bit R520"補了個評語。
「Beyond3D是開放性討論區,所以不是什麼消息都可以相信。」XD

[G70]所謂G的真正涵義?

稍早Waterball兄丟訊息過來,他說他快被操掛了,有意改跳外商公司….
不過外商不是比較操嗎?(汗)

總之,各大媒體都開始測試G70了,認識的人裡面就至少有兩組人拿到了sample。
單卡分數幾乎剛好是7800這個產品代號…..XD

由於SLI本身沒有修改的關係,所以大概就是現在的可達效率乘上去吧?
測到的分數是11000~13000左右,還能提升多少不太清楚,不過反正就算效率達到兩倍也頂多是一萬五….

看起來一點都不顯眼。(汗)

記得當初cho提過,NVIDIA的人私下對他說『G70太強了,NV50都不見得比得上』,而且後面又有補充『NV50 = 4x NV40』….G70聽起來真的是非常可怕。
這個NV50顯然是還沒取消之前的spec,現在NV50已經整個取消了,不知道那個核心本身變成了什麼。
可是現在G70的表現根本看不出來有NVIDIA的人說的那種實力….到底怎麼回事呢?
G的真正涵義到底是?
讓NVIDIA寧可取消掉NV47/48/50三個核心,轉移到這個新架構的核心價值,到底是什麼呢?

結果,在開到1600*1200 4xAA+8xAF的時候,G70的底力開始出現了:
3DMark05得分4657。

它,它沒增加記憶體頻寬耶…..O_O
看起來G指的真的是某種可以對記憶體頻寬最佳化的新結構,
這樣RSX大膽地使用128bit GDDR3,也似乎是可以理解的了?

而且,現在G7x系列的dual-core謠傳開始甚囂塵上了,還有所謂的G70 ultra;不過dual-core G7x的這個謠傳因為內容和先前的G80是重疊的(IBM 90nm、16pipe x2),所以似乎造成了一些混淆。

在下週G70正式公開之前,大概還會有一段時間兵荒馬亂。
補充:Inquirer當時的"G80 is dual-core"報導

[EDIT]
剛剛聽到一個有趣的部份,G70在"特殊情況"下,效能可以成長80%。
這樣就讓我浮現一個想法….

也許,NVIDIA找到一種新的結構,可以有效加速;
所以他們評估之後,把NV47/48/50等現有晶片重新加上G的技術,
於是變成核心重新設計….

本來NV47同時增加了Shader數量與Shader的本身結構改善,
同時脈的效能大約是NV40的1.5倍。
如果G70化的NV47時脈可以再達到NV40的1.5倍,
再加上特殊情況下80%的成長,整體效率就是最高4.05倍,
這的確是有辦法超過四倍的NV40,也就是比本來的NV50還強….

現在的問題就是,這個特殊情況是什麼?

[EDIT2]
測了一下Overdraw,好像沒有相當顯著的增長….
看來上面的推測可以準備推翻了。

現在G70可能可以更直接地想成"NV47+XDR"?
這好像更有說服力些,比起上面提的怪design,改記憶體控制器在時間上更有說服力。
補充:Rambus的XDR+DDR兩用記憶體控制器

XDR up to 4Gtps、GDDR3 up to 1.6Gtps的話,XDR方面可以用256bit 3.2Gtps,最大是204.8GB/s;128bit XDR則是102.4GB/s。
G70應該與NV40/41/42一樣是4×4 64bit Crossbar,所以每個64bit DDR-MC可以更換成64bit XDR+DDR-MC,同樣是連結2顆32bit GDDR3 or 4顆 16bit XDR。
腳位是確定會增加,但是並不會增加到512bit GDDR3的程度、卻能提供超過512bit GDDR3的頻寬。

好厲害的XDR….

鼓起勇氣問 Parhelia 的 DVD playback….

http://forum.matrox.com/mga/viewtopic.php?t=15797

回想起先前和Aletia offical在phpBB down的時候的 talk,就覺得自己英文真的要加強@@
不過總之為了釋疑,還是鼓起勇氣問下去了….

提出的問題是:Parhelia的10bit DVD decode,是做到怎樣的程度?

結果人家的問題沒回答,Matrox的人員反而去其他地方提了:

http://forum.matrox.com/mga/viewtopic.php?t=15872

[quote]Q:
Dear Mods,

Could you please help me verify some issue regarding what Parhelia’s 10-bit capability can and can not do.

1. When enable 10-bit GigaColor option under "Quality and Performance – Desktop" It is my understanding that "DESKTOP" will have the capability of displaying 1 Billion Colors, but application may still only able to display 16.7 million colors. (unless application itself support 10-bit color)

Am I correct here? Also, what exactly do you mean by DESKTOP? Why would DESKTOP able to display 10-Bit? Is it b/c Parhelia’s hardware capability?

2. Are there any software dvd player or media player that support 10-bit color playback at the moment? Even if there is such software exist, wouldn’t the video file itself originally encodec in 32-bit color dept? (What I mean by video file could be DVD Disc, MPEG-2, MPEG-4, RealVideo, or even QuickTime format files)

3. From Parhelia’s technical reference guide, it states that Parhelia has the capability of output to TV at 10-bit color depth. I assume this is hardware capability. However, shouldn’t software need to support 10-bit as well? Or this has already been taken care of at DESKTOP or Driver stage?

A:
Hi,

1 – You would need an application or a plugin that will support 10 bit display. To date, we have a 10 bit viewer that is a plugin to photoshop.

2 – nope, no media player is capable of displaying 10 bit. AFAIK, they’re all still at 24bit rgb.

3 – This is correct but in order to see what the hardware can do, software developers would have to make a plugin to interface with our hardware.[/quote]

….有點氣餒。

Beyond3D的Xenon專刊發表….

http://www.beyond3d.com/articles/xenos/
解釋了不少疑惑,不過也製造了更多疑惑。(汗)

總之,有幾個要注意的地方:

1. FP10
C1有個新格式,s7e3、10-10-10-2,所以使用的話和Int8的負擔相同。
不過這個格式看來限制蠻大的…. 顯然是對效能上的取捨。
和OpenEXR提供的FP16(s10e7)出發點不同。
FP Filtering / Blending 看來也是對這個格式提供的,那自然規模就可以比較小些。

2. Tiled Access
10MB eDRAM只放Back Buffer(Color),
Front Buffer(內含Color 和 Z)則放Main Memory。
720p 和 1080i 的 2x FSAA都會超過10MB,所以要用tiled分別寫出。
能夠做到這點的原因是因為先做了個Z-pass。
而且還具備了 Hierarchical Stencil Buffer。
另外有Alpha-to-Mask,可以處理未sorting的Alpha。

3. Shader ALU結構
Shader是純FP32,沒有別的精確度模式;
在使用大約兩個 loop、兩個tex和6個shader op的時候,還能維持最大fillrate;
整個Shader Array在一般的繪圖狀況下,可以達到的使用率是95%左右。
(ATI宣稱目前的傳統結構,效率大概是50%~60%….)

記憶體直接存取是透過F-Buffer的交換….(MEMEXPORT)

ALU之間的資料傳遞可能是透過loop來交換的。
因為所有的指令都會通過Arbiter,然後分配到不同的thread,再交由底下的ALU Array處理;
所以ALU Array計算的結果,進入 loop,再由 Arbiter 接收,分配給不同的ALU。

這樣子提示出一個有趣的地方:
對Aribter來說,同一個 pixel、vertex,在一個 loop 之後,有可能不是由同一個 ALU處理的。
所以 ALU其實可以不用管接收到的是 Vertex 或者是 pixel op,只需要處理Arbiter給的所有工作就好了。
因為其實這等於把ALU切成兩塊,fetch/decode都由Arbiter做,execute 才是後面的 "子ALU"。
而且別忘了,thread實質上是隱藏在Arbiter裡面的,外界其實不需要考慮C1的threading。
(所以"虛擬地"來說,C1等於有64個VS、和64個PS)

反過來說,我們可以看到,所有可能的瓶頸都集中在Arbiter上….
久多良木健在PCWatch的訪談中提出的疑問也應該是在指這個地方。
那個Arbiter有多大?
先前XGI的人指出,光那個Arbiter大概就有ARM9以上的規模,
因為工作量大概真的有那麼大。

直接記憶體存取靠的是MEMEXPORT這個延伸,看來是F-Buffer的一部份。
可以把F-Buffer的內容整個送到主記憶體裡面。

—-
另外,關於那95%的ALU使用率….
其實我覺得那個95%的數字的說法還是蠻奇怪的。
因為C1的ALU結構畢竟還是4D + 1D…..

這邊可能可以從兩個方向去看:

為什麼會做 Mini-ALU,就是要用在不同的指令,
避免比方說NV2x那樣,4D單元一次都只能吃一個2D/3D/4D….甚至有1D(scalar)進來就更慘了。
co-issue就是指"以特定順序進來的指令"可以填滿整個shader;
而C1就是去除掉這個限制,讓所有的shader pool的資源,而不需要有指令順序的依存性。

但是,因為是4D + 1D,所以遇到2D/3D/4D照樣還是吃掉一個4D….
1D的指令蠻多的,所以有做1D可以理解。
但是這個95%怎麼算的?如果進來的大多是2D/3D的話,
那48個4D即使利用到滿,還是會有很多ALU是"半滿"的啊。

如果類似先前一開始傳的48個1D的話,
那效率大概真的只有mispredition的狀況會低下,
說成95%就非常有說服力;不過設計的複雜度大概就很難接受了….

降低一個層次,如果用"有用到就好"來算的話:
比方說R300是3D+1D,還外加 mini-ALU也是3D+1D。
但是因為mini-ALU的指令種類有限制,所以大部分狀況下可能Mini-ALU都是閒置的。
從ALU數量(4個)來算,就真的會是50~60%了。
NV4x….. well,前後兩個Shader可以處理的指令種類也不完全一樣,
所以從這個觀點來看,效率也是會受限。

但是,至少第一個 ALU(3D+1D)的部份,如果有使用到就算的話,利用率應該都很好吧?
這樣的話,要改善效率,一開始直接就做成所有的ALU直接面對前端就好了。

所以,我是覺得如果照ATI那種算法的話,
像R520這樣,32個 Pixel shader直接面對Triangle Setup,
那不需要用Arbiter來管理,效率也不會差得很多….
只要不要塞在前面的VS上的話。

這邊就會出現另外一個狀況,也就是VS與PS之間的關連性問題:
VS不足的時候,如果程式本身真的有很多小三角面,
那真的有可能塞在VS上;但是現在通常不會遇上這種狀況。
現在我們提高了 Pixel Shader的能力,使用normal map,減少無謂的polygon…..

C1這種結構,應該就可以直接涵蓋掉這個"PS等VS"的情況。
所以光這個部份的話C1還是比R520好,因為沒辦法去除掉程式會有這個可能性。

另外,同理可證,
結構接近32×1的R520,效率上會比G70的24×2般的結構好,
即使G70的Shader看起來比較多,規模可能比R520大….
這個未來應該會反映在 Benchmark result 上。

—-
總之,C1的結構是一種新的觀念,指的是說
"因為GPU的ALU佔的比例越來越高,所以我們需要提高這些ALU的使用率,而不是只靠塞更多ALU。"
關於這部份未來可能會有更多的研究。
也就是所謂"Free的部份不用就會成為浪費"的觀念,所以要避免"結構上有太多Free但是卻用不到的資源"。

花映塚 0.02a

05/06/11 東方花映塚 体験版ver0.02a フルパッケージ(27.6MB)
http://www16.big.or.jp/~zun/html/th09dl.html
這回有Midi了,而且聽起來和wav果然很像…..

changlog:[quote]2005/06/10 ver 0.02a
 ・スコア、リプレイが保存されない事があるのを修正
 ・イージーで咲夜を使用すると強制終了することがあるのを修正
 ・なんか良く判らん細かいバグを大量修正
 ・2Pカラーを追加
 ・ハンディキャップを追加
 ・Midi曲を追加(Plusをお持ちの方は、thbgm.datをコピーするとWavが使用できます)
 ・リリーホワイト、及びボスを撃破するとアイテムが出るようにした
 ・デモプレイを追加(遊び方が良く判らない方は、デモプレイの左側を見ると吉)
 ・CPUの思考を調整
 ・ゲームの難易度を大幅に調整(気持ちテンポが良くなっています)
 ・全キャラの強さを調整
 ・ロード時間の短縮とゲームの高速化
 ・エンバグ[/quote]

[G70] GeForce7800將在下週公開

NDA大概已經和沒有一樣了吧….每家AIC幾乎都拿到Sample了

原NV47,現在的代號是G70,產品實際商標GeForce7800GTX。
下面的資訊請當成謠傳,不過出來要是成真了就當我猜到。

1. 24pipe規格,8vs 24ps 16ROPs(!!),預設時脈幾乎與6800U相同。
2. Shader規格相同,但是平行度稍有加強,有個很籠統的數字是"120%"。
這樣和管線增加(16-24)的數量乘起來,Shader Power大概有1.8倍的提升,但是記憶體沒相映提升,所以整體來說沒提高很多。
3. OpenEXR用的FP16 Normal Map 壓縮格式。
所謂的IntelliSample4,這個當然不是3Dc。
4. 衍生的中階產品代號是G72,似乎是TSMC 90nm。

最後一個謠傳其實殺傷力很大,
因為這個確立了NVIDIA新的命名結構,
代表G80與G70很可能不是同一個世代的,所以現在G80 = NV50的機會提高。
那NV48上哪去了?變成G72?所以這回中階就上16pipe?
(well,聽說從C1以來,現在 pipe = shader數量…. ROP沒人理了)

話說….那先前 Inquirer 說G80 = IBM 90nm、dual-core MCM,
都還是NV50的おまけ?(….抖抖抖抖抖抖抖)
總之,G80推出時間2006 Q3,目前一切未明。

[キタ!!]久多良木健宣示PS3硬體完全開放

source:
http://pc.watch.impress.co.jp/docs/2005/0609/kaigai187.htm
SCEI 久夛良木社長インタビュー(下)
「PS 3のHDDにフル機能Linuxを搭載」

talk on Hotball’s Hive:
https://www.kimicat.com/phpBB2/viewtopic.php?t=656
talk on Love Hina plus
http://www.lovehinaplus.com/phpBB2/viewtopic.php?t=6873

光看題目大概沒辦法瞭解內容…
不過,由於PS3的HDD並不是隨機的,所以這個題目代表「PS3將可以讓user自行安裝任意OS」;
在文內久多良木健本人也強調,只要廠商願意支援,PS3可以安裝任何OS。

甚至,出人意表地,久多良木健本人也強調,整個硬體將會完全地開放user使用,包含GPU。
雖然這讓人相當懷疑遊戲與數位內容該如何保全,不過在此將這些問題放在一邊,等推出後再觀察,
目前腦海裡只想著這個平台未來的可能性。

[quote]我一直認為這是一個好的策略。
事實上,我們可以說,像 Apple II 這樣的電腦,基本上培養了一代對電腦程式設計很有興趣的一群人。但是,這些電腦的主要用途,其實還是用來玩遊戲。玩 Apple II 的小孩,在玩遊戲之餘,當然就會對它產生興趣,而且 Apple II 上的 ROM BASIC 又簡單,任何人都可以學會寫一些簡單的程式。
我想,如果 Playstation 3 也可以做到這一點,那一定會是一個非常有趣的一件事,而且對於 CELL 的推廣,也有一定的加成作用。
(by Hotball)[/quote]

…..猛然歡樂度提升至頂點…..XD

現在只剩下黑歷史….