LukeLo的FireMV 2200PCI測試

22 11 月, 2005 Eji 發佈留言

http://os2er.org/phpBB/viewtopic.php?t=4880&postdays=0&postorder=asc&start=13

兩個主要的優點：
1. 清晰度與NVS不相上下
2. 雙螢幕支援上由於可以對兩個螢幕指定不同的ICC profile，所以可以獨立校色
(但是我記得透過Forceware的話應該也是可以對兩個螢幕載入不同的ICC profile，至少Forceware的Gamma調整精靈就已經可以對兩個螢幕做分別校正….所以這邊還要再討論)

還有本來的10bit LUT優勢，整體來說FireMV的表現應該算是超過NVS。

於是LukeLo長年的怨念終於解除，現在他要脫手了。(倒)
有人要嗎～？

話說一個補充：
用Gamma調整精靈調過之後，跑EFZ會有點問題….orz
畫面淡入淡出的時候會lag得非常厲害，這是我自己的問題嗎？

Uncategorized

兵單收到啦～

21 11 月, 2005 Eji 5 則留言

12/6確認。
於是，大家再見～ ._.~/

Uncategorized

80nm為R580帶來的變化、以及一點怨嘆

21 11 月, 2005 Eji 發佈留言

ATI採用的「TSMC 80nm製程」這東西，先前以為是誤傳；不過至少聽起來像是蠻有可能出現的東西，應該與TSMC的110nm和130nm製程的關係一樣，是由90nm改pitch而來的。

針對這點，小月補充了兩個數字：

1. R580的358mm^2的die size，看來是80nm下的數字
換算成90nm的話，會達到約400mm^2的程度。

2. R520似乎是24管硬體關8管達到16管，所以目前有約18%的電晶體閒置。
四個版本的die分別是"32管"、"24管"、"調整良率"(調整K值)、"調整時脈"(調整K值)。

這樣子的話，前幾天的計算又會出現偏移了。首先是如果R580在16×3的狀況下達到400mm^2的程度，相對於288mm^2達到320M電晶體的R520，從比例上會得到約1.39倍的規模，也就是仍然接近450M前後。

當然，R580據稱是15層金屬層，這已經比本來的13層多了不少，所以這還會影響電晶體密度與die size才是。

所以其實數據越來越多，反而會覺得自己的計算一點都靠不住。(汗)
因為這些計算都忽視了金屬層層數的存在(當然是因為沒有完整的數據之故，比方說上面的規模用RV530的數字來算，就又會回到400M的程度)

所以，還是回到不在其位不謀其政的狀況吧。

—-
其次，R520"其實是24管關8管"這點，其實還真的是蠻讓人頭痛的：
說起來，目前R520的電晶體數目的確算是異常地大，不過要說裡面其實有6個Shader core、6個TMU、24個Shader ALU的話，那R580的結構就會變得相當反常。

只是，如果把RV515/RV530與R520的電晶體結構考慮進去的話，那似乎就比較有點蛛絲馬跡可循；不過即使如此，如果說這類的測試模型都還是要直接做出chip才能做，模擬完全不準確的話，那好像又有點矯枉過正了。

還是說小月說的沒錯，100nm以下的process特性變化太大，每縮小一些就又要把所有工作重做一次，這些成本不花不行？

總之自己持有的數據實在太片面了，參考價值低到不行。
真的聽聽就好了….

—-
發現自己完全在狀況外，其實是有點傷感的。

等當完兵回來再看的話，距離會更遙遠吧….
即使每週都有週休二日可以看，要進入狀況只怕也相當困難。

總之祇能怪自己能力不足了。

Uncategorized

漆彈體驗

20 11 月, 2005 Eji 1 則留言

就像昨天講的一樣，起來就真的去淡水打漆彈了。_A_

去的人有黨主席、老鼠尼和我，不過漆彈廠這邊老鼠尼似乎是常客，所以其實總共有大概六到七人可玩….而且這個漆彈場相信小天應該也知道，只是大家最後時間真的排不上而已。

漆彈槍的結構主要是以高壓氣體射出直徑約兩公分的膠囊，所以風阻問題比BB彈嚴重很多，風偏也顯著影響很大，租借用的設備和自備槍械的精確度更是天差地遠…. 前幾場抓不到訣竅的時候，怎麼努力都沒用。_A_

(小天指正：直徑1.8cm、初速120m/s；BB槍是直徑6mm、90m/s初速)

不過這時候有長輩開口了：當兵那套，在這邊都是屁。

簡單講：在雙方PK戰的規則下，看起來漆彈本身的性質比較接近躲避球賽。
因為上面提到風阻問題，實質上的有效射程大概只有目測五到十米(較好的槍械)左右，甚至有可能做到「看到子彈才躲」；場地本身也只是個約二十公尺見方，散亂著油桶作為遮蔽而已。

(小天指正：BB槍會有裝置維持彈體穩定上旋，類似乒乓球的切球；漆彈槍的話沒有辦法做這些結構，所以純滑膛的狀況下亂飄的機會較大)

於是，匍匐前進的意義就不是很大了。

當然啦，這時候瞄準就不是很有意義了；而是透過留前置量的方式、打一個面積出去"撞到人"。而射手本身的移動速度也變成一個關鍵，因為彈藥本身的有效性、運動性是較低的，所以快速移動變得比對應真實槍械時有效。

於是這時候，對應加倍提高運動性=提高存活率的要求，在姿勢上就會有些調整：

不緊靠掩體，稍微退一步以弓箭步的方式維持隨時可運動的狀態。
比方說從 [ |o (緊靠掩體)] 改為[ | -O(退後一步)] ，槍身直接往旁邊轉，射角就可以確保。
反正緊靠爭取到的射角沒什麼意義；真的看到人已經把槍口對著你了，就可以往前進一步求掩蔽，甚至進而朝前離開。

也就是說，油筒構成的雙方PK戰之中，偽裝就變得比較沒有意義了；如果是市街戰的話，那又會是完全不同的狀況…. 所以，漆彈其實是可以在不同規則中有著完全不同面貌的運動，相當有趣。

Uncategorized

花得起錢是大爺，顯示卡的記憶體還可以裝到更大

19 11 月, 2005 Eji 發佈留言

INQ：NV40/45與G70可以支援2GB記憶體
http://www.theinquirer.net/?article=27763

這篇也提到，R520過去雖說支援1GB，但其實也可以超過1GB。
果然大家都有準備暗樁啊。

這邊就衍生了兩個問題：

1.該怎麼裝這麼多記憶體？
該篇文尾提到，只要你有錢，NVIDIA也可以幫你訂作足以支援你需要的任何容量的GPU；不過如果不是現有的NV40/45 & G70的話，這個新聞當然就失去意義了，所以當然是以不能做特殊版晶片為前提。

那，該怎麼裝上去呢？
目前最大容量的顯示用記憶體是16Mx32 512Mbit的GDDR3，256bit介面下最大是8顆，共計512MB，而想達到2GB要設法放上四倍的數量，至少32顆….這非靠Bank interleave不可了；不過現在NV40/G70的記憶體控制器能推得動這麼多顆粒嗎？

當然啦，或許連顯示卡記憶體都可以來個Registered…. 這樣推力不足的問題應該就解決了，不過GPU應該不至於支援registered記憶體；不然就是得等到1Gbit、甚至更大容量的顆粒出現才行，那現在要如何做出這樣的產品呢？

另外一個可能性是多晶片結構，因為根據過去SLI的專利來看，其實SLI本身已經有有限的NUMA結構；如果使用特製版Driver的話，可能可以透過這個方式解決。(不過這樣好像沒什麼意思XD)

(補充：記憶並沒有錯，NV35有過記憶體堆疊的產品，32bit堆疊兩層，所以除了成本因素之外，靠堆疊增加容量應該沒有太多問題)

—-
2. 那麼，究竟在什麼情況下才會用到這麼大的記憶體呢？

有一個可能是相當大規模的FP Texture應用，由於目前沒有具備FP材質的壓縮，完全不採用壓縮材質的話、Doom3都可以在純RGBA8的狀況下達到512MB，所以在FP16下突破1GB達到2GB倒還蠻有可能的….

只是，把G70裝到2GB(in 256bit)，其實這似乎和把NV43裝到1GB的狀況差不多，效率大概不會高….？
所以為了達成速度上的需求，光是兩張卡的SLI可能也無法達成需求、甚至可能是非常大規模的Frame-Lock串聯，以達到上述的超高解析度需求(畢竟使用高解析度材質理應是為了達成高解析度)。

所以到底是什麼重大的需求呢….？真是讓人非常有興趣。

(補充： http://www.voxel.com/
使用3D texture的狀況下，即使是GF3所支援的512x512x512解析度在32bit下都足以達到512MB之譜，所以實際上還是有蠻多用途會用到超高的解析度，只是以往都還不能用GPU處理、而需要使用超級電腦而已)

—-
還是INQ的說法終究不可認真？XD

EDIT：好，我發現到一個令人討厭的強烈證據。
http://www.extremetech.com/article2/0%2C1697%2C710337%2C00.asp
這篇ExtremeTech的NV30結構說明、因為有David Kirk的訪談，所以應該相當有可信度。
其中的規格提到，NV30可以定址到1GB。

….那時候就已經這麼誇張了嗎。

Uncategorized

ケロロの夜

19 11 月, 2005 Eji 發佈留言

不知怎的，今天晚上在黨大家開始連續看ケロロ軍曹。_A_

….真欠打。

然後晚點起來打漆彈。_A_
不過聽說只有三個人嗎….

Uncategorized

たかゆきさんのトイツ語大百科＠Type-Moon

17 11 月, 2005 Eji 發佈留言

http://www3.plala.or.jp/takayuki/fate/fate.html
Fate / Stay Night

http://www3.plala.or.jp/takayuki/fate/ataraxia.html
Fate / Hollow Ataraxia

独系魔術師呪文対決!!

って，錯好多….XD
比我上次看的時候還多啦….XD

凛： ぶっ殺すー！
写植屋も印刷屋も装丁屋もぜんぶぶっ殺すーーーっ！！

Uncategorized

Intel 新 Logo

16 11 月, 2005 Eji 1 則留言

x86-Secret爆破，雖然後來被拿掉了，可惜早已傳遍世界：

http://www.matbe.com/images/biblio/divers/000000022934.png

02道：好好的標籤你幹嘛換成禿頭！

….我笑了XD

Uncategorized

君子報仇三年不晚 ~ 論NVIDIA在HDR上的行銷手法~

16 11 月, 2005 Eji 發佈留言

NVIDIA在六月推出G70之後，在九月初開始以"The Power of 3"等標語來強力行銷，同步推出7800GT。

當時本來預期NVIDIA會推出全系列的中階產品，看到7800GT時的感覺是有點失望…. 但是等到11月初6800GS、6600 DDR2推出之後，現在回頭看起來，才真的發覺到這是個相當高明的整體行銷策略。

討論：
https://www.kimicat.com/phpBB2/viewtopic.php?t=829

先前在這裡提到了R580的結構，是16-1-3-2、也就是48組pixel shader、共計48個main32、48個mini32的超大型單元；但是TMU沒有FP filtering、也沒有Free FP16 Normalize。

本來這不是個很大的問題，而且固定效能於這兩個用途上，感覺上也相當浪費，而且R520也提出了Int10/16混合精確度、3Dc+ single component Texture compression等功能來輔助HDR的使用，並且提出了HDR下的FSAA功能；只是前述的功能其實都不是針對OpenEXR FP16 HDR來設計的。

於是，如果論執行資源的話，這邊雖然算得有點籠統，不過如果假設以每個ROP前端分配到的Pixel Shader資源來說的話，這邊比較一下G70、R520與R580間的規模：

G70：1.5個TMU、1.5個PS(3個ALU)、TMU有FP filtering & Free nrm_pp
R520：1個TMU、1個PS(2個ALU)、FP filtering 與 Normalize由Pixel Shader處理。
R580：1個TMU、3個PS(6個ALU)、FP filtering 與 Normalize由Pixel Shader處理。

所以，這邊有個假設是：如果這新增的4個ALU，不能抵過 FP filtering 所需的執行資源的話，就會變成是NVIDIA的平行度較高了。
而且G70相對於NV40的一個很重大的改進，就是FP filtering的速度變快了：原本的FP filtering可能只有half speed。

如此一來，NVIDIA強推HDR的理由也變得相當明顯了：他們的結構針對這點擴增了執行資源，並且增加了免費的指令。
R580 本來擴增ALU資源的理由，是為了"不限制於單一的用途"，但是當這個單一的用途成為主流、而變得長時間要被吃掉這些資源的時候，R580的規模優勢便會遭到抵銷；而規模較小的G70在改為90nm的G71之後，很可能會進一步再抵消R580的時脈優勢，整體的執行資源便會出現此消彼長的狀況。

也就是說，今天不使用HDR的3DMark05雖然很可能會是R580以R520約1.5倍以上的表現，對G70取得優勢，但是3DMark06由於確定使用FP16 HDR，那麼R580擴增的ALU資源被消耗掉的機會也因此大增，分數上的差異便有可能縮小。

而且，R580由於擴增了ALU數量，但"應該"沒有擴增Dispatch Processor的threading管制能力(為了節約die size)，使得R520原本有的Branch penlty容忍能力，在R580的時候降低，這對疑似由Driver管理Dynamic Branch的G7x來說，也會從不力轉為有利。

於是結論是，由於G7x比R5x0早推出，影響了遊戲界的風向，使得G7x的架構較受遊戲界歡迎，逼使R5x0本來的結構設計上的考量平衡受到了衝擊。G71便能以少了約30%的電晶體規模與die size，與ATI規模較大的同級產品在平行度上抗衡，進而在成本與產量上取得優勢。

其餘同理可證：6600 DDR2、6800GS，與原有的6600GT和7800GT/GTX等產品線，相對於ATI的產品通通構成了高低夾殺的陣勢，ATI打不到本來想打的人，NVIDIA則可以順便銷庫存，等待明年推出G7x的中低階產品，好整以暇，全因HDR主流化之後成為優勢，當然不必貿然將舊產品phase out。

這個狀況一如當初NV3x與R3x0間的關係：NV3x本來不認為SM2會很快普及，做了一個SM1較好、SM2稍弱的結構，而較早推出的R3x0使得SM2較快普及，打破了NV3x原先的預想，進而陷入了長久的苦戰。

ATI當然會對即將推出的R580有著很深切的期許，R580也確實有著相當可觀的執行資源；不過面對市場的劣勢，有些事情並不見得能盡如人意，想想這個狀況也和當年的NV35是很類似的。

話說，如果光比GPGPU的話，可能R580就能摧枯拉朽吧？
雖然我覺得就算是GPGPU這個用途本身，也可能會隨著Cell的推廣而慢慢衰微也說不定。

—-
這一點可以告訴我們Time-to-Market的重要性。
目前已知有可能G80會緊接在G71後於2006年Q2推出，支援Shader Model 4.0 與 DX10，這時候NVIDIA的結構特性便可能會繼續影響SM3後的遊戲界風向，使得ATI的R6x0可能被迫要做出其他的妥協，而繼續陷入被動。

回頭看HDR…. 其實為了NVIDIA的這個策略，所謂的HDR已經陷入一種極為浮濫的狀況。

gloom-like HDR滿天飛，明明其實並不是SM3的一部份，卻被扭曲為SM3的標竿技術(其實本來應該是R520主打的 Dynamic branch)，其實說起來，HDR的某些關鍵(曝光控制)，在這些主打HDR的遊戲裡面反而遍尋不獲，本來HDRI主要的目的是要模擬Full Environment Lighting的，結果現在全部都拿來做dazzling….這真的不是一個很好的情形。

只是，遊戲市場畢竟還是江山代有才人出，引領風騷數十載….Garbage-title終究是會有的，不見得NVIDIA不這麼做就會減少。想當初ATI也推了個讓人頭痛的半調子精確度(FP24)，結果也是把FP16/32混合經度給踹開了。既然現在市場上都能扶正為FP32，揚棄FP24可能造成的問題，我想 HDR浮濫的情況也慢慢會隨著美工技術know-how的累積，而得到改善吧。

從2002年底R300推出，到現在2005年底快要過完了，半年前推出的G70在有足夠記憶體的頻寬下，面對晚半年推出的對手，仍然能維持性能優勢，整整三年的時間，目前看來NVIDIA有機會將NV3x時遇到的狀況連本帶利地還給ATI，而且手法類似過去ATI的作法，真是君子報仇三年不晚啊。

—-
EDIT：
X-bit的測試測了Far Cry的HDR開關差異。
馬上印證了上面的想法…. (w
http://www.xbitlabs.com/articles/video/display/geforce7800gtx512.html

而且照理來說，目前這些程式通通都還沒有實裝FP Filtering Shader，只能考慮未來效能下降還會更明顯。
下面的這兩張圖來自HardOCP，不過這是Cho過去貼在B3D的圖，只是被HardOCP拿去用了。

原始出處：http://www.beyond3d.com/forum/showthread.php?t=25111

HardOCP盜圖處：http://www.hardocp.com/images/articles/1130724723wQf6EywE1q_5_5_l.jpg
http://www.hardocp.com/images/articles/1130724723wQf6EywE1q_5_6_l.jpg

總之，風水輪流轉了…. XD

Uncategorized