X1000 series 台灣發表會

今天下午兩點,ATI X1000 series台灣發表會。
聽有去的 ikari 說,是David Wang(Director of Engineering)親自出馬….(wow,ArtX的頭子!XD)

但是好像去的人不多,環視周遭只有十來個….
而且問不到什麼問題。XD

結論來說,ATI 對GPGPU的態度,也是採行會發行API的方式;其他部分(如AVIVO的H.264)則都是未定、觀察。

所以其實乏善可陳嗎….. _A_

source:
http://bbs.gzeasy.com/index.php?showtopic=461982&st=22

Mike houston對R520的一些敘述:
mhouston
GP

Joined: 02 Sep 2003
Posts: 241
Location: Stanford University
Posted: Wed Oct 05, 2005 5:01 pm Post subject: A little R520 info

——————————————————————————–

Now that things are public, I can talk about some things:

The board is 32-bit. The precision on ops is slightly better in general than Nvidia, but not in all cases (from GPUBench precision test). ATI cuts corners, much like Nvidia, when it comes to denorms.

Readback rates are still a problem under GL (450MB/s), but not under DX on Nforce4 or ATI chipsets (900+MB/s). There are performance problems on Intel chipsets for some reason. Still below where I’d like to see them, but at least closer to Nvidia performance.

The board has really good latency hiding, much like the R4XX series. Your performance is generally the max(ALU, tex, branch). Where tex is the total fetch latency: 4 cycles for a 128-bit fetch which is a cache hit, and 8 cycles for a 128-bit streaming fetch. You can look at the ClawHMMer paper for more analysis of latency hiding.

The board supports generallized scatter, yet it’s not currently exposed (no way to do this cleanly in DX, so it might be GL only (<- I’m working on this)…)

The board has 1.5 ALUs. The half can do add/sub but not MUL/MAD/etc. This gives the X1800XT ~120GFlop peak. Raw MAD rate is 83GFlops, which is lower than Nvidia.

Cache bandwidth is 42GB/s and streaming is 21GB/s for the X1800XT.

Branch granularity is ~16 fragments. Branch performance, at least from really basic tests, seems very good.

ATI has claimed to be more committed to supporting academic research and GPGPU in general. They say they will open up a lot more information about their architecture and provide lower level interfaces to access their hardware. Only time will tell how this will play out.

Let me know if you have other questions, and I’ll try to answer them as soon and as well as I can. At the moment, I only have a X1800XL here, so I’ll try to put up some GPUBench results for the board later today on the GPUBench site.

-Mike

Last edited by mhouston on Thu Oct 06, 2005 12:49 am; edited 1 time in total

[quote]The board supports generallized scatter, yet it’s not currently exposed (no way to do this cleanly in DX, so it might be GL only (<- I’m working on this)…)
[/quote]

Posted: Thu Oct 06, 2005 1:17 am Post subject:

——————————————————————————–

You can have an arbitrary number of outputs from a shader, well, I guess the instruction limit, so 512.

You can basically do a[i] = x. The writes are uncached, so there will be a performance penalty (think in the thousands of cycles), but if you do lots of ops, some of the latency can be hidden, at least in theory. You are responsible for making sure fragments don’t clobber each other. Also, you cannot read and write to the same buffer, i.e. no read-modify-write. I haven’t tested it yet, since it’s not exposed currently in any available driver, but the memory controller and memory system were designed to handle this.

Posted: Thu Oct 06, 2005 1:29 am Post subject:

——————————————————————————–

Yes. But, you can also output more than 16 floating point values (4 float4’s) as well. Both are useful. We’ve been asking the graphics card companies for awhile about this one as it solves some issues with variable output from kernels as well as stream filtering. It’s going to be interesting to see if it’s cheaper than the known methods, like Daniel Horn’s chapter in GPU Gems2.

[quote]I just checked the GPUBench page and compared the X1800 to the X800XT PCIe. It seems to me that the computational power remained nearly the same. (instruction issue, scalar vs. vector instruction issue, basic throughput, FP Bandwidth)

The most significant differences seem to be the new branching and 32-Bit support.

So is it faster than the former ATI cards e.g. X850? Or as fast as those cards, but now with 32 Bit support?[/quote]

Posted: Thu Oct 06, 2005 2:07 pm Post subject:

——————————————————————————–

The X1800XL has roughly the same clock rates as the X8XX boards, 500 core/500 mem. The branching, 32-bit, scatter, no dependent texture limit, no dynamic instruction limit, and fully associative cache are the biggest new things. The R520 is ~20% faster than the R4XX clock for clock and has a MUCH better memory subsystem so it handles random reads better. Basically, all our apps got a little faster on the XL, ~10-15%.

The X1800XT has is clocked at 625c/750m, so is substantially faster. We’ve seen compute bound applications get ~30% and memory bound applications get 50-100% depending on the memory access patterns. The later is from the new cache design (many fewer misses) and the memory subsystem handling incoherent reads much better.

從 R520 看 ATI 在 GPGPU 上的優勢

繼上回Radeon X1000系列日本發表會,提出「副卡可以作為PPU」的點子之後,ATI再次對GPGPU這個範疇進行了自我推薦:

http://techreport.com/onearticle.x/8887
Tech-Report報導了ATI與Stanford的Mike Houston合作的這次demo。

要點有二:
1. ATI將與Havok合作,開發物理引擎所需的相關API。
2. R520在GPGPU上的優勢,並且有幾個現成的demo

有一份相關的文件可以參考,並且包含了相關的測試結果。
http://graphics.stanford.edu/~mhouston/public_talks/R520-mhouston.pdf

可以看得出來這些測試裡面X1800XT有相當的優勢。

GROMACS – GPU Implementation:
Written using Brook by non-graphics programmers
– Offloads force calculation to GPU (~80% of CPU time)
– Force calculation on X1800XT is ~3.5X a 3.0GHz P4
– Overall speed up on X1800XT is ~2.5X a 3.0GHz P4
Not yet optimized for X1800XT
– Using ps2b kernels, i.e. no looping
– Not making use of new scatter functionality
The revenge of Ahmdal’s law
– Force calculation no longer bottleneck (38% of runtime)
– Need to also accelerate data structure building (neighbor lists
‧ MUCH easier with scatter support
This looks like a very promising application for GPUs
– Combine CPU and GPU processing for a folding monster!
(from Document)

話說這邊有個有趣的部份,就是Mike Houston倡導的部份:

What GPGPU needs from vendors More information
– Shader ISA
– Latency information
– GPGPU Programming guide (floating point)
‧ How to order code for ALU efficiency
‧ The “real” cost of all instructions
‧ Expected latencies of different types of memory fetches Direct access to the hardware
– GL/DX is not what we want to be using
‧ We don’t need state tracking
‧ Using graphics commands is odd for doing computation
‧ The graphics abstractions aren’t useful for us
– Better memory management Fast transfer to and from GPU
– Non-blocking Consistent graphics drivers
– Some optimizations for games hurt GPGPU performance

What GPGPU needs from the community
Data Parallel programming languages
– Lots of academic research
“GCC” for GPUs
Parallel data structures
More applications
– What will make the average user care about GPGPU?
– What can we make data parallel and run fast?

這段的意思等於是說,GPGPU需要的資訊至少需要和CPU廠商提供出來的資訊同樣詳細;而以過往的經驗來說,這似乎會觸動到NVIDIA的神經….比方說光那個Shader ISA、Latency Information公開就已經觸動到NVIDIA的神經了吧。XD

所以短期內GPGPU這個範疇大概會是ATI比較佔優勢了。

從鋼彈的觀點看なのはA’s

心得:
http://webbbs.gamer.com.tw/readPost.php?brd=GameAC&p=8886&maxpos=9023&thread=-999

捏他圖:
http://mis.im.tku.edu.tw/~fireflyyen19a/new/src/1128820114376.jpg

短評:これ 本当に魔法少女のアニメなの?

其實言下之意是魔法少女アニメ都是低成本動畫。(w

補圖:
http://mis.im.tku.edu.tw/~fireflyyen19a/new/src/1128814999298.jpg

這張GJ XD

====

於是:從魔法少女的觀點看SEED-Destiny
http://webbbs.gamer.com.tw/readPost.php?brd=Gundam&p=8877&rand=20051013

特訓第11天

昨天的AP測試得到成功之後,
早上練完兩個小時之後,就打定主意出來買天線。
剛好又遇上ilo好像早上兩個老師都請假,完全空閒….
於是就順便找出來繞繞。

雖然本來計畫去光華,但是在NOVA拿了5dbi的增益天線、KMall拿了Ultrabay 2000的2nd HDD adapter、順便請他們把電池回收之後,猛然不需要買的、不該買的都弄完了。_A_

於是這邊想到一件事情,就是檢證上回02提到的上好炸豬排。
http://myread02.blogspot.com/2005/09/ilopca.html

店名:添財日本料理(開封店)
店址:台北市開封路1段38號

先引一下02的內文:
[quote]豬排送來,顏色炸得有點深,咬起來相當脆,沒有炸不熟的麵粉感;豬排也相當多汁,他們對豬排的自信可鑑於只淋了些蕃茄醬就給我上桌…XD

勝丼下面的飯淋了某種醬汁,飯本身已經是顆粒分明了,醬汁的味道可食不可言傳。[/quote]

違う。
うまいですが,これはカツ丼ではない
這是純豬排飯,不是丼飯啊啊啊啊啊!
蛋汁和洋蔥都不見了…. _A_
還有,底下白飯真的有淋東西嗎?

實際上這個豬排大概和聯歡小西門、財資味的豬排可以對抗了,比較像是中式的豬排;可是只有豬排和底下的白飯這種配法又很日式….話說豬排的份量蠻不錯的,所以這樣說120元在台北這樣算很棒了;只是順便點的土瓶蒸是敗筆。(死)

—-
回過頭來,把光華逛完一遍之後,我回來發現….我腳起水泡了。
想想不知怎的我講手機大多得走到樓下可能是個原因。(死)
還有加上去的天線看起來好像沒有顯著差異,不過總之繼續放著。
5dbi的天線差不多200元,算是正常價….不過在台中好像整體持有成本可以壓低10%?

晚上繼續。
總之只要沒出去應該都會練滿六小時….
出去的話就是那個時段的兩個小時disable,之後繼續練這樣。
看看這樣持續一個月廢柴度能不能有點起色….(爬走)

十月十日、萌日萬歲

萌日萬歲!

今天try了一個下午的WDS。
目的是要把訊號隔空扔過去….

前半段時間因為沒注意到WDS需要寫MAC address,所以算是浪費時間;
後半段時間寫了MAC add卻還是不通我就不知道怎麼回事了。明明填了MAC,但是兩台之間互相不認得….

該不會是有bug吧。orz
可是該怎麼檢查呢?

總之WPA-PSK掛起來之後就算了吧….(死)
成天掛網大概是弄不出來了。

但是把NB搬過來之後,居然發現WLAN已經可以打過來了(54Mbps、訊號稍弱),結果現在就可以掛網啦~
我只開到50mw耶….真不錯。
看來在對面要好用不需要兩台AP互打,只要目前這樣再掛上高增益天線就好了。
(目前是2.5dbi的預設天線)

然後繼續練習。
這兩天白天都在弄網路的關係,實質上練習量都很少….
接下來再接再厲去。

—-
最後,R520相關。
http://www.driverheaven.net/articles/efficiency/index.htm

Driver Heaven這篇"架構測試"非常有趣,將R520降到與G70接近的時脈,並且將G70的管線關到剩下8vs16ps,藉以作為結構性的測試。

結論如下:
[quote]Overall we would have to say that in the tests which really matter today the G70 is the most efficient design and therefore performance leader when both architectures are configured similarly. In more "future proofed" tests the balance swings again and when HDR is used more in games we may well see the R520 performing better overall when the same testing methods are applied. [/quote]
亦即:目前G70的效率較好,而R520看來未來性較佳。

怎麼看待這篇就是大家自己的自由啦~
PCDVD相關討論:
http://www.pcdvd.com.tw/showthread.php?t=547231

特訓第九天

老爸老媽來探班,順便拿點衣物和一些棉被過來。
不過這樣看起來就像叔叔這邊有缺東西一樣,所以有點急躁的叔叔當然就有點不太高興。

「有需要你要講啊!」

嗯~ 還真不知道該不該講….
因為講了不好意思,不講更不好意思。(打滾)

今天休息_A_

今天和黨大約中午吃飯,以及載去光華 & NOVA逛….
所以早上練一個小時左右就出去了,後續整天都沒再碰…. _A_

目的兩個,R40的替換電池,以及叔叔目前這邊計畫採用的WLAN AP/Adaptor。

先直接到光華,繞了兩圈隨便逛逛,然後打手機託02找Mr.Battery的位置,拿了電池後走人。
其實這算是我第一次看到DrayTek(居易)的產品,Vigor2600V和2900VG,報價也和先前小峰在http://www.tw-mcse.net/上相近,算是高價品。
雖然其實後來在NOVA那邊的時候看WLAN的東西遠沒有光華來得充實的時候有點後悔,不過最後還是先暫時放棄嘗試居易的產品了。

午飯決定是KMall樓上的芝多家,所以開車到台北車站前面的停車場,然後步行從地下道經過。
看到車站前地下街現在的景觀,猛然覺得有點置身於新宿SubNade的錯覺….
台北和東京的發展步伐,的確堪稱是亦步亦趨了也說不定。

芝多家的炸豬排還是那麼棒…. _A_
這個價格其實和日本那邊的千元定食也已經平起平坐了,其實也不知道該怎麼評價,不過至少前幾天的西洋亭那時候,要不就真的點到他們很不擅長的東西,不然就是有名無實。(死)

在KMall看到昨晚JK推得很厲害的e680i….不過當初外觀就不太喜歡了,所以其實沒有太注意。
後面在NOVA看到dopod 900的時候,就差點在地上打滾了,讓人魂牽夢縈的鍵盤啊啊啊~ 不過即使已經從降到29800,還是相當讓人難以親近的價格。
可以參考這篇:
http://www.mobile01.com/topicdetail.php?f=61&t=102745&last=738457

最後在NOVA逛了一圈之後,還是買了WL500g Deluxe…. _A_
然後給Desktop用Buffalo的PCI卡。(Boardcom)
回來之後收訊也和手邊帶來的WL-500g相仿,不過總之在這個環境下的表現算不上好。
雖說放在櫃子裏面,收訊要好也有鬼了;不過AP的天線指著卻還要用定向天線拉出來才有收訊,R40在另外一邊沒天線指卻收得很好,這又讓人不知道怎麼說,是這張卡是地雷,還是落地窗也是反射呢?

話說我今天才知道,WL-500g本來的舊版在開超過60mw以上的時候很可能會過熱;WL-500g deluxe則是開到84mw都不會有問題;尤其是這個晶片組本身就能開到100mw,所以84mw這個數字我本來以為是ASUS給的limit,結果似乎在那之前就會遇到問題….?真怪。

—-
不過這又讓我對居易的產品產生好奇與遐想了。

以先前WL-500g系列的使用經驗可以得知,這台AP的評價不是極好就是極差,造成這個狀況的原因非常明顯,就是customize firmware:截至目前為止所有的穩定度方面的抱怨,都是發生在ASUS offical firmware上,而且也與我使用的狀況相符合;更換成customize之後,狀況就很少了。所以至少WL-500g本身硬體上有缺陷的狀況應該是不容易。應該說OpenWRT系的機器,即Boardcom chipset的相關產品,應該都有同等的表現才合理。
(*: oleg’s customize firmware並不是OpenWRT)

於是,居易的機器到底好在哪邊呢?
我想我稍微試著以我的第一印象分析看看:

1. 2600與2900的機體都相當大,比WL-500g大了整整一圈;並且有給兩隻5dbi天線,光這點就給人非常好的印象。
兩支天線代表勢必支援MIMO,收訊會好應該是有其原因所在;但是反過來說沒有具備MIMO的產品(單天線的較低階品),好像就會變得比較沒有吸引力。

2. 硬體上的spec:
參照http://www.tw-mcse.net/product/VIGOR.htm
Vigor幾乎全系列產品都採用ARM9 168MHz + 8MB RAM/2MB Flash,
和WL-500g Deluxe的ARM9 200MHz + 32MB RAM/4MB Flash比起來馬上就虛了一截….
我會覺得和WL-500g的同級品應該是2100G,但是附送的5dbi天線也並不貴,與WL-500gx + 自備5dbi天線比起來,似乎就比較沒有吸引力了。
(尤其是台北拿500gx還算貴,台中的價格就相當有競爭力….)

也就是說,我可能比較會期望MIMO支援品出現OpenSource政策的產品後,再改用這類的機器….
但是從 http://openwrt.org/TableOfHardware 的支援列表看來,看來還需要相當長的時間也說不定。
(支援MIMO的只有Airgo這家公司的晶片組,可以看到都是no/untest/partial…)

MIMO似乎是802.11n的一部份,或許到時候再一步到位也是個點子?

特訓第七天

第七天。
上午自主練習,下午去輔仁的合奏課。
….這光聽到就傻眼了。

實際上問題很簡單,要能盡快習慣樂隊的運作最好,可是不是本科系的根本不會具備那些能力,因為沒有經過適當的訓練。而這硬塞當然是跑不出來的….

所以當然去只能發呆啦。_A_

目前看待R520測試成績的心態如下:

1. 雖說是集中在提高效率,但是或許應該說成是"如何彌補在加入SM3的功能之後帶來的效率下降",會更為直接。
這個應該可以從R520的結構中看得出來,

2. 所以如果組態是維持16ps的話,那或許橫量效能的基準應該是將R4x0超頻到同等的的clock之後得到的成績,然後增加一定程度的比例,畢竟6vs16ps變成8vs16ps這點也會有差異;而極為大幅超過的話,如果根本不是使用SM3會帶來幫助的地方的話,就有可疑之處。

所以基本上目前還是蠻質疑R520的3DMark05成績….

不過比較重要的一點,是R520在宣佈屬於R4x0傳承而來的Shader ALU結構之後,就開始覺得先前傳的32ps R520情報有很大的問題。

由於基本上FP24-FP32幾乎就是會讓所有Register大上1.5倍,所以165M的R4x0如果x1.5的話就已經有240M了。
當然應該不是這樣來估,比方說R520的memory controller總規模由於不是crossbar,應該會有落差,而且VS數量也不相同。
佔總規模應該有約70%的主要GPU管線,如果可能會擴大到接近1.5倍的話,從165M變成320M看來似乎是有點少;不過NVIDIA也做過一次125M — 222M結果從4管變成16管的事情,所以其實也難說….

總之繼續看情況吧。

特訓第六天

特訓第六天,目前上午練習結束。

溝通某種程度上是一個瓶頸。
第一天剛到老妹就說叔叔很嚴格要自我調適,不過現在我好像就陷入自我調適上的問題。
而現在覺得這個步調要跟上真的很累。

昨天才提到專業與否的訓練,可是回想起來以前也是這樣練了之後遇到挫折就算了,現在講了才想起來自己練過鋼琴和小提琴耶?可是沒多久就放棄了。但是讀書的時候好像也是這樣不是嗎?對電腦有點興趣跑來讀資訊,但是課業壓力一重起來就逃了,又把興趣轉移到日文上….
這時候問題又來了,Kay昨天晚上提到,他也覺得當初他不是讀資訊、而是讀日文系可能會比較好;但是同樣的問題我現在就又不敢講了,如果從頭到尾"換領域"都只不過是在逃離壓力的話,不就沒用了嗎?

所以昨天和今天雖然很氣餒,可是又覺得現在放棄的話,可能又會一事無成的感覺…結果不論是讀書或是練笛子,再一次發現需要鍛練的事物,好像終究還是回到了自己的態度上:連按部就班都有所不易了,何況自動自發呢?

既然開始練就要練出名堂來….於是下午繼續。

花絮:

早飯在麥當勞吃,看著贈閱的民生報,發現A4版的「微軟帝國面臨新挑戰」一文,論調和saunter先前的一篇blog很接近…. 才這樣想就發現尾巴的"一位林姓工程師表示….",差點把嘴巴裡的東西吐出來。真的假的….XDa

好,應該是巧合。

話說Saunter和他老闆的試用期約滿了,不過待遇似乎沒有改善的跡象,所以準備要閃人了,禮拜天可能會上台北,說不定會遇上?

吃完中飯後到網咖(1hr)與金石堂,耗到兩點回來補blog,到兩點半開始練習,到五點半。
中午透過JK和黨大打招呼,本來計畫練習完之後打電話過去,約禮拜六下午去光華採買NB用的電池…. 結果四點左右黨大主動打來了。orz
不管有沒有看黨大的blog,都可以知道他最近諸事不順造成怨念結界很大,要想撥電話過去真的要有點精神武裝。(死)
總之禮拜六。

—-
晚上,練習到九點半,練到小指頭碰到東西就會痛。
如果還能練就算了,但是問題是不能練….
於是今天晚上,第一次猛爆強烈的禁斷症狀。(死)

因為聽說那個「鴻金寶」附近是危險地帶,於是晚上十點半之後無法出門。
可是昨今兩天又因為被警告「別玩電腦啦,快練吧」,所以既不敢借PC,又不敢拿NB過去,於是目前處於無網路狀況。
結果前天能架AP那樣是迴光返照嗎?今天誤按到broswer的次數超級多的。

實在很想把幾個網站的數據都看完啊~
比方說,湯姆老爹那邊把R4x0超頻到和R520(XT)同等的625/1500,可以看到R5x0相對於R4x0有多少效率提升,而且算是證明將R4x0超頻到這個頻率的時候,也可以跑贏標準頻率的G70。

—-
Doraemon提醒我換成11b,可以傳得比較遠。
等醒來找機會試試看好了….

現在只剩下黑歷史….