特訓第五天

特訓進入第五天。
因為被鞭策得有點疲倦,晚上打電話去和JK等人發牢騷。

說起來最大的問題很明顯,因為沒有正統科班的訓練,所以樂理基本上等於零,認譜和視奏能力都等於不存在;台灣除了音樂專班之外的音樂教育,似乎就是糟糕到這種地步。還是只有我這樣哩?(倒)

想想,如果我當初有興趣的話,其實今天就不會這樣了不是嗎?淺嘗即止的玩票性質,和要求起碼職業水準來說,落差還是極為巨大的。

享受資源,伴隨而來的是義務與責任,以及因為責任所產生的壓力,這個是大家都懂的道理;不過有些資源不見得是你想要的,或許對你而言就是只有感受到壓力而非感受到方便了。
比方說,官能管人很好;但是壓力也大,所以有人就是覺得大頭兵蹲著數饅頭比較輕鬆….

唉唷,想那麼多!不就只求混過役期而已嗎?就那一年四個月….
對了,到時要記得拿成績單去抵,不是自動加算的,差了快一個月….

總之,目前暫定10/24再回台中。

話說PCWatch刊出了兩篇關於R520的文章,一篇是後藤弘茂的結構分析、一篇是多和田新也的測試數據,兩篇看起來都相當有趣。

比方說對ATI第一次引入如同當初NV3x的全線同規格產品的用意剖析、結構上的重心放在效率上,所以thread的數量增大的設計重心、放棄VS texturing而透過PS與VS協同處理、FP texture可以MIPMAP而沒有filtering、實作8x32bit的記憶體控制器….等等,ATI的結構也充滿了自己的巧思、堅持與取捨。

這邊要補充的是,前幾天我對R520記憶體控制器的看法過於膚淺了。
R520仍然是完整的8×32結構,而ring bus算是"進一步補強"用的….不是什麼介於8×32與4×64之間的結構。

話說想想我的blog每次都是有錯就回去改,但是這樣或許算是「篡改歷史」?
或許我應該學習後藤大叔,把專欄有錯的部份通通留下來,才能知道自己的想法變遷,也才更接近blog最初的用意也說不定。

—-
最後,聽說今天最大的新聞是3DS "Maya",即www.autodesk.com/autodeskandalias
這個也是shock很大。

相關:
http://www.kimicat.com/?p=329

特訓第四天,網路資源取得

特訓第四天,網路資源取得

WL-500g固定化,於是可以上來直接key blog了….
中午NB就放在AP附近掛著。

那部Athlon 1.1GHz換了Driver之後開始猛當,開機後沒多久就reboot,開始覺得實體零件有問題;結果拆開一看,那張GF2MX的風扇早就卡住很久了….晚上在附近的燦坤買了CoolerMaster的北橋散熱片後搞定。

然後最近半夜開始固定到網咖上網,去GZeasy回文。
所以關於R520最近還是有資料可以聊….下面就來一點吧。

1. R520的Pixel Shader ALU看起來還算是相當強大。
首先是Dynamic Branch方面似乎做得非常好(至少ATI宣稱),因為threading數最後達到512個,比先前傳聞的多很多,所以應該有辦法隱藏branch增加後多出來的penlty。

舉例,根據ATI的說法,R520的分支可以密集到4×4 pixel block的範疇;根據NVIDIA的develop guide,NV4x則是30×30的規模。這個block代表"每幾個pixel作一次branch"可以由threading隱藏branch penlty的關係,所以越小越好。

先前PCwatch提到,E3時ATI提供的資料上,C1是64、而R520是128 thread;但是現在R520大幅增加threading數量的同時,hotchip05時C1的公開資料上thread也增加到94個。(vertex 31、pixel 63 max,總Register 數量是24,576個FP32,即96thread x256個,而有2個thread可能有其他用途;從這樣估算的話,R520的512thread、代表具備的總register數量可能高達131,072個?)

至於NVIDIA方面,Tech-Report後來有刊出一些來自NVIDIA針對於threading的回應,前面提到NV4x的建議branch頻率 blocking 是30×30 pixels(實際上大概是880左右),而G70是這個數字的1/4左右;但是從TR引用測試數據來看,看起來NV40的threading數目較少,可能還比後續的NV4x其他產品(如NV41/42/43)來得小。

也就是說,NV40的block可能的確在64×64左右,但其餘的NV4x改進到32×32以內,建議的分隔block也變得比較小;唯shader大量使用branch的狀況不多,所以並沒有出現branch造成的影響大過管線結構優勢的狀況。
(如NV43並沒有因為flow control上的改進-4096pixel改到1024pixel以內應該算很大的差異-而跑贏管線數量較多的NV40;而後來的NV42可能就會有機會用較少的管線跑贏NV40,比方說,注意NV42的電晶體數量為202M,已經較NV41的不滿200M稍大)。

G70的branch penlty改進更多,建議block已經小到16×16的程度,雖然還是離R520的4×4有段距離;不過由於G7x的中階尚未推出,所以也沒有看到NVIDIA修改建議的blocking。(從上面的進展狀況來看,也許其餘G7x到時候會改到8×8?)
這個也相對地可以讓人看出這幾個GPU在ALU數量與register file大小之間的關係。

以我的推論來說,很可能Flow Control的成本高低與register file的大小成負相關的狀況,所以要改善這點只要增大register file(同時即可提高threading數量),就可以負擔更頻繁的Dynamic branch,也就是成本降低,而其餘結構就可以不需要修改太多….

[quote]R520由於ATI的取捨在於效能,所以先將Register File追加到目前的規模;而NVIDIA當時並沒有給這麼大數量的Register File,但日後新的產品如果追加到滿足與ATI相同需求的規模,就可以在不修改程式的狀況下達到相同的表現;唯由於NVIDIA的ALU較多,很可能所需的電晶體比例會比ATI目前的產品大。

而考慮NV4x產品線內register file的狀況,應該可以想像NVIDIA的取捨上認為目前flow control的使用頻率較低,管線數量影響較大,而隨著趨勢的發展進行調整,所以對register file容量的取捨與ATI有所不同。[/quote]

所以或許樂觀一點說,就是「只要製程技術可以負擔到某種程度」,register file大小就不會成為問題的話,flow control的成本就會變得可以忽略;但同時,也許要到這時候shader的 flow control才會普及。

[quote]話說針對這部份補充一點感想:
光就threading的部份,ATI目前對結構上的闡述要來得比NVIDIA明朗,到目前為止NVIDIA GPU的threading數量仍然是未公開的,甚至連threading都沒有提到,還要自己去PCWatch看訪談、去Hotchip查論文(也只有"hundreds"這個詞);但是ATI卻連threading數量都給了。這讓我想到後藤弘茂大叔當初對NV3x那篇感想中提到的"變得饒舌的ATI與變得沉默的NVIDIA",在R300推出後這個現象尤其明顯。[/quote]

其他討論請參照GZeasy顯示卡技術版的相關討論串:
http://bbs.gzeasy.com/index.php?showtopic=461530&st=0

2. 生產方面,TSMC這回要大失血了。
TSMC的成本保護協定有規定晶片單價上限;其實charge per die的意義本來就是如此。
所以單顆ATI最高付的價格是150usd…. 其實這也只是稍貴的程度而已。

但是,由於Low-K的問題很複雜,目前R520的成本波動極大,最低是420元前後,最高甚至會超過700…. usd。
絕大部分的狀況是500~600usd,所以實質上TSMC目前是賣一顆賠三顆的狀況。

TSMC當然是想和ATI另外談價格,不過ATI得了便宜自然是不輕易鬆口,現在ATI完全是在燒TSMC的錢,假設TSMC的wafer分配量給NVIDIA與ATI是相同的,那我會覺得TSMC可能有每月損失數百萬美金的立即危險。

總之,TSMC和ATI聽說打算興訟了….至於UMC看著TSMC的慘況,當然是不願意簽成本保護協定,所以其實R521、RV516、RV531這三個晶片目前仍然是空氣。

3. 目前所有合作廠商拿到樣品的進度非常緩慢
已經有不少人跳出來罵了。
或許ATI認定OEM單已經絕望,所以全力衝retail?

至於媒體拿到的進度有快有慢,至少 ikari 所在的電腦王雜誌有拿到:
https://www.pchome-advance.com.tw/viewtopic.php?t=163
這邊是他們的數據,16ps版625/1500的設定下可以跑9000出頭,所以9100這個分數至少還算是真的;cho測的數據低了些,但是還是有8600~8700,這可能是Driver差距。

聽說ATI在英國的合作商OCUK表示,大量供貨大概要等到12月;不過我是覺得從良率來看,供貨速度本來就是涓滴細流了,只是何時輪到的問題而已。

特訓第三天;Area-AF

特訓第三天。

上午堂弟堂妹都還要上課的關係,早上任憑睡到十點….
考慮昨天四點睡的話其實還好?
還有三個禮拜,要調到晚上十點睡早上六點起來….

吃完早飯後十點半練到十二點。
話說目前的練習時間離理想的每日六到七小時還有蠻大的距離,所以還要加強。
吃完飯,把PC做最後一趟檢查。
軟體的部分幾乎把木馬和spybot都掃光了,所以開始回到正常的效能表現;2M/256的ADSL改過設定後也差不多正常了。

期間從cho那邊拿到R5x0的幾份pdf,大概把結構搞懂了。
所以那個ring-bus不是用來串Shader與rop的,而是連接memory-controller內部各個子單元用的;至於先前講的Direct Memory Access,看來是沒指望了。

至於有個非常讓人期待的東西,就是R520還真的新增無失效角度AF,透過所謂的FAST(Footprint Area Sampled Texturing)的做法,以下是論文:

http://csdl2.computer.org/persagen/DLAbsToc.jsp?resourcePath=/dl/trans/tg/&toc=comp/trans/tg/2004/02/v2toc.xml&DOI=10.1109/TVCG.2004.1260775

http://www-users.cs.umn.edu/~baoquan/papers/fast.pdf

最後,R5x0雖然沒有FP filtering,但是有FP blending。
所以我說完全沒做不行嘛….

特訓第二天

今天是修電腦的日子。
颱風天九點起床,吃早點後回來練習,開始有心得了。
早上11點~下午兩點練習,然後兩點吃中飯。

吃完中飯之後就是陷入與那部Athlon1.1GHz、256MB SDRAM、KT133老機器的奮鬥。
對我自己來說這大概算是兩代以前的機器….
不過其實年代不是問題,滿地病毒才是問題。
而且為什麼我老是會在這種機器旁邊看到肉盾的殘骸?
使えないヤツめ!

AVG + Spybot S&D 啟動,然後開始苦戰….
(掃一掃可能會因為CPU usage過高然後hang住)
途中用VNC繞回去家裡看Share的狀況,然後順便看GZ那邊。
啊?R520的05分數狂飆到9K+?!(猛然呆滯)
才兩天沒看就風雲變色嗎?!

本來想看下去的,但是很不巧地沒過多久ADSL就陷入完全中斷,PPPoE連撥都撥不通。O_Oa
雖說晚上有恢復,總之看起來這應該是線路品質已經爛了,設定明明是HiNet 2M/256的下載卻只有50K左右orz
另外一個可能是先前處理這個系統的人把狀況弄得很糟、最後是滿地的病毒也有可能肇禍。
不行了,這個總之先報修再說….

—-
七點,出來買晚飯材料(五穀雜糧米?)的時候順便認識地理環境,
然後在頂好超市附近把02叫出來,接著在附近繞到八點。
(話說上回來這邊吃喬遷喜宴的時候,就已經知道02住在附近了)
在金石堂逗留一陣子之後,繞到02家樓下看看,然後八點左右回去吃晚飯。

話說音響論壇(205期)上看到Chord的"Media Engine",說是High-End音響廠商參入Media PC的產品…. 看起來好像是用nVIDIA的卡耶?XD
(而且是雙DVI,該不會是7800-series….)
總之只看到外殼不知好壞….雖然外殼的陣仗已經非常大了,硬碟也有自己獨立的power,而且chord這個品牌似乎十分精於交換式電源,總之有得上網的時候再調查看看;只是和我說沒有完全徹底fanless,感覺上就有點不夠味。

—-
晚上九點半點練到十點半,之後把手癢帶上來的WL500g拿去測。
因為叔叔新家這邊和自己那邊佈局很類似,也是兩棟分開,網路資源要共享就得要設法飛象過河才行。
(話說叔叔提到,現在正常家庭有很大的可能需要兩個三房兩廳才會住得比較舒服,因為自己的經驗,其實這點我蠻認同的….)
總之,雖然自己家在台中是直接隔空牽網路線空拋過去,但是台北這種會抓的地方,大概就真的只能乖乖用AP互打了。
於是單台直接上的結果:果然還是房子裡面才收得到,另一邊雖說可以在陽台收到極微弱的訊號,想想還是乖乖用指向性天線互指,把WDS開起來才是解決之道,到時候Yahoo購物要搜一搜了。

帶上來的NB和手機的電池都已經進入壽命期後半了(2003-10至今剛好兩年),尤其是NB目前居然只有十分鐘的續航力,完全沒有行動力可言….乖乖砸錢吧。

—-
雖說在書架上找到自己以前的老書,猛然心血來潮翻了翻….
(讀者文摘-第二次世界大戰實錄,這本我才想說為什麼找不到orz)
不過下午看到GZ那個狀況,外加先前ptt團購keyboard那件事情也讓我蠻掛心的,所以半夜兩點的時候,忍不住找網咖去了。

話說離發表都只剩下兩天了,R520居然還可以鬧出數字大攀升?
Anandtech那邊有人提到,R520的分數可以比G70高出30%~40%。
說真的,這點還真的是很誇張。

因為狀況是這樣:前幾天提過R520與G70的運算資源差異,單管線已經有結構上的落差了,也就是R520 vs G70,單管線差異 + 管線數量差異,等時脈下核心吞吐怎樣都會差到1.4倍;所以時脈上R520必需要拉到1.4倍,讓兩者得以平衡。
如果現在R520反過來可以贏1.4倍,那至少要同時脈下效能接近,才能夠在時脈優勢加成下,達到逆超越的程度。
所以感覺上我覺得合理的只有一個解釋:9K+的是24ps版R520的成績。

所以到底24ps是宣示用、還是實際會販賣呢?
還是10/5見分曉了。

特訓開始

前天叔叔提議之後,家裡handle了兩天之後就決定了。
早上九點就出發,中午十二點半才到台北。
中餐的長崎西洋亭炸豬排是地雷,倒是可樂餅相當不錯。

下午三點開始到晚上六點特訓,以後則是每天六到七小時。
反正廢渣就是一曲走天下嘍~ 不然要怎樣。
所以先練起來再說….
這樣的生活大概會持續一個月…. 然後整理物資後就入伍了。(汗)

入伍已知應該是11/7,這是先前去問戶政的結果。
於是站務交給Tib、Saunter & 02,爆笑國家去了…. _A_

下午除了練習之外,其實還有一件事情是幫忙搬家。
士林這邊的房子其實非常久了,稍微有點感傷的感覺。
不過畢竟格局不合用在先,沒有必要再忍受了。
叔叔在理財上的觀念,以及與生涯規畫上的相關互動上也讓我學到不少。

晚上由叔叔帶去他的指揮課學分班的研究生辦的謝師宴,雖說這個時間(十點)算是宵夜了。
一如預期見到了OOOO的隊長、副隊長….
所以總之可以try的地方變成兩個,雖然有一個地方去了大概會被操到死….
(沒辦法,算是第一個會被叫到的)

話說Saunter,役期縮短看來是以退伍時間為準的耶?
(也就是說,明年一月一日以後"退伍者"的服役年限以一年四個月計算)
所以顯然很多即刻生效退伍的案例…. 這樣剛好也可以解釋早晚入伍同時退伍就是了;所以我應該是算到一年四個月啦。

100usd 的Notebook

Offical:
http://laptop.media.mit.edu/

Source:
http://www.kimicat.com/?p=323

MIT Media Lab 的 Nicholas Negroponte 在 World Economic Forum 中發表了一百美元的筆記型電腦設計。這種筆記型電腦是設計成可以提供給開發中國家的孩童,使用於教育用途。

該筆記型電腦的設計包括 500MHz 處理器,1GB 記憶體,以及雙模式顯示器,可以在彩色模式下,及陽光下可讀的黑白模式間切換。這使得這種筆記型電腦也可以當成「電子書」使用。這種筆記型電腦的電力來源可以從一般的電源插座、電池、甚至是手動轉動的發條。另外,它也會提供無線網路的支援、USB、以及內建的端對端網路支援,使多部電腦可以共用一個 Internet 連接。

目前已經有五家企業正在協助 MIT 發展最初的五百萬至一千五百萬台測試電腦:Google、AMD、News Corp.、Red Hat、和 BrightStar。(by Hotball)

這玩意兒有兩個理由讓他價格低廉:
1. Linux,不過這個理由其實不太充分
2. 液晶面板的成本壓在25usd,這個很厲害。

這樣的100usd產品有500MHz AMD CPU,還有1GB Main Memory,然後跑Linux。
這真的可以做很多事情了….

猛然覺得朱老先生的計畫可以功成身退了….

G7x 系的VS/PS比例

最近差不多該有G7x的衍生產品情報了,目前推估的產品大概有如下的配置:

1. 高階:G71– 10vs32ps、256bit or 512bit?
2. 中階:G72– 5vs16ps、128bit
3. 低階:G73– 3vs 8ps、64bit?

理由下述:

NV4x的設定是3vs8ps & 6ps16ps,所以12ps實際上只需要4.5vs,NV41/42的5vs算是多給。
G70雖說是8vs24ps,這樣算的話會是NV40(6vs16ps)的延伸,G71如果是32ps的話就很可能是12vs,而G72則會是6vs16ps。

但是目前傳出G72是5vs16ps的配置,這樣則會出現G71只需要10vs32ps,而24ps只需要7.5vs的關係,變成G70的8vs24ps是VS有多給;G73的3vs8ps也會變成VS多給。

總之,中階產品可以接受的die size應該在150mm2上下,
(如NV43的die size即為150mm2)
然後從G70的die size(334mm2)來看,90nm化之後150mm2可以承載的電晶體數量,剛好差不多是200M左右,然後可以稍大可以稍小。
所以G70的中階就算有5vs16ps,也應該可以在經濟規模內搭載,不會有任何的問題。

現在比較大的問題是G73的記憶體頻寬:目前看來很有可能會是64bit…. 尤其是G73據稱是接替6200TC的產品線,所以還是有可能會搭配64bit memory。不過老實說6200TC算是鎩羽而歸,市場對這樣的產品接受度還是蠻低的…. 也因為這樣而推出了6500(NV44關閉TurboCache、並搭載足量的記憶體),應該不會再貿然嘗試TurboCache…. 只是看來64bit的機會還是頗大。RV515都有搭配128bit了,G73還是別只搭配64bit吧。

(話說ASUS那邊提過,其實NV44其實有辦法搭配128bit Memory?)

[廣告文] 耗電相同、兩倍效能:GeForce Go 7800GTX

http://pc.watch.impress.co.jp/docs/2005/0929/nvidia.htm

這真的太屌了,用同樣的製程,結果規模加倍,耗電量不變。
而且照舊沿用G70的desktop產品。
p2p相容的關係,所有設計可以直接沿用先前的Go 6800U,
到底該說是前代(NV42)的設計太爛,還是G70真的進步太多了?

套句AP的話,這絕對是黑科技

話說雖然與標題無關,不過為什麼G70能夠搞到這麼屌,小月有點解釋。
雖然來自吵架文:
http://bbs.gzeasy.com/index.php?showtopic=460445&st=150&gopid=7280398

[quote]核心设计根本没有先后可言,你不可能画完超级大楼的图纸再考虑使用什么型号的钢筋做主承重,除非你不担心现有型号的钢筋根本不可能完成任务。

不过在目前的GPU设计中最先考虑的的确是使用什么工艺和材料,比如填充层上使用FSG还是LOW-K会直接导致最终运行环境的不同,如果使用LOW-K,我可以将运算执行单元的规模扩大而不用担心TDP的上升,相反的,如果使用FSG,那么规模就要缩小。再比如,计划采用110nm工艺的核心的规模临界值远比计划130nm的来得大。

一般设计的顺序都是“性能指标提出——总体规模提出和材料工艺确立——大体布局雏形——各单元细节设计——布局修正——tape out”,材料学和空间布局是第一位的

(by 小月)[/quote]

小月你這段話真棒,有夠淺顯易懂。

比方說這回Go 7800GTX發表,與Go 6800 Ultra (NV42)相比,
核心從450MHz 降到400MHz,其餘如DRAM(550MHz DDR)與其他PCB佈局都相同,而且也是針腳相容。
而同為TSMC 110nm製程的NV42和G70之間,兩個晶片足足有1.5倍的規模差異(202M vs 302M),居然可以達到相同的TDP,這可以告訴我們佈局(空間部位分配)到底有多重要,影響有多深遠。

話說回來,某些程度上可達時脈應該還是會受到control logic限制,尤其是CPU;不過我是覺得,在GPU的領域內,材料帶來的影響應該會高過control,,因為這個領域的管線規模都很大,漏電應該會比大半是較為鬆散的lip-flop 的CPU嚴重得多。

至於控制帶來的影響,通常只有在extreme overclock裡面才會討論到,
因為這時候TDP帶來的影響(漏電帶來的發熱)都被非常規散熱措施稀釋掉了。

附近的麥當勞

剛剛中餐去吃的時候,店員和我提到,十天左右之後-也就過幾天國慶日前後-我家附近這家分店就要關掉了。

好像是因為環境不好,這附近店算是有點密集….
其實二樓的冷氣停用這麼久(至少一年),就是代表客源不是那麼夠….

總之,有點感傷。

現在只剩下黑歷史….