話題回到Larrabee

9 11 月, 2009 Eji 3 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20091109_327607.html

LarrabeeはSIMDとMIMDのバランス–Intel CTOが語る

「Larrabeeは、ある意味で、グラフィックスの世界でのMIMDアーキテクチャの再掘り起こしと言えるだろう。 GPUが大規模なSIMDであるなど、いくつかの点で似ている。そして、グラフィックスデベロッパは、我々に、今日のGPUパイプラインは非常に制約的で、彼らが望むアルゴリズムを走らせることができないと訴えた。そこで、我々はMIMDを導入することでそれに応えることにした。

我々が、昨年のSIGGRAPHで明らかにした論文で示したトランスペアレンシの例のように、固定的なGPUの構造では難しいことが、Larrabeeでは簡単に完璧にできる。こうした点が、MIMDとSIMDのバランスを選んだLarrabeeの利点だ。バランスアーキテクチャが、アイデアの根幹にある」 (Justin R. Rattner, Senior Fellow, Vice President, Director of Intel Labs, Intel Chief Technology Officer, Intel)

ここで、興味深いのはNVIDIAのG80以降のアーキテクトが、SIMDスーパーコンピュータ側の出身であることだ。

G80からFermiまで、NVIDIAの新時代GPUの開発をリードするJohn Nickolls(ジョン・ニコルズ)氏(Director of Architecture, Nvidia)は、MasPar Computerのアーキテクトだった。

MasParは、ちょうどAttack of the Killer Microsが始まった時代にSIMDマシンでThinking Machinesなどと並んでいた。

そして、Nickolls氏らがNVIDIAで行なっているのは、先に触れた通り、SIMDをよりMIMDに近づけることだ。

MasPar MP-2では、構成によっては何千、何万というプロセッサ(最大で1万6千)がSIMDで動作した。

G80以前のNVIDIA GPUも、最大のベクトル長(GPUのコンフィギュレーションで異なる)は4,048だったとAMD(ATI)は指摘している。

4048這個數字有點怪….不知道後藤老爹從哪看來的，真是好奇。

不過Intel在說的效率平衡問題，從定義上來說還真的蠻有趣的，因為這些平衡性問題，差不多就是以前曾經發生過一次的VS/PS問題。

CM-2的時候用的是可以連結最大65536個1bit processor的SIMD、不過CM-5的時候變成FatTree連接的SPARC RISC，最小vector長度也從長變短。而過去VS/PS的固定比例，就可以變相解釋成這邊的固定vector長度。然後GPU廠商導入unified shader，內部的動態balance透過較小的短vector單位變化(NVIDIA是32、ATI是64vector)來作平衡，過去的話就只能用很大的長度單位來變動，最早造成影響的是DX9的dynamic branch，比方說G70的branch單位是約880~1024個pixel這點。(所以後藤老爹提到的4048vector大概指的是同一個數字)

簡單講是說，SIMD的高速來自於極長的向量長度，但是要tune出高效率則是相對地困難很多。和SIMD比起來，MIMD的multi-core相對地比較容易（當然平行化本身就已經不容易就是了），但是完全沒有SIMD的話，小core根本很難提高性能。所以Larrabee的思想在於如何在SIMD與MIMD之間求取平衡….這好像在哪邊聽過？順道一提的是，G80~Fermi都還維持32 vector長度，所以8個或是16個SP一組仍然沒有動到太多底層。

不過這些過去到底有多少和Intel有關係好像還蠻有疑問的w

初音ミク

SEGAプライズ

7 11 月, 2009 Eji 發佈留言

http://news.dengeki.com/elem/000/000/209/209505/

テーマは拡大・飛躍・進化！第18回プライズフェアの模様を写真でお届け!!

　東京・江東区にあるTOC有明で本日11月6日に、関係者向けのプライズ合同内見会・第18回プライズフェアが開催された。

　今回は、エイコー、システムサービス、セガ、タイトー、バンプレスト、フリューの6社が出展。

http://news.dengeki.com/elem/000/000/209/209505/index-3.html

■ セガ ■

http://news.dengeki.com/elem/000/000/209/209703/img.html

1/6 PMミク

又要敗啦～

http://blog.livedoor.jp/geek/archives/50931076.html

【コラム・ネタ・お知らせ】　フィギュアメーカーGiftの新作ぬいぐるのアレコレ発表します！

初音ミク

UDK開放免費下載

6 11 月, 2009 Eji 發佈留言

http://udk.com/

Unreal Development Kit

UDK免費下載，非商業免費使用。

Is UDK really free for me to use?

Absolutely. Download UDK, create your project and distribute it completely free of cost.

Can I sell works created using UDK?

The short answer is “Yes.” However you need a commercial license. Please view the information at our licensing page.

How does this differ from an Unreal Engine 3 license?

The primary difference is that UDK does not include Unreal Engine 3 C++ source code access. UDK ships with most of the same code and tool integrations as the commercial version of Unreal Engine 3, offering the same features the pros use.

沒有source code所以是個sandbox。

不過堆一堆能不能弄成一個ミク逛ゲキト街的小玩具呢，應該可以吧w

不過安裝的時候一直當XD

初音ミク

閃電不只一發嗎….

6 11 月, 2009 Eji 發佈留言

http://twitter.com/vocaloid_YAMAHA/status/5459868181

mikiについて、あるホームページにて発表されましたが、実は同時期に他にあと二つリリースされます。

vocaloid_YAMAHA

這會不會太衝擊….

老實說考慮miki的代號是SF-A2，還有一隻SF-A1這點是一開始就有預想得到；不過第三隻就是預料外了….而且這個消息從YAMAHA直接放出來，至少代表這三隻製作可能都是YAMAHA，考慮密集release對技術移轉幫助不大，三隻都是YAMAHA A&R和Heartfast所屬的Artist Edition系列的可能性也大幅提昇。

也就是說12月Heartfast要一口氣送三隻VOCALOID出來的意思嗎….話說唱片叫做VOCALOIDs XMAS….原來有暗示過了？不對吧這想不到啦_A_|||||

仔細一想，這半個月發表的VOCALOID有「Project If….」兩隻（幼女+青年聲優）、Big-AL、然後再加上這三隻Artist Edition系列(SF-A1~A3)。然後年末又有一個Comike77….いや、まさかね….

雖說明年1月的ミクAppend才是本命，不過12月這陣容也太….

Uncategorized

後藤老爹的Fermi專題第四篇

6 11 月, 2009 Eji 發佈留言

前三篇：

http://pc.watch.impress.co.jp/docs/column/kaigai/20091001_318463.html

NVIDIAが次世代GPUアーキテクチャ「Fermi」を発表

http://pc.watch.impress.co.jp/docs/column/kaigai/20091023_323529.html

NVIDIAが目指す究極のプロセッサへと進む「Fermi」アーキテクチャ

http://pc.watch.impress.co.jp/docs/column/kaigai/20091102_325517.html

フラットで自由度が高いNVIDIA Fermiのアーキテクチャ

—-

http://pc.watch.impress.co.jp/docs/column/kaigai/20091105_326442.html

NVIDIA Fermiのマルチスレッディングアーキテクチャ

「こうしたFermiアーキテクチャは、伝統的なグラフィックスのようにデータをストリームで処理してメモリにはき出すアーキテクチャでは、有利とは言えない。伝統的なグラフィックスパイプの効率だけを考えるなら、シェアードメモリとL1/L2キャッシュに増やした分のSRAMをレジスタに割り当てて、マルチスレッディングで立ち上げられるWarp数を増やした方が有効なケースが多いと予想されるからだ。例えば、レジスタを3.7MBに増やして、立ち上げられるWarp数の上限を2,000程度にすれば、その方が旧来のグラフィックスパイプでは高速になった可能性がある。

　しかし、そのアプローチを続けても、レジスタ使用量の多い汎用アプリケーションでの性能を上げ続けるのが難しいのも確かだ。プロセス技術の進化とともにコンピューティング性能を上げて行くGPUにとって、相対的に低速なオフチップメモリへのアクセスは今後も最大のボトルネックとなる。それを吸収するには、メモリ階層を深くする方が得策とNVIDIAは判断したようだ。」

從過去的觀點來說，繼續擴張記憶體延遲隱蔽能力，可以有效提高shader的效率，維持shader unit的滿載，但是從通用運算面來說，透過register資源的擴充已經不見得能夠帶來更高的性能改善，所以NVIDIA不再增加分配大量的register給shader，而是把記憶體階層給改善。

Fermi的cache、share memory整體的規模，其實算起來相當逼近register file的規模，和過去G80/GT200比起來，算是兩邊有一定程度的平衡。所以如果GT200是G80路線的最終強化的話，Fermi就是G80/GT200路線的反思與改善，並且重新出發。

—-

話說有個題外話，register資源相對充裕的GT200，光從記憶體延遲的角度來看可能比Fermi更適合搭配延遲更大的記憶體系統也說不定，因為從單元數量來看的話，Fermi的記憶體延遲隱蔽能力回到G80程度，在非shader code之類的程式碼為主的狀態下因為有cache所以問題應該不大，不過純論shader code的話，新的記憶體階層好像就幫不太上忙….

不過要說這是放棄繪圖的話個人是保留態度，其實想想GPU的killer application終究還是繪圖，在HPC市場裡面殺手級應用目前看來還是visual computing，遊戲面也相信慢慢DirectComputing的應用會開始抬頭…. 所以或許應該說「繪圖不再只有shader code需要加速」也說不定。

不過反過來說，單純的現有繪圖code、也就是現存的遊戲性能到底會怎樣，就變成一個很讓人關注的話題。

初音ミク

又有VOCALOID閃電發表…

4 11 月, 2009 Eji 1 則留言

http://www.itmedia.co.jp/news/articles/0911/04/news041.html

ビクターの音楽部門売却報道、JVC・ケンウッドHDがコメント

公式否定comment。這種新聞通常都是實際在檢討中某一方放話….

老實說KONAMI本身在遊戲音樂市場相當有成果的關係，新聞本身的可能性相當高。

不過VICTOR畢竟是第一個出VOCALOID主流市場唱片的公司，他們用的「His Master’s Voice」這個mark可是舉世知名。

考慮VOCALOID的意味（再現失落天籟的可能性），有那種眼光卻有可能被逼得放棄唱片業，那的確是會帶來很大的衝擊。

只是如果人都走光了可能也沒了那個美好的傳統了….

另外一邊又有這種新聞：

http://www.yomiuri.co.jp/atmoney/news/20091104-OYT1T00674.htm

ビクターがデジカメ進出、ペンタックス買収へ

別耍笨啊….

—-

http://www.yamaha-ar.co.jp/artist/vocaloid/release_01.html

VOCALOIDS☆X’mas～白い夜は静寂を守ってる～

YAMAHA終於要推VOCALOID CD了，本來想說他們怎麼這麼姍姍來遲，結果仔細一看實際推出的是HEARTFEST藝能事務所。

而且右下角….

http://www.heartfast.jp/vocaloids/

HEARTFAST.JP – VOCALOIDS★X’MAS　ヴォーカロイド★クリスマス

SF-A2？！又有新的VOCALOID？！YAMAHA你們代工代很大喔….(前一個是KONAMI的Metal Gear AI用)

話說如果他們繼續這樣搞OEM下去，那麼前兩家買授權的廠商(Crypton & Internet)不知作何感想_A_

（用ヴォーカロイド這個稱呼基本上都是YAMAHA….否則因為媒體慣用，目前應該都是用ボーカロイド為多。）

收錄的歌手應該是先前要出サイハテcover的フルカワミキ小姐。原SUPERCAR貝斯手兼歌手，有名人。

現在想起來訪談裡面提到唱法不太有感情其實是伏筆嗎….（聽試聽會覺得很適合轉VOCALOID）

http://www.sonymusic.co.jp/?70004887_KSCL-1513&70004887_KSCL-1513_01SFL

CD試聽

http://natalie.mu/news/show/id/23098

フルカワミキ×小林オニキスがミクを語る「サイハテ対談」

http://natalie.mu/news/show/id/22717

フルカワミキ移籍第1弾シングルは初音ミクの名曲カバー

不過的確VOCALOID滿地爬的現象是有點來得比想像中的慢就是了，當初想說可能會隔個半年就好幾家廠商爭著出，結果畢竟音樂軟體市場還是偏小眾….

也搞得VOCALOID引擎技術整個掩蓋在ミク的光芒底下，大概還有不少人目前還覺得是動畫或漫畫的角色；現在不只音源廠商，連藝能事務所都跳下來作作看了。

追記：

製作的是YAMAHA A&R、然後唱片本身發行商是哥倫比亞唱片（コロンビアレコード），看來不該看成廠商爭著出，而是YAMAHA為了提高收益率自己跳下來作。

這兩年YAMAHA本社的經營也不是那麼好看的關係，有金牛的話的確得利用一下….的感覺；當然以引擎licence的模式來說還是不變就是了，新的子公司還是和其他公司一樣保持licence制，只是運作得好的話整體收益會改善。

—-

http://sakura-net.net/diary/2009-11/01_001523.htm

VOCALOIDまつりin 明大祭に行ってきた。

「 * VOCALOID1の時は2、3人のスタッフが2～3ヶ月かかりっきりだったのが、VOCALOID2では作業量が4分の1に減った。」

VOCALOID2和VOCALOID1相比之下製作過程的工作量減少到1/4，引擎和工具部份的自動化比例似乎提高很多。

這篇因為很多有趣的東西所以值得另文。晚點整理看看….

CELL

任天堂早就賺飽了吧w

4 11 月, 2009 Eji 7 則留言

http://blog.livedoor.jp/htmk73/archives/621167.html

岩田社長が決算説明会の質疑応答でおまえらやマスコミの報道に怒りのコメント

他根本在演戲吧w

想到這個：

http://vipper2ch.blog94.fc2.com/blog-entry-457.html

任天堂は従業員1人辺り、約10億円の売上高を上げているらしい

現金存量不知道有多可怕的地步w

（雖然任天堂CM用超兇的）

——-

http://forums.nvidia.com/index.php?showtopic=84440

NVIDIA CUDA FAQ version 2.1

CUDA FAQ #34:

Is it possible to run multiple CUDA applications and graphics applications at the same time?

CUDA is a client of the GPU in the same way as the OpenGL and Direct3D drivers are – it shares the GPU via time slicing. It is possible to run multiple graphics and CUDA applications at the same time, although currently CUDA only switches at the boundaries between kernel executions.

The cost of context switching between CUDA and graphics APIs is roughly the same as switching graphics contexts. This isn’t something you’d want to do more than a few times each frame, but is certainly fast enough to make it practical for use in real time graphics applications like games.

咦？這樣說來其實CUDA的application和graphics一樣，都得靠content switching來切換….所以說G80~GT200都沒有同時執行VS、PS的能力？這好像不太對…或者說，同樣都是time sharing的狀況下，G80~GT200都有點像single thread的CPU、而ATI從Xenos以來都一直有mutli thread的能力…. 嘿，考慮VLIW下的R600還是常有60%的worst case，這樣我還真不知道哪邊效率高w

不過如果想想Fermi相對於G80~GT200有10倍的改善這點，改變之後是20~25 microsecond(µs)的話，那就算是10倍也大概是300µs前後，好像真的不會差很多。重點可能還是在16個SM都可以各自執行不同的kernel這點也說不定。雖然這對手早就做了w

http://www.anandtech.com/video/showdoc.aspx?i=3334&p=6

Derek’s Conjecture Regarding SP Pipelining and TMT

In G80 and GT200, because of the fact that context is stored per warp, even though the SPs are working on an instruction for a different thread in every pipeline stage, they are not working on a different context at every pipeline stage. Each SP processes four threads in a row from the same warp and thus from the same context. Because it is incredibly likely at 1.5GHz that the SPs have more than 4 pipeline stages, we will still see more than one context switch within the pipeline itself, but it still isn’t down to a different context for every stage.

http://zergone.blogspot.com/2009/10/fermi-technology-unveiled.html

Fermi technology unveiled

http://techreport.com/articles.x/17670/2

Better scheduling, faster switching

“Fermi avoids this inefficiency by executing up to 16 different kernels concurrently, including multiple kernels on the same SM. The limitation here is that the different kernels must come from the same CUDA context-so the GPU could process, say, multiple PhysX solvers at once, if needed, but it could not intermix PhysX with OpenCL.”

看起來主要的限制就是不能夠好幾個不同的程式同時利用GPU….不過本來的話同一個application裡面同時有graphic和CUDA似乎也不會有這個問題，只是Fermi效率應該會更高點。

To tackle that latter sort of problem, Fermi has much faster context switching, as well. Nvidia claims context switching is ten times the speed it was on GT200, as low as 10 to 20 microseconds. Among other things, intermingling GPU computing with graphics ought to be much faster as a result. (Incidentally, AMD tells us its Cypress chip can also run multiple kernels concurrently on its different SIMDs. In fact, different kernels can be interleaved on one SIMD.)

—–

http://www.intrinsity.com/index.php/articles/64-hot-rodding

Hot-Rodding the Cortex-A8

Because Fast14 logic gates are 25% to 50% faster than static logic gates, the processor can do more work per clock cycle without altering the basic design of the instruction pipelines and functional blocks. Fast14 is particularly efficient for muxes and other elements with wide structures. Intrinsity also uses optimized static logic, custom circuits, and standard cells. (See MPR 8/13/01-02, “Intrinsity’s Dynamic Designs.”) Figure 1 shows Intrinsity’s design flow.

Uncategorized

繪圖+物理的雙晶片單卡上市

2 11 月, 2009 Eji 發佈留言

先前EVGA預告的那張GTX275+GTS250的卡好像上市了。

http://www.evga.com/articles/00503/

GTX275 co-op PhsyX

特色當然是那張加上去的GTS250(192bit 384MB)，主要的好處是省掉多弄一個slot的必要性，因為以最近找板子的感覺，要買到有兩條PCI-Express的主機板還真的要多付不少錢。

當然說起來PhsyX以現況來說市場重要性當然是沒多高，不過Batman:Arkham Asylum畢竟是NVIDIA APEX第一套遊戲，評價又非常高當然得盡可能推。等Fermi推出之後分開兩張卡的必要性就低多了，到時候就比較沒差，重點就是什麼時候出….如果能趕上耶誕假期的話可能會好一點。

http://www.fudzilla.com/content/view/16185/1/

Fermi GF100 to launch by early December

老實說Fermi在HPC市場和Quadro市場大概都是金牛，目前來說遊戲市場一來面子居多、二來贏面其實也沒有很大。（笑）

目前Concurrent Kernel execution的部份，NVIDIA只有Fermi對應到，一張卡仍然可以跑但是效率差很多，這是得分成兩個晶片跑的一個主因之一；ATI宣稱RV870在規格上有，偏偏就還沒有另一個東西可以讓它一起跑給人看….(汗)

GPU

中國自己的CPU+GPU supercomputer

2 11 月, 2009 Eji 1 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20091102_325517.html

フラットで自由度が高いNVIDIA Fermiのアーキテクチャ

結構洗練化。

—-

http://news.sina.com.tw/article/20091029/2308165.html

『天河一號』峰值性能1.206PFlops，LINPACK測試性能563.1TFlops@575MHz，超過2009年6月TOP500第四位。

http://www.lemote.com/bbs/viewthread.php?tid=26165

“天河一号”超级计算机配置图 [图]

沒用自家的CPU好像被拿來取笑就是了。

—-

http://www.realworldtech.com/page.cfm?ArticleID=RWT090909050230&p=2

Efficiency Data @ Computational Efficiency in Modern Processors

http://perspectives.mvdirona.com/2009/03/15/HeterogeneousComputingUsingGPGPUsAndFPGAs.aspx

Heterogeneous Computing using GPGPUs and FPGAs

http://perspectives.mvdirona.com/2009/03/15/HeterogeneousComputingUsingGPGPUsNVidiaGT200.aspx

Heterogeneous Computing using GPGPUs: NVidia GT200

http://perspectives.mvdirona.com/2009/03/18/HeterogeneousComputingUsingGPGPUsAMDATIRV770.aspx

Heterogeneous Computing using GPGPUs: AMD/ATI RV770

http://www.realworldtech.com/page.cfm?ArticleID=RWT090909050230&p=2

Zotac GeForce GT 220 1 GB

Performance per Watt

光比performance watt的話其實同製程的落差可能不大（和規模成比例），不過低階產品的面積因為非繪圖部份的比例變大所以會變差，比方說GT220的面積性能比大概只有Rade5870的1/2前後，要同產品線更大的晶片才能夠稀釋掉這個差異。

GT200/b當然光比DP的話和一般CPU沒兩樣，非動用混合精度programming才行；當然這邊為止都是理論規格直接除出來的數字，實際表現還要把工作性質與演算法都考慮進去。RV870在DP方面，不論耗電或者面積比應該都會超過RWT那張圖上的榜首RV770，剩下的就看Fermi和Larrabee實際的表現了。

RV770 276mm^2、1200GFLOPS SP、240GFLOPS DP

RV870 338mm^2、2700GFLOPS SP、540GFLOPS DP

Fermi ~466mm^2、1500GFLOPS SP、768GFLOPS DP（？）

(512sp x 1.5GHz x FMA)

老實說如果用FMA來算的話，Fermi可能只會比RV870好一點點。_A_

話說預料之內的是Sliverthome耗電量表現很好但是面積輸掉了，只是面積基本上不是絕對問題，因為建構成本的實際報價不單單被面積影響。使用者（買機器的人）通常要考慮的是耗電量（運作成本）沒錯，但是建構商才需要考慮面積（晶片生產成本）。

Eji的碎碎念

每月彙整: 2009 年 11 月

話題回到Larrabee

SEGAプライズ

UDK開放免費下載

閃電不只一發嗎….

後藤老爹的Fermi專題第四篇

又有VOCALOID閃電發表…

任天堂早就賺飽了吧w

繪圖+物理的雙晶片單卡上市

中國自己的CPU+GPU supercomputer

現在只剩下黑歷史….