分類彙整: GPU

GPU

[CES2010]Fermi首次demo

7 1 月, 2010 Eji 4 則留言

http://pc.watch.impress.co.jp/docs/news/event/20100107_340953.html

【CES 2010】【Digital Experience編】NVIDIAが新GeForce「GF100」を初公開

～富士通の新UMPCやHPのタッチ対応ノートなども

Fermi首次demo。除了「會站上性能王座」之外沒有特別發表什麼。_A_

不過有趣的事情是看起來tessellation部分有放心力，所以也宣稱會比對手快。

至少應該不是shader來跑？

GPU

掌機用GPU小感

28 12 月, 2009 Eji 7 則留言

目前檯面上已經有的攜帶用graphic core有PowerVR SGX、Z430/460和Tegra 600/650的GPU core。

PowerVR SGX和Z430/460都是Tile Based Renderer，Tegra雖然不明但是TBR是個合理的選擇。

Tegra的繪圖core沒有名字自然是因為NVIDIA沒有對外授權IP想自己賣core。

Tegra使用的是GeForce6的VS/PS分離結構，只能支援DX9，其餘對手則一開始就使用unified shader，當然unified shader對電力耗損沒有好處，這也凸顯出NVIDIA在耗電量問題遇到的障礙，以及設計上的弱點。

現在的問題是除了NVIDIA，其他廠商都採用IP授權方式。不論是三星替Apple作的Soc或者是高通的Snapdragon，都透過組合各種IP來對應需求，這也是ARM、PowerVR和過去AMD的其他IP core的生存之道；NVIDIA則除了授權得來的ARM core之外堅持幾乎自己打造整個平台。其他人著手得早，看起來NVIDIA這一帶還是很難有什麼斬獲。

更正：高通買下AMD的攜帶繪圖部門之後沒有對外授權、所以和NVIDIA定位反而一樣。

不過說起來，掌機能夠成為下一個主要的繪圖技術推手嗎?

就算是核彈也是有大小差異，所以晶片大小還是會讓性能有落差，即使有什麼典範轉移還是一樣不會改變這點，所以掌機的GPU絕對不可能比PC的GPU更快。

但是重點是需求，就像現在你不會因為更大的GPU可以挑戰更高規格的遊戲畫面，就去做很大的晶片或者是超大規模的平行系統，HPC市場反而不會用到所謂最尖端的繪圖技術，只是模擬與忠實呈現科學數據，就像上面提到，大型AC市場已經無法支撐自己專用的GPU，而是拿PC來沿用。

可能再過個十年，PC獨立顯示卡真的沒有足夠的規模支撐進步，反之掌機用的市場持續成長，那就有可能掌機可以使用的繪圖IP技術上比大規模的PC還要先進，而且掌機可使用的電源極為受限，這使得激進的programmable GPU同樣算是一種浪費，更別提Larrabee那樣的設計，但是同時期的PC可能會因為遊戲的需求沒有成長，而讓CPU可以消化掉GPU的需求。

這時候掌機就有可能繼續搭載當時最高性能的GPU，就像PC上的GPU性能遠超過過去AC可以使用的繪圖系統一樣，PC遊戲市場繼續萎縮的話就可能變成Larrabee那樣的設計就足以負擔，甚至PC遊戲市場僅存的部分也整個雲端化….反之GPU則跑到掌機上，而這個市場的規模未來有可能遠遠超過PC。

過去PC市場多餘的性能對homebrew助益良多，那麼未來對低成本開發、也就是順著市場和工業的發展主流走的話，會是掌機還是PC呢？

別的不說，目前Android混亂的硬體規格看起來讓事情變得很棘手，Apple整盤托走的機會越來越大了_A_

反過來說，這時候Google打算自己出手機這點似乎會變成一個重大的轉戾點。

GPU

GTX360/380 benchmark

14 12 月, 2009 Eji 6 則留言

http://nueda.main.jp/blog/archives/004777.html

GeForce GTX 380/360の仕様

http://www.hardware-infos.com/news.php?news=3339

Finale GTX 360 und GTX 380-Spezifikationen?

GTX380:512sp/128TMUs 384bit/48ROPs 650/1700 1536MB GDDR5 1050MHz(201.6GB/s)

GTX360:384sp/96TMUs 320bit/40ROPs 650/1700 1280MB GDDR5 1050MHz(168GB/s)

http://www.guru3d.com/news.html#10492

GeForce GTX 360 and 380 Benchmarks

測的遊戲有Far Cry2、Resident Evil 5 和 STALKER Clear Sky.

剛好都是CrossFire跑不快的遊戲w 雖說這時候GTX295也一樣。

評價上應該和GTX285/295比就好了：GTX360期望值上可以快GTX295一點點，GTX380則拉開了一些距離。

由於CF的延伸其實蠻有效的，所以GTX380要單晶片和CF拼應該不太容易，GTX395之類的東西比較合理一點。

反過來說，GTX360可以拼贏GTX285 SLI的話就爽了…._A_)a

http://www.tomshardware.com/forum/276100-33-fermi-benchmarks-gtx380-gtx360

Fermi first benchmarks are out (GTX380, GTX360)

另一篇數字。

—

老實說，和Tesla C2050的規格相比好像差太遠了。

與其說變數還很多不如說扯得有點大。

一切都是TSMC的錯啊。_A_

CELL、GPU

Larrabee的檢討

10 12 月, 2009 Eji 9 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20091209_334552.html

仕切り直しとなったLarrabeeの何が問題だったのか

http://pc.watch.impress.co.jp/docs/column/kaigai/20091210_334671.html

IntelはLarrabee計画とアーキテクチャをどう変えるのか

想要繼續讓CPU變快，many-core走high thoughtput勢在必行。

但是Larrabee靠繪圖來套must have策略來減低成本最後是行不通，因為x86的overhead看來還是太大了。

而且這個策略有很大的要因在bottom up，要靠低階產品來衝大數….

雲端的multi-core看起來不像是可以幫忙衝出大量的東西。

「多くの人がLarrabee=グラフィックスと見るが、

グラフィックスは汎用データ並列コアの普及戦略として持ち出された、

極端な言い方をすれば”方便”に過ぎない。」

well，顯然沒有人真的認為Intel是想要graphic，他們只是奉行「moore’s law = Convergence」而已。 (更正)

反正晶片越大一定塞越多東西，CPU總有一天連地表都會吃進去….(笑)

但是，CPU為了對抗latency犧牲太多效率，對只要對付眼睛的GPU而言主要的工作接近徹底平行化是最大的恩惠，所以半導體製程過去是CPU的助力，現在變成對手的助力….

也許CPU想要把GPU吃掉，還得等到類似CD音質對音效卡一樣，有另外一個可以讓大部分的user看不出需要買主力硬體的另一個市場飽和因素的出現才行：到AC97和HD-codec的時代，除了專業創作用途之外user幾乎已經沒有買音效卡的必須性，音質的另外一個重點又卡在難以擴充的喇叭等視聽環境上，結果就變成相對起來投資極高，這點到目前為止都沒有大改變….

反過來說，Full HD底下大部分遊戲看不到現行硬體更換的必然性，會不會變成user覺得不必再升級的一個重要理由？

GPU長期以來靠遊戲市場的成長來維繫成長，但是遊戲市場目前的趨勢也是傾向萎縮，雖然和過去PS2一樣、PS3/XBOX360等高階console的壽命期末期應該還是會讓PC遊戲市場得到一點回溫的效果，但是會不會有PS4/XBOX次代機那又是另一個問題。也許遊戲市場的主流就這麼走向攜帶為主、一去不復返也說不定。

不過理想上來說，繪圖應該會走到大部份的人都可以滿足於肉眼所見的畫面，就和音效走到大家都滿足雙耳所聞的境界為止，那麼應該還有個十年可走才是。到時候3D stack memory說不定都出來了，再來談CPU整併GPU吧。

話說要老調重彈的是，Larrabee的通用性能也沒人懷疑過，問題是商業模式能不能支撐。

比方說非繪圖領域的HPC相關運算上，Larrabee的確有大大甩離現有GPU的能力，雖然規模也是甩蠻遠的。

繼續下去Larrabee花的錢說不定會超過AMD+NVIDIA總合起來花在GPU的開發費用上。

http://www.lockergnome.com/theoracle/2009/12/05/what-is-intel-doing/

What Is Intel Doing?

Back in 2006, when we first got the first details about Larrabee, the performance goal was “1TFLOPS@ 16 cores, 2.0 GHz clock, 150W TDP”

At SGEMM Performance test [4K by 4K Matrix Multiply, QCD], Intel achieved 417 GFLOPS using half the cores on the prototype card, and reached 825 GFLOPS by enabling all the cores. While looking at the numbers alone, one might think that these scores are below the level of ATI Radeon 4850 and nVidia GeForce GTX 280/GTX 285. Of course, there is a “but” coming – unlike theoretical numbers that are usually disclosed by ATI and nVidia – this was an actual SGEMM benchmark calculation used in the HPC community.

1. Intel Larrabee [LRB, 45nm] – 1006 GFLOPS

2. EVGA GeForce GTX 285 FTW – 425 GFLOPS

3. nVidia Tesla C1060 [GT200, 65nm] – 370 GFLOPS

4. AMD FireStream 9270 [RV770, 55nm] – 300 GFLOPS

5. IBM PowerXCell 8i [Cell, 65nm] – 164 GFLOPS

If you’re wondering where products such as Intel Harpertown-based Core 2 Quad or Nehalem-based Core i7 stand, the answer is quite simple – i7 XE 975 at 3.33 GHz will give you 101 GFLOPS, while Core 2 Extreme QX9770 at 3.2 GHz gives out 91 GFLOPS.

http://brightsideofnews.com/news/2009/11/17/nvidia-nv100-fermi-is-less-powerful-than-geforce-gtx-285.aspx

UPDATE #2: nVidia NV100 [Fermi] is less powerful than GeForce GTX 285?

Fermi是512個INT/FMA(不能同時運作)，所以帳面上浮點性能可能不會好過MAD+MUL的GT200b太多。

尤其是後者因為register file的關係克服missing MUL問題之後，事情就不太好看了。

所以Fermi的優點剩下記憶體頻寬擴增之後理應搭配擴充的TMU/ROP….

http://forum.beyond3d.com/showthread.php?p=1322632#post1322632

Faster dense matrix-matrix products on ATi hardware

筆記。

閱讀全文 Larrabee的檢討 →

GPU

從GTS360M的洩漏消息開始思考

2 12 月, 2009 Eji 7 則留言

http://vgaclub.blogspot.com/2009/11/nvidia-geforce-gts-360m.html

NVIDIA GeForce GTS 360M

既然右下角都寫DirectCompute 4.1（SM4.0）那大概就不會是Fermi了吧….

不過這也有可能是GPU-Z在誤判就是了。

http://www.fudzilla.com/content/view/16170/34/

Nvidia leaks Geforce 3xxM series

從305~310M來看，大概又是個改名商法….除非Fermi真的要做到快速的上到下展開，問題是現在好像很難期待NVIDIA的chipset能有什麼市場空間，就算消費者想要也拿不到。(除非拿Atom的授權自己做？）

http://www.engadget.com/2009/11/10/nvidia-tablet-mystery-solved-an-odm-tegra-prototype/

NVIDIA tablet mystery solved: an ODM Tegra prototype

用ARM+現在手上的GPU作Tegra則是另外一條路，只是對手的PowerVR也不是省油的燈。

至於ION的話非得外接在CPU外頭，CPU又只能用現存的core所以頂多只能再做一兩年。

http://bbs.pczilla.net/thread-5002-1-1.html

NVIDIA Fermi(GT300) 光线追踪演示

其實從server性能宣傳上進步十倍、成本降低20倍之類的話，可以知道CPU急起直追純GPU的腳步是很快的，加上整合shader之後就更明顯了。

不論是以什麼形式，Intel認為只要承載能力和規模繼續成長就避不開整合，所以最後能活下來的只有作CPU的廠商，x86的驗證成本則成為高不可攀的門檻….然後ARM則是讓所有廠商都可以變成CPU製造商。

對NVIDIA而言，想走入x86市場的話目前還能用的資源還剩下transmeta（走Dynamic Binary Translation、code morphing）或者VIA的現有CPU core，但是這兩個對目前的x86 desktop而言競爭力都嫌太弱，然後ARM要衝上desktop市場還要很長的時間，現在要把ARM+desktop GPU拿來當日常工作+gaming的話也有疑問。

當然把gaming改走雲端的這點考慮進去的話，一般user買大規模GPU的機會就更少了，為了server端在追求的電力效率使得GPU走超大規模的機會也還是存在；或者是AMD的Liano那樣直接用Fusion來並聯會是個好主意？從server服務大量user的觀點來看，那樣好像又嫌太弱了，單獨GPU為了爭取記憶體頻寬變成Xeon般的暴力集合體應該是可以預見。

—-

http://pc.watch.impress.co.jp/docs/column/kaigai/20091202_332618.html

Larrabeeの切り札「シェアードバーチャルメモリ」

CPU側がセットアップしたデータ構造が、そのままGPU側からバーチャルメモリスペース上のデータとして見えるため、話は簡単だ。

アクセス権さえCPU側から与えられれば、データ構造を崩すことなく、直接取ってくることができる。

用相同ISA的另一個利點:用分頁為單位來共享記憶體空間，光是資料結構能夠保持就有很大的差別。

—-

http://pc.watch.impress.co.jp/docs/news/20091202_332819.html

NVIDIA、128SP搭載のQuadro FX 3800Mなど3製品

Quadro FX 2800Mは、MXM型のモバイル向けモジュール。主な仕様は、SP数が96、対応メモリが256bit 1GB GDDR3。DirectX 10.1、OpenGL 3.2に対応。最大消費電力は75W。

Quadro FX 3800Mは、MXM型のモバイル向けモジュール。主な仕様は、SP数が128、対応メモリが256bit 1GB GDDR3。DirectX 10.1、OpenGL 3.2に対応。最大消費電力は100W。

http://www.nvidia.com/object/product_quadro_fx_3800_m_us.html

Quadro FX 3800M

CUDA Cores 128

Shader Model 4.0

OpenGL 3.2

Microsoft DirectX 10.1

EnergyStar Enabling Yes 10:1 (10W Idle)

Maximum Power Consumption 100W

哪冒出這些128sp、256bit GDDR3但卻有DX10.1的玩意兒….O_o

這不就是在公開講G92可以支援DX10.1嗎….)a

還是真的有GT2x0系列、96sp以上、256bit記憶體介面的產品存在？

要不就是單純筆誤的機會最大吧老實說….

GPU

疑似Fermi based GeForce

19 11 月, 2009 Eji 1 則留言

http://www.tcmagazine.com/comments.php?id=31004&catid=2

Nvidia Fermi-powered GeForce card pictured

好長w 而且是8+6pin….和Fermi一樣是225w規格。

不過如果只有一個DVI那就真的得打人了。

目前唯一DX11 based 的benchmark，「Unigine’s Heaven」。

—-

http://www.heise.de/newsticker/meldung/SC09-Intel-demonstriert-Larrabee-mit-ueber-1-Teraflops-862305.html

SC09: Intel demonstriert Larrabee mit über 1 Teraflops

話說Larrabee也是很HPC指向….單晶片1TFLOPS DP這邊就非達成不可。Fermi只有500GFLOPS DP的關係，對Larrabee是個很好的目標。

只是現在為止流出來的資訊感覺有點32core x LNI(32D) x 1GHz = 2TFLOPS SP、1TFLOPS DP大概會是某種（電力上）上限的感覺，先前有聽說會直接跑32core所以這樣猜。

第一個Larrabee core能夠跑2GHz嗎？

GPU

中國自己的CPU+GPU supercomputer

2 11 月, 2009 Eji 1 則留言

http://pc.watch.impress.co.jp/docs/column/kaigai/20091102_325517.html

フラットで自由度が高いNVIDIA Fermiのアーキテクチャ

結構洗練化。

—-

http://news.sina.com.tw/article/20091029/2308165.html

『天河一號』峰值性能1.206PFlops，LINPACK測試性能563.1TFlops@575MHz，超過2009年6月TOP500第四位。

http://www.lemote.com/bbs/viewthread.php?tid=26165

“天河一号”超级计算机配置图 [图]

沒用自家的CPU好像被拿來取笑就是了。

—-

http://www.realworldtech.com/page.cfm?ArticleID=RWT090909050230&p=2

Efficiency Data @ Computational Efficiency in Modern Processors

http://perspectives.mvdirona.com/2009/03/15/HeterogeneousComputingUsingGPGPUsAndFPGAs.aspx

Heterogeneous Computing using GPGPUs and FPGAs

http://perspectives.mvdirona.com/2009/03/15/HeterogeneousComputingUsingGPGPUsNVidiaGT200.aspx

Heterogeneous Computing using GPGPUs: NVidia GT200

http://perspectives.mvdirona.com/2009/03/18/HeterogeneousComputingUsingGPGPUsAMDATIRV770.aspx

Heterogeneous Computing using GPGPUs: AMD/ATI RV770

http://www.realworldtech.com/page.cfm?ArticleID=RWT090909050230&p=2

Zotac GeForce GT 220 1 GB

Performance per Watt

光比performance watt的話其實同製程的落差可能不大（和規模成比例），不過低階產品的面積因為非繪圖部份的比例變大所以會變差，比方說GT220的面積性能比大概只有Rade5870的1/2前後，要同產品線更大的晶片才能夠稀釋掉這個差異。

GT200/b當然光比DP的話和一般CPU沒兩樣，非動用混合精度programming才行；當然這邊為止都是理論規格直接除出來的數字，實際表現還要把工作性質與演算法都考慮進去。RV870在DP方面，不論耗電或者面積比應該都會超過RWT那張圖上的榜首RV770，剩下的就看Fermi和Larrabee實際的表現了。

RV770 276mm^2、1200GFLOPS SP、240GFLOPS DP

RV870 338mm^2、2700GFLOPS SP、540GFLOPS DP

Fermi ~466mm^2、1500GFLOPS SP、768GFLOPS DP（？）

(512sp x 1.5GHz x FMA)

老實說如果用FMA來算的話，Fermi可能只會比RV870好一點點。_A_

話說預料之內的是Sliverthome耗電量表現很好但是面積輸掉了，只是面積基本上不是絕對問題，因為建構成本的實際報價不單單被面積影響。使用者（買機器的人）通常要考慮的是耗電量（運作成本）沒錯，但是建構商才需要考慮面積（晶片生產成本）。

GPU

B3D的Cypress架構分析

13 10 月, 2009 Eji 10 則留言

http://www.beyond3d.com/content/reviews/53
ATI Cypress GPU and Architecture analysis – Page 1

—-
http://www.brightsideofnews.com/news/2009/10/6/foldinghome-ati-radeon-hd-5870-is-as-slow-as-4870!.aspx
UPDATED: Folding@home: ATI Radeon HD 5870 is as slow as 4870!

According to a blog by project leader, Folding@home in its third generation of GPU code will adopt OpenMM, Standford’s open molecular model. Next in the works is bringing OpenCL support into the OpenMM library, resulting in OpenCL-acceleration for all GPU cards, including previously non-supported parts [but OpenCL-supporting], such as Quadro CX, FirePro and the like.

http://folding.typepad.com/news/2009/09/update-on-new-fah-cores-and-clients.html
Update on new FAH cores and clients

http://www.brightsideofnews.com/news/2009/3/22/interview-milkywayhome-meets-the-power-of-graphics.aspx
Interview: Milkyway@Home meets the power of Graphics

只能說這是演算法影響…._A_)a

—-
http://jp.techcrunch.com/archives/20091010t-mobile-sidekick-disaster-microsofts-servers-crashed-and-they-dont-have-a-backup/
ネット史上最大の惨事のひとつ発生―Microsoft Danger、T-MobileのスマートフォンSidekickのユーザーデータのすべてを失う

http://www.brightsideofnews.com/news/2009/10/11/t-mobile-usa-sidekick-users2c-sorry-we-really-f-cked-up.aspx
UPDATED: T-Mobile USA: Sidekick users, sorry we really F*cked up

不過那個「Danger」的廠商名不就代表一切….(抖)

—–
http://nueda.main.jp/blog/archives/004688.html
GeForceのエントリー機種 GeForce 210/GT 220が発表

http://www.anandtech.com/video/showdoc.aspx?i=3657
NVIDIA’s GeForce GT 220: 40nm and DX10.1 for the Low-End

GT216/GT218規格上最主要的改進不是在性能而是在MPEG4 ASP(Divx/XviD) decode和HDMI 1.3a(含audio)。
前者的話當然對desktop沒什麼用，不過對Atom和ARM的話就意義不小，考慮flash player 10.1的話就更明顯了。(只是flv當然沒有挽救空間)
後者的話有支援到LPCM 7.1ch，比較可惜的是bitsteamming仍然是沒有支援，差不多就是RV670同等。
所以NVIDIA在本職的GPU規格上還是落後ATI約一年的時間，還是說該把本職這個辭拔掉了？

GPU

Desktop繪圖市場的哀愁

10 10 月, 2009 Eji 37 則留言

http://en.expreview.com/2009/09/05/nvidia-geforce-gt240-to-boast-96-stream-processors.html
NVIDIA GeForce GT240 to Boast 96 Stream Processors

http://nueda.main.jp/blog/archives/004685.html
NVIDIAの次期ミドルGPU GT240のベンチマーク

老實說GT240這個名字還真的是直接洩底…. 性能應該在G92 based的GTS250以下。
96sp、128bit GDDR5、用GT200縮減而來的24sp TPCx4、主要目的是為了notebook市場，所以盡可能放在40w以下的TDP。

NVIDIA的desktop整個就是預期會挨打的狀況….不論desktop市場和高性能notebook繪圖年底以前應該都是ATI可以囊括的感覺，看到HD5770的定價高到半邊天，看了都在懷疑那個是不是要促進RV770和G92/GT200清倉用的，雖然AMD本家最近還是有點疲軟，獨立GPU的市占率消長應該是可以預見才對。

但是NVIDIA似乎根本就覺得desktop市場年底起不來會繼續縮水、notebook對DX11的需求不會高之類的想法，於是年底的重頭戲似乎是40nm、150mm^2(850M trans)、Cortex-A9 based、G9x graphic(with CUDA)、前代4x性能但TDP維持0.5w的Tegra T2….雖然說這個看起來有點ARM+ION的玩意兒自覺不是沒有吸引力，但是除了Zune HD之外沒有幾個人採用的Tegra能不能殺出一片天還真的是很有疑問。

有人說得好，NVIDIA現在最大的問題，或許是缺乏穩定人心的roadmap。

GPU

Google Chrome OS的各種意義

10 7 月, 2009 Eji 發佈留言

http://www.itmedia.co.jp/enterprise/articles/0907/09/news016.html

クラウド時代の新たなOSバトル幕開け

http://www.itmedia.co.jp/news/articles/0907/09/news050.html

OS市場でMicrosoftに挑むGoogle　勝機はあるか

http://pc.watch.impress.co.jp/docs/column/ubiq/20090710_300897.html

Wintel帝国崩壊の第一歩となるか、Google Chrome OSの衝撃

Google OS的x86/ARM雙用，很可能替ARM開了步入desktop市場的方便之門….

至於本來的x86市場裡面，則有可能出現Windows vs Linux時代的新局面。

在一般的正統PC底下Linux比Windows有效率的地方不少，但大多不是desktop應用。

Google Chrome OS只要能達成性能明顯超過Windows，那就會讓事情有不少改變。

最後，大概剩下企業市場怎麼處理了吧….

—-

http://pc.watch.impress.co.jp/docs/news/20090709_300912.html

NVIDIA、デスクトップ向けのDirectX 10.1対応「GeForce GT 220/G210」

主要針對OEM。

中階以上的市場目前保留給比較強力的舊晶片產品打消存貨。

Eji的碎碎念