分類彙整: GPU

GPU

拿掉L2 的Celeron vs 拿掉L2的Fermi？

29 4 月, 2010 Eji 6 則留言

如題。此一時彼一時。

初代Celeron性能低落的一大原因是off-die的L2 cache被拔掉，只靠L1非常悲慘；
後來on-chip的cache發達之後補回了這個問題，但是Fermi這樣的GPU會如何呢?

Nvidia Geforce GTX 460 mit 384 SPs ab 1. Juni? – News – Hardware-Infos

裡面提到的spec為384sp、48TMU、32ROP，亦即直接縮減GPC數量與ROP數量來進行線性縮減。
不過這裡面有個有趣的情報是，據稱還會把ROP裡面的768KB L2(128KBx6)給直接移除。
情報來源的可信度之外，單從可能性來說，Fermi最大的特色為與share memory並列的L1 cache結構，透明的L2 cache移除應該只有性能衝擊，造成的問題大概只有多大、以及影響多廣而已；有可能影響die size以及CUDA運算性能面。
此外，Fermi 的tex cache系統與運算用的cache是分開的….

GPU

Fermi 發售後檢討

7 4 月, 2010 Eji 2 則留言

http://www.itmedia.co.jp/enterprise/articles/1004/06/news016.html

HP、タブレット「HP Slate」のテレビ電話やiPod同期をビデオで紹介

http://japanese.engadget.com/2010/04/05/hp-slate-vs-ipad/

HP Slate 対 iPad スペック比較＆新着プロモ動画

Webcam、CrystalHD內建、可以跑W7的1GB DDR2、SDXC slot、1024×640….光看這些當然都和Netbook沒兩樣_A_)a

總之一個多點觸控為前提的硬體設計加上汎用OS，和從OS開始徹頭徹尾都是多點觸控前提的設計，狀況到底會有多少改變呢？

—-

http://pc.watch.impress.co.jp/docs/column/kaigai/20100407_359423.html

再び500平方mmを超える巨大チップとなったNVIDIAの GTX 480

http://pc.watch.impress.co.jp/docs/column/kaigai/20100406_359288.html

なぜNVIDIAのGeForce GTX 480はプロセッサ数が減ったのか

ちなみに、NVIDIAのGPUマイクロアーキテクチャでは、制約がデータパスにあることが多い。

例えば、Fermiアーキテクチャでは、倍精度命令を発行する際には1命令しかSM内で命令発行できないが、この制約はデータパスによるという。

IEDMで指摘された問題を見ると、設計上での挑戦がインターコネクトにあることは明瞭で、それがデータパスの制約に関連している可能性がある。

其實NVIDIA的人常常提到資料頻寬的問題，所以以「NVIDIA的標準」來看，他們目前的設計能提供的interconnection頻寬就是只能養得起這樣的SIMD unit數量….

當然這個觀點就看人嘍～

話說消音引用：

「那種東西能用嗎? *捏鼻* 他們連 cpu emulation 都可以做到 behavior 完全不同了」

「真實的 gpu 有 warp, cpu 沒有啊… 它每個 thread 都 free run. 啊模擬個 32 simd 是很難嗎? XD」

「而且我從來就不需要 debugger 這種東西…我 cuda 寫過來, 遇過的 bug 全部都是 compiler bug. XD」

_A_)a

GPU

雜項：AMD的Opteron 6100、Y2 Project等等。

30 3 月, 2010 Eji 發佈留言

http://pc.watch.impress.co.jp/docs/news/20100329_357660.html

AMD、最大12コアを内蔵したMagny-Coursこと Opteron 6100シリーズ

http://pc.watch.impress.co.jp/docs/column/kaigai/20090430_167815.html

AMDの 12コアのサーバーCPU「Magny-Cours」は2010年第1四半期に登場

—–

http://av.watch.impress.co.jp/docs/series/dal/20100329_357709.html

第410回:ネット経由でセッション、Y2 PROJECTの「NETDUETTO」

～開発者にインタビュー。Ustreamで配信なども～

http://av.watch.impress.co.jp/docs/series/dal/20100308_353506.html

第408回:Y2プロジェクトが取り組む「クラウド型VST」

～月額制での低価格化やiPhoneへの可能性も～

—-

http://pc.watch.impress.co.jp/docs/column/mobile/20100330_357746.html

ソフトバンク3G基地局倍増計画のインパクト

http://av.watch.impress.co.jp/docs/news/20100329_357717.html

ソフトバンク、同社初のAndroid端末「HTC Desire」

－3.7型マルチタッチ有機EL。「USTREAMスタジオ」開設

http://k-tai.impress.co.jp/docs/news/20100328_357645.html

ソフトバンク、Androidケータイ「HTC Desire」を発表

—

http://pc.watch.impress.co.jp/docs/column/kaigai/20100330_357729.html

「ニンテンドー3DS」は3Gネットワークをサポートするか

—-

http://pc.watch.impress.co.jp/docs/column/tawada/20100330_357813.html

「GeForce GTX 480」の追加テスト～新ドライバ、SLI、テッセレータ

GPU

GF104情報

29 3 月, 2010 Eji 21 則留言

http://nueda.main.jp/blog/archives/004930.html

NVIDIAのパフォーマンスレンジのGPU、GeForce GTS 450/440/430の情報

「According to 3dcenter, the performance GF104 core will feature 256 shader cores, 64 TMUs, 32 ROPs and it will utilize a 256-bit memory bus.」

64TMU…._A_)a

GPU

GTX470/480正式發表

27 3 月, 2010 Eji 6 則留言

http://pc.watch.impress.co.jp/docs/news/20100327_357196.html

NVIDIA、FermiアーキテクチャのGeForce GTX 400シリーズを正式発表

～3D Vision Surroundを使ったLOST PLANET 2のデモも初公開

http://pc.watch.impress.co.jp/docs/column/tawada/20100327_357454.html

NVIDIA初のDirectX 11対応GPU「GeForce GTX 480」

http://www.4gamer.net/games/099/G009929/20100326043/

Fermiアーキテクチャ採用の新型GPUは，DirectX 11世代の主役になれるか GeForce GTX 480リファレンスカード

http://www.itocp.com/htmls/59/n-959.html

开启上帝模式-GTX 480/GTX 470 200项横向对比测试

http://www.pcinlife.com/article/graphics/2010-03-26/1269573687d844.html

GeForce GTX 480 测试报告

—-

比起480sp，更讓人在意的是GDDR5的clock定在4000MHz(effective)….

而且即使是最高階的GTX480，pcb看起來也不會很發燒。

此外，相對於ROP的強化，GF100從80TMU降到了64TMU，但是一來texture cache重新最佳化、二來BC6H/BC7和gather4的支援也有性能上的改善（當然相對於對手來說少了些）。

而且沒錯的話TMU轉移到SM裡面之後，不是跟隨core clock而是SM的1/2，時脈有得到提昇。

12KB x 20的cache減少到12KB x16對規模削減還是有點幫助…. 剩下的就全部投注到geometry performance上頭了。

反過來說，大概可以猜猜看GF104的TMU會不會其實還是這麼多….

剩下的就是相對高溫、風扇較吵等等的問題仍然存在。

—-

http://www.legitreviews.com/article/1258/15/

NVIDIA GeForce GTX 480 GF100 DX11 Video Card Review

“We are currently keeping memory clock high to avoid some screen flicker when changing power states, so for now we are running higher idle power in dual-screen setups. Not sure when/if this will be changed. Also note we’re trading off temps for acoustic quality at idle. We could ratchet down the temp, but need to turn up the fan to do so. Our fan control is set to not start increasing fan until we’re up near the 80’s, so the higher temp is actually by design to keep the acoustics lower.” – NVIDIA PR

嘿這很糟糕了喔XD

GPU

Fermi 的官方optimize guide等等

26 2 月, 2010 Eji 13 則留言

http://vr-zone.com/articles/-rumour-geforce-gtx-400-series-details-performance-pricing-etc.-/8487.html

[Rumour] Geforce GTX 400 Series details (Performance, pricing, etc.)

—-

http://developer.download.nvidia.com/compute/cuda/3_0/docs/NVIDIA_FermiCompatibilityGuide.pdf

Fermi Compatability Guide

http://developer.download.nvidia.com/compute/cuda/3_0/docs/NVIDIA_FermiTuningGuide.pdf

Fermi Tuning Guide

http://developer.download.nvidia.com/compute/cuda/3_0/toolkit/docs/NVIDIA_CUDA_ProgrammingGuide_3.0.pdf

CUDA Programming Guide for CUDA Toolkit 3.0

http://developer.download.nvidia.com/compute/cuda/docs/CUDA_Developer_Guide_for_Optimus_Platforms.pdf

CUDA Developer Guide for Optimus Platforms

On devices of compute capability 1.x, some kernels can achieve a speedup when using (cached) texture fetches rather than regular global memory loads (e.g., when the regular loads do not coalesce well).

Unless texture fetches provide other benefits such as address calculations or texture filtering (Section 5.3.2.5), this optimization can be counter-productive on devices of compute capability 2.0, however, since global memory loads are cached in L1 and the L1 cache has higher bandwidth than the texture cache.

The shared memory hardware is improved on devices of compute capability 2.0 to support multiple broadcast words and to generate fewer bank conflicts for accesses of 8-bits, 16-bits, 64-bits, or 128-bits per thread (Section G.4.3).

——-

目前來說，GF100初期的產品性能應該是會很悽慘，只是悽慘歸悽慘，之後的產品還是以這個東西為基礎….

現在問題是當初NV30在中低階一路崩盤到NV4x才挽回，Fermi的中低階會如何？

所以讓人很想思考Fermi「架構」上會有多少劣勢。

當初NV30的主要性能以FX12提供、FP32單元數量很少，面對犧牲精確度用FP24的R300有很大的性能劣勢，需要廠商主動針對FX12/FP16去做optimize….

而Fermi的架構上維持G80時代shader數量上的設計觀念，基本上還是累積與加強，雖說某種意味上帳面上還是128sp的G92、256sp的GT200b，細部的tune up則相當多，ROP性能也有提昇。

反過來說ATI的SIMD unit數量還是堆在那邊….XD

well，聽說GF104(256sp)還是比65nm G92的die size大就是了。那幾乎就和RV870一樣大了…._A_)a

GPU

Charlie Demerjian v.s. NVIDIA

23 2 月, 2010 Eji 3 則留言

http://www.semiaccurate.com/2010/02/17/nvidias-fermigtx480-broken-and-unfixable/

Nvidia’s Fermi GTX480 is broken and unfixable

S|A繼續開砲_A_ 旁邊等著看好戲。

不過他是不是真的只是想放空NVIDIA股票啊….XD

http://www.anandtech.com/storage/showdoc.aspx?i=3747

NVIDIA’s GTX 400 Series Gets A Launch Date: March 26th

NVIDIAGeForce:Apologies for the confusion around our most recent GF100 update. To clarify, launch date for GeForce GTX 480 and GTX 470 is March 26, 2010

http://twitter.com/NVIDIAGeForce/status/9503345711

http://www.anandtech.com/video/showdoc.aspx?i=3740

The RV870 Story: AMD Showing up to the Fight

這篇其實寫得棒得多：敘述了AMD最近情況有如倒吃甘蔗越來越甜的理由。

—-

歷史明證，能先出產品的那方絕對做了right thing，從NV30、R520、R600、一路以來「對方已經賣到翻掉的時候還沒出來」的東西幾乎都會是失敗作。

想想，東西能先出來賣的時候你會想窩著嗎？當然不可能啊XD

但是反過來說，和架構都沒什麼關係，都是fab面的策略：NV30的洞在NV35還是補得起來、R520的問題R580修掉，RV870的基礎還是當年R600打下的….不勝枚舉。

所以Fermi的設計可能不是問題，但是生產策略、執行力等等則顯然有很大的問題。

而這段時間進展最大的可能並不是A/N兩邊，而是拿著Atom和ARM開幹、拿著Westmere快把內建顯示市場逼宮的Intel….XDa

（well它一直都是最大沒錯，但是快要不是最爛的了）

GPU

後藤老爹的GF100專題

20 1 月, 2010 Eji 5 則留言

http://www.nvidia.com/object/gf100.html

NVIDIA Home > Products > GeForce > GF 100

http://pc.watch.impress.co.jp/docs/column/kaigai/20100120_343352.html

NVIDIA初の”クアッドコア”GPU「GF100」のアーキテクチャ

http://pc.watch.impress.co.jp/docs/column/kaigai/20100119_343153.html

DirectX 11でも強力なNVIDIAの新GPU「GF100」

tessellator放在每個SM的用意是減少cache traffic，然後避免rasterizer變成瓶頸。

不過到這邊會感受到一個很重要的重點是，包含R600->RV670->RV770->RV870，其實除了shader數量之外，主要的成長是在ROP端，特別是單一ROP的色彩壓縮能力等等細節。

G80->G92->GT200的ROP基本上性能沒什麼提升，到GT2x0的低階產品的時候相同ROP數量性能立刻遭到滅頂。

Fermi在ROP上下的苦功也馬上反映出來…..

反過來說，我會想講Larrabee出不來的原因，是因為市場目前還是沒辦法接受一個沒有ROP、缺乏FSAA功能的GPU。

Larrabee的性能能夠填補ROP提供的hidden FLOPS嗎？那個數量很可能遠遠大過shader的總性能耶。

其次是Larrabee將ray tracing當成主要的訴求，而且確實比GPU要快；

但是如果從頭到尾用ray tracing來做遊戲繪圖顯然是太緩慢，要我說的話還是覺得拿ISPM之類的技巧來用會實際得多。

http://graphics.cs.williams.edu/papers/PhotonHPG09/

Hardware-Accelerated Global Illumination by Image Space Photon Mapping

然後只要讓GPU開始利用到rasterizer的優勢，那接下來速度就越差越多…._A_)a

拿個頗為空泛、但是卻不見得沒有意義的數字，就是當年PS3和XBOX360號稱的[1TFLOPS、2TFLOPS]之類的[性能當量]，其實有大半都是GPU的hidden flops這點。TMU和ROP的性能如果要用CPU的SIMD unit去填補的話，還是需要相當大的性能。

ROP的行為的確帶來很大的限制沒錯，不過GPU到底要快到什麼地步才會讓人覺得「嘿我不需要ROP了」呢？

沒達到這個境界，只打算做TMU的Larrabee要出頭的機會就還沒到。

GPU

GF是大家的GF(沒有誤)

15 1 月, 2010 Eji 4 則留言

http://pc.watch.impress.co.jp/docs/news/20100115_342559.html

GLOBALFOUNDRIES、Charteredと合併

—-

RV830(HD5670)/RV810(HD5450/5500)都出來了，理論上應該會發生當初GeForceFX低階被Radeon9550殺得片甲不留的狀況。

不過當初主要是性能優勢，這次DX11 game也沒什麼人拿出來，主要理由還是回到性能優勢上，以及讓架構發揮性能的製程因素上。

而以低階晶片的觀點來看，良率拉到80%還算低。

RV830是400sp（5x80sp）、RV810是200sp（5x40sp）。 <–錯啦。RV810是80sp。

GT240對HD5670在數字上都差非常大一截，當然我們知道NVIDIA有shader倍速….

結果得到的是ATI宣稱GT240大約輸HD5670在20%前後，打到上一階的9600GT等等，GT220的結果可能也類似？

不過市場上沒有must play的DX11 game，結果這兩邊該不會最後只是替G9x的清倉推波助瀾吧…._A_)a

—-

http://www.itmedia.co.jp/news/articles/1001/15/news028.html

Intel決算、PC市場回復で純利益が約10倍増の2億3400万ドル

Intelの10～12月期決算は、Netbook搭載のAtomなどが好調で売上高は28％増、純利益は875％増となった。

GPU

[CES2010]Tegra2發表

8 1 月, 2010 Eji 7 則留言

http://developer.nvidia.com/tegra/news/nvidia-and-verizon-demonstrate-full-hd-internet-tablet

NVIDIA and Verizon Demonstrate Full HD Internet Tablet

http://www.nvidia.com/object/tegra_250.html

NVIDIA Tegra 250

http://ispss.istreamplanet.com/nvidia/

http://www.nvidia.com/object/io_1262837617533.html

New NVIDIA Tegra Processor Powers The Tablet Revolution

Highlights / Key Facts:

Tegra is the power behind the new generation of tablets, offering:

-3D touchscreen user interfaces

-Amazing battery life- always-on and always-connected

-Adobe Flash Player 10.1 acceleration for streaming video and 3D mobile games

-Resolution ranging from four-to-eight times that of smartphones

-Form factors and screen sizes ranging from 5-15 inches

-Immersive gaming, vivid photos and video, and crystal-clear audio

Next Generation Tegra is a leap in mobile computing performance with:

-The world’s first dual-core ARM Cortex A9 CPU running up to 1GHz

-Eight independent processors to handle web browsing, HD video encode and decode and mobile 3D gaming

-10x faster than the processors used in smartphones today, and up to 4x the performance of the previous generation Tegra processor

-Advanced TSMC 40nm process with active power management

本來以為可能要拖到年中，Tegra2現在發表的話好像不會太遲…

內建graphic和前代Tegra一樣是NV40 based，雖然以目前的電力效率來說，與其用CUDA不如直接用hardware codec。

32bit DDR2頻寬並不大的關係，所以ULP GeForce也有很大的機會是TBR。

HW codec具備1080p編+解碼能力，視訊播放也好視訊會議也好都有幫助(雖然1080p的視訊會議這部分頻寬問題大得多)。

當然從標榜持續140小時的音樂與16小時的影片播放能力(2000mAH電池、400mAH耗電量的5吋螢幕)來看，Tegra算是主打消費者端的產品。

只是Tegra250並不是降低耗電量而是提升性能的關係，目前看來會繼續主打200美金的net tablet，而且還主打full HD tablet呢。

Adobe的人展示拿NexusOne跑Flash player 10.1，Snapdragon的GPU威力徹底展現；不過可惜的是它畢竟還要500美金。

手機雖然是目前成長趨勢最高的數位device，smartbook和net-tablet挾低價趨勢逆勢上揚的機會也不小，畢竟最終目的是在新興市場攻城掠地，相對高價的智慧手機對消費者來說入門門檻也不低。

反之，smartbook目前看起來幾乎都會在200美金前後，而且用的晶片組都一樣，對notebook作習慣的PC廠商而言入門門檻很低。

而不管是手機或者是smartbook，存取網路的能力都和PC其實相去不遠，主要的問題是CPU不夠強所以某些本身actionscript很沉重的flash可能會有問題沒錯，因為不是全部的flash在繪圖部分都這麼吃重，也有明明繪圖不吃重但是整體很沉重的flash存在。

iPhone使用者最主要的體驗在於：很多case他們不再需要帶PC(notebook or netbook)，會想繼續使用iPhone的人，主要的分界點也幾乎都集中在這裡。

也就是說，smartphone和smartbook這兩個device成長的空間也許一口氣會吃掉本來notebook和netbook可以成長的市場，甚至說不定會一口氣奪下PC原來主流網路存取裝置的地位，那代表的就是可能超過PC目前總規模兩億台的市場。

有可能嗎？有待觀察。

http://chinese.engadget.com/2010/01/05/nexus-one-review/

Google Nexus One大長篇評測

Eji的碎碎念