http://pc.watch.impress.co.jp/docs/2009/0318/kaigai495.htm
CPUのアーキテクチャ時代の転換点となるAMDの「Bulldozer」
「
ヘテロジニアス(Heterogeneous:異種混合)型にプロセッサとアクセラレータ群を統合、システムレベルの機能をより統合し、オンチップのリソースの高度な管理機能を備える、新しい方向性のCPUの時代だ。
結果として、マルチスレッドだけでなくシングルスレッドのベクタ性能などが向上する。
」
其實當初提到single thread性能我直覺想到scalar code….(抖)
現在哪有什麼空間拉scalar性能?
如果是vector processing performance的話,好像就沒那麼扯,因為基本上已經肯定要加accerator了。
—–
http://pc.watch.impress.co.jp/docs/2009/0318/interface04.htm
【短期集中連載】大原雄介の最新インターフェイス動向
~PCI Express 3.0編その4
Atomic Read-Modify-Write可以讓GPU之類的加速機制得到更有效率的同步,在GPU滿載的時候不會差很多但是如果頻繁切換的時候overhead的改善就會很明顯。
【3月12日】PCI Express 3.0編その2
http://pc.watch.impress.co.jp/docs/2009/0312/interface02.htm
【3月16日】PCI Express 3.0編その3
http://pc.watch.impress.co.jp/docs/2009/0316/interface03.htm
因為公司合併等等許多原因,原來打算在2009年推出的Bulldozer現在預計是2011年左右才能推出。這個核心過去就被AMD說成是重大的架構轉換點,不過很多人對這個核心的更改方向很有疑問,畢竟當初是說”最高的single thread performance”,這聽起來就很可疑。
不過隨著一些資料的放出,我們現在可以知道的是,single thread performance過去我們都會想成是scalar code performance,但是現在看起來其實AMD想的是vector performance。
至於這些資料,我們現在看著後藤老爹從AMD那邊拿來的資料來作一些解釋。
1. x86 CPU進化的階段性。
AMD以過去1986年~2004年的這18年間稱為所謂的”single CPU era”(單CPU時代),這段時間強化都在”單一CPU內”,主要投注在single thread performance的成長,這段時間也是PC一個很重大的成長力道的來源:software有所謂的free lunch可以享受,程式會自然而然地變快。
但是2004年~2010年之間,我們都知道CPU進入了Homogeneous multi-core、AMD稱為”Chip Multiprocessor Era(單晶片多處理器)”的時代,single thread的成長遇到瓶頸,不得不走向multi-core化、並且宣告free lunch時代的終結。
然後進入2010年,AMD的CPU架構工程師Chuck Moore表示,將會進入”系統整合時代”,會開始將CPU與各種加速器(如GPU)整合、並且對激增的資源提供更詳盡的管理能力….並且這邊很重要的是,”以結果來說不只multi-thread performance得到提升、single thread performance也會提升”,這樣的CPU會在2010年以後推出。
轉頭一看,其實Intel也在講類似的事情….只是他們改個名字叫做AVX(新指令集)。也就是說AMD與Intel都不約而同地認為2004~2010年這個多核心過渡期通過之後,會出現全新的成長方向。
2. single core的成長遇到瓶頸的2003年與2004年。
其實從架構圖來看,我們知道AMD和Intel都各自在K8和P6上卡了非常久的時間,因為到04年為止,傳統CPU花費大量的電晶體在提升單thread的效率上,在耗能上已經無法維持經濟性了,繼續走下去只會變得不實用。
在這個時候,IBM替業界製造了”CELL震撼”,透過非均質核心的整合,CELL提供了十倍以上的浮點運算性能,讓Intel和AMD不約而同地取消了當時更大的單核心CPU計畫。(如悲劇的Tejas),從此x86 CPU的設計方向開始大幅轉變,首先是直接增加CPU核心的數量,來改善性能比例上的經濟性,而且AMD由於K8一開始就有保留多核心的設計餘裕,使得他們比Intel轉換的速度來得快;K10則只是小變化而已,這從原名K8L這點就看得出來。
就像2008年的Analyst Day所說,Bulldozer可說是從根本的革新,並且是在CELL shock之後,AMD所提出來的解答。Chuck Moore目前在AMD的頭銜是Chief Architect of AMD’s Accelerated Computing Initiative,但是更重要的是他曾是IBM Power4的核心人物,接下來AMD可能會繼續吸收IBM的人才,或者說IBM實際等於在幫助AMD來開發這個新的架構也不為過,就像當初K7/K8/K10的設計其實是舊DEC的Alpha team一樣。
3. CPU架構不再進步的K8/K10時代
不過x86真正最大的改變,應該會是”如何完全放棄free lunch”這點上。其實說起來CELL也好、GPGPU也罷、你做的事情終究是要去引入一個全新的指令集體系、Intel的AVX和LNI彼此不相容的混亂其實就可以知道大家在這方面意見歧異很多。當然Intel的狀況和它社內的政治因素有關….
其實我們可以想像一下,如果NVIDIA在GPU內放了一個傳統的強力x86 core(如K8)之後,會不會和CELL很像?
當然你會想說為什麼要這麼做,其實這可以從一些界面的管制上看到。比方說大源雄介先生最近在連載的新高速介面介紹上。
這篇提到的Atomic Read-Modify-Write功能可以看出,這些accerator內目前都是以host的CPU來做管制,在很大的工作量上overhead就不明顯,但是頻繁切換的時候overhead就變得很可怕。
Atomic Completer Engine會在PCI-Express 3.0上提供這個管理機制,GPU可以對PCI-Express上提供的queue進行讀寫,自動取走工作;而CPU可以作工作轉交之後便不再監視,使得雙方都可以更有效率,對GPGPU或者是Larrabee等SIMD accerator都有很大的幫助。
在Intel提出的模擬上,非常大規模的運算、代表回應速度要求低的工作上,幾乎沒有任何差異;但是在較小的規模上,性能可以差到最大14倍。
這代表的是response改善,其實就可以和single thread performance改善畫上等號,畢竟過去CPU的single thread performance改善,就是在response改善與latency改善上表現出來。
這個機制如果在CPU內完整實作的話,就會進一步減少interface的latency,進而改進整個系統的單thread peformance,畢竟PCIe的頻寬相較於CPU與GPU的memory bandwidth顯然都是很有限的。
free launch 應為 free lunch(免費午餐)
free launch 應為 free lunch(免費午餐)
挑標題錯字。XD
挑標題錯字。XD
滿天錯字orz
滿天錯字orz
http://pc.watch.impress.co.jp/…0318/kaigai02.jpg
有沒有人知道圖中的”Cryptography acceleration instructions”是什麼東西?
http://pc.watch.impress.co.jp/…0318/kaigai02.jpg
有沒有人知道圖中的”Cryptography acceleration instructions”是什麼東西?
抱歉忘記把迴響上架….
“Cryptography acceleration instructions”指的應該是加密演算法加速的指令。
抱歉忘記把迴響上架….
“Cryptography acceleration instructions”指的應該是加密演算法加速的指令。