FAH for CUDA confirm

23 5 月, 2008 Eji 30 則留言

http://www.pcper.com/comments.php?nid=5679

Folding＠Home NVIDIA GPU Client Confirmed

http://www.nordichardware.com/news,7777.html

GeForce GTX280 folds three times faster than Radeon HD 3870 – NordicHardware

話說要不是這篇，還不知道GeForce8系列已經賣70M個了….O_o)a

當然，平均100GFLOPS的話就是有把中低階算進去。

所以照這個數字的話，應該就是G84賣最多了。(32vs * 2FLOPS *1.35GHz = 86.4GFLOPS)

PS3 vs 3870 vs GeForce”NEXT”，這指的應該是GT200…每日500mol、高過PS3(100mol/day)和3870(170mol/day)不少。

3870在FAH執行上的C/P值(電晶體數量比例與效能)上不太妙，666M大了235M的CELL快2.8倍，記憶體頻寬的話3870也有2.25GHz 的GDDR3，72GB/s也差不多是CELL的三倍，實際性能只有1.7倍。

但是以這個觀點來說，GT200也只有和CELL同等的效率就是了….(電晶體成本和記憶體頻寬都差不多是CELL的五倍，和性能表現的比例相去不遠)

所以可以預期G84跑FAH的性能和CELL會差不多？

[EDIT]

http://www.legitreviews.com/article/713/1/

清晰照 + client screen shot

http://www.extremetech.com/article2/0,2845,2284132,00.asp

Folding＠home GPU2 Client Examined

ExtremeTech: In the first GPU client, which worked through a DirectX interface, the types of work units that could be used were relatively limited. Now that DirectX is bypassed with the CAL driver for ATI cards, how have the work units been expanded? Is it comparable to the PS3 client in this regard?

Dr. Pande: Yes, going through CAL has helped a lot in several ways. The calculation is currently a superset of the PS3 1.31 client, but we hope to port some of the new code on GPU2 to the PS3 as well.

—-

http://pc.watch.impress.co.jp/docs/2008/0523/kaigai441.htm

Nehalemに見えるIntel CPUマイクロアーキテクチャの今後

本來Core MA的Loop Detector放在x86 Decoder前、現在Nehalem放在Decoder後。

雖然不是和trace cache一樣的發展方向，但是不同的出發點(Loop Detector)卻走到類似的方向，其實也蠻有趣的就是了。

在〈FAH for CUDA confirm〉中有 30 則留言

stareric表示:

23 5 月, 20089:16 下午

PS3才100 GFLOPS?(理論七成)
看來兩年後連低階GPU都可以超過
更不用說70M對PS3是遠在天邊的裝機量(茶~)

Reply
stareric表示:

23 5 月, 20089:16 下午

PS3才100 GFLOPS?(理論七成)
看來兩年後連低階GPU都可以超過
更不用說70M對PS3是遠在天邊的裝機量(茶~)

Reply
Fri.表示:

23 5 月, 200810:27 下午

圖表座標看不懂該換付眼鏡。
另外 PS3 cell 的運算量是 218GFLOPS，百分比計算上次就說過了，這一次還是算錯……
說到這讓我想到明天就要考國中基測了呢……

Reply
Fri.表示:

23 5 月, 200810:27 下午

圖表座標看不懂該換付眼鏡。
另外 PS3 cell 的運算量是 218GFLOPS，百分比計算上次就說過了，這一次還是算錯……
說到這讓我想到明天就要考國中基測了呢……

Reply
stareric表示:

23 5 月, 200811:20 下午

每個SPU提供25.6 GFLOPS
蛋白質是能讓PS3用到8個嗎?
星期團隊真是給你臉不要臉~等我翻舊帳來電

Reply
stareric表示:

23 5 月, 200811:20 下午

每個SPU提供25.6 GFLOPS
蛋白質是能讓PS3用到8個嗎?
星期團隊真是給你臉不要臉~等我翻舊帳來電

Reply
Eji表示:

24 5 月, 200812:57 上午

那個單位是mol/days ….

Reply
Eji表示:

24 5 月, 200812:57 上午

那個單位是mol/days ….

Reply
Sat.表示:

24 5 月, 20089:09 上午

Folding＠Home 是在 cellos 下運作的，或是說
XMBos 下運作，不過以 PS3 基本保留單一 SPE 維持
cellos 背景運作的情況來說是6顆，另外 PPE 的
38.8 被你自動忽略了。
直接扣除系統保留的一個是比較快的218-25.6=192.4
，不過雖說 PPE 理論運算量比 SPE 高但是效率應該是
相對低很多的。

Reply
Sat.表示:

24 5 月, 20089:09 上午

Folding＠Home 是在 cellos 下運作的，或是說
XMBos 下運作，不過以 PS3 基本保留單一 SPE 維持
cellos 背景運作的情況來說是6顆，另外 PPE 的
38.8 被你自動忽略了。
直接扣除系統保留的一個是比較快的218-25.6=192.4
，不過雖說 PPE 理論運算量比 SPE 高但是效率應該是
相對低很多的。

Reply
Travis表示:

24 5 月, 20089:50 上午

Eji能解释一下你提到的关于Core MA/Nehalem/Netburst的解码端的区别与联系么？

Reply
Travis表示:

24 5 月, 20089:50 上午

Eji能解释一下你提到的关于Core MA/Nehalem/Netburst的解码端的区别与联系么？

Reply
Eji表示:

24 5 月, 20089:56 上午

Core MA是把Loop Stream Detector放在Decoder前面，在Nehalem的時候變成放在Decoder後面，並且加上buffer。
所以對後面的管線而言，等於loop等重複使用的指令會繞過decoder重複執行，從效果來說和Netburst的Trace cache(同樣在Decoder後面)是相同的；但是Intel的人說這只是結果上類似而已，出發點Loop Detector和Trace cache是完全不同的。
要省電的話就得和x86 Decoder遠離一點，在晶片的熱影像上Decoder也是最熱的部分，那麼Decoder顯然也會成為限制時脈調升的瓶頸，Loop Detector和Trace Cache都有讓大量使用單元的指令全速運作的時候，繞過Decoder的用意在。

Reply
Eji表示:

24 5 月, 20089:56 上午

Core MA是把Loop Stream Detector放在Decoder前面，在Nehalem的時候變成放在Decoder後面，並且加上buffer。
所以對後面的管線而言，等於loop等重複使用的指令會繞過decoder重複執行，從效果來說和Netburst的Trace cache(同樣在Decoder後面)是相同的；但是Intel的人說這只是結果上類似而已，出發點Loop Detector和Trace cache是完全不同的。
要省電的話就得和x86 Decoder遠離一點，在晶片的熱影像上Decoder也是最熱的部分，那麼Decoder顯然也會成為限制時脈調升的瓶頸，Loop Detector和Trace Cache都有讓大量使用單元的指令全速運作的時候，繞過Decoder的用意在。

Reply
Eji表示:

24 5 月, 200810:21 上午

http://www.nordichardware.com/news,7777.html
這個單位有寫得比較清楚，雖然不知道mol/day是什麼意思就是了。_A_
實話是，如果 70M 個 CUDA GPU 來個 0.1% 來跑FAH，那真的是會馬上翻盤。
每年1.5億台PC的數量，GeForce8又已經賣了幾乎兩年(和PS3一樣長)，NVIDIA在整個GPU市場有大約25%的佔有率，算一算七千萬個是蠻合理的數字。

Reply
Eji表示:

24 5 月, 200810:21 上午

http://www.nordichardware.com/news,7777.html
這個單位有寫得比較清楚，雖然不知道mol/day是什麼意思就是了。_A_
實話是，如果 70M 個 CUDA GPU 來個 0.1% 來跑FAH，那真的是會馬上翻盤。
每年1.5億台PC的數量，GeForce8又已經賣了幾乎兩年(和PS3一樣長)，NVIDIA在整個GPU市場有大約25%的佔有率，算一算七千萬個是蠻合理的數字。

Reply
MP5表示:

24 5 月, 20086:46 下午

mol 應該是mocular吧？

Reply
MP5表示:

24 5 月, 20086:46 下午

mol 應該是mocular吧？

Reply
MP5表示:

24 5 月, 20086:46 下午

打錯，是molecular.
jyuriko在這裡還是要大力宣傳PPE V.S SPE..呵呵

Reply
MP5表示:

24 5 月, 20086:46 下午

打錯，是molecular.
jyuriko在這裡還是要大力宣傳PPE V.S SPE..呵呵

Reply
Sat.表示:

24 5 月, 20086:58 下午

如果拿設置成本及電力跟運算量來做相比，或許又能得到另一個有趣的圖表了。

Reply
Sat.表示:

24 5 月, 20086:58 下午

如果拿設置成本及電力跟運算量來做相比，或許又能得到另一個有趣的圖表了。

Reply
square99表示:

27 5 月, 200810:08 上午

怪了…nV賣chip賣再好跟PS3有何干?
就算裝機量70M還是沒辦法讓某f701最愛的XB360賣的比gamecube1.5的wii好啊 -o-y~

Reply
square99表示:

27 5 月, 200810:08 上午

怪了…nV賣chip賣再好跟PS3有何干?
就算裝機量70M還是沒辦法讓某f701最愛的XB360賣的比gamecube1.5的wii好啊 -o-y~

Reply
f701表示:

28 5 月, 20081:40 上午

確實NV賣出多少個G8x與主機銷量無關，就算全世界只賣出一張G80，照樣說明Cell 的性能不是invincible。
這才是本則新聞‧還有NVIDIA宣傳的要點。
樓下jyuriko(星期戰隊)開始要宣傳每瓦特性能比了嗎？大歡迎。

Reply
f701表示:

28 5 月, 20081:40 上午

確實NV賣出多少個G8x與主機銷量無關，就算全世界只賣出一張G80，照樣說明Cell 的性能不是invincible。
這才是本則新聞‧還有NVIDIA宣傳的要點。
樓下jyuriko(星期戰隊)開始要宣傳每瓦特性能比了嗎？大歡迎。

Reply
Eji表示:

28 5 月, 20081:54 上午

> 確實NV賣出多少個G8x與主機銷量無關，就算全世界只賣出一張G80，照樣說明Cell 的性能不是invincible。
我倒覺得正好相反：如果一個”不能普及的東西”才能在性能上打倒CELL，實質上就是代表以合理商業化的東西來講CELL是打不倒的。
如果你只是要性能超過CELL的話，去做個專用ASIC要衝出多少性能都是你的，別忘了RSX的那些TMU、ROP等效性能可以把CELL壓得死死的，CELL做這些事情當然就是浪費，但是那有意義嗎？
比方說，我記得兩年以前以色列就有人搞過1TFLOPS的光學晶片….輸出入要用DSP去分析的。
G8x能夠在市場上賣到70M，吃掉25%的PC GPU普及率，所以有足夠的立足點來和CELL比較，我想應該是這樣說才有道理。

Reply
Eji表示:

28 5 月, 20081:54 上午

> 確實NV賣出多少個G8x與主機銷量無關，就算全世界只賣出一張G80，照樣說明Cell 的性能不是invincible。
我倒覺得正好相反：如果一個”不能普及的東西”才能在性能上打倒CELL，實質上就是代表以合理商業化的東西來講CELL是打不倒的。
如果你只是要性能超過CELL的話，去做個專用ASIC要衝出多少性能都是你的，別忘了RSX的那些TMU、ROP等效性能可以把CELL壓得死死的，CELL做這些事情當然就是浪費，但是那有意義嗎？
比方說，我記得兩年以前以色列就有人搞過1TFLOPS的光學晶片….輸出入要用DSP去分析的。
G8x能夠在市場上賣到70M，吃掉25%的PC GPU普及率，所以有足夠的立足點來和CELL比較，我想應該是這樣說才有道理。

Reply
Wed.表示:

28 5 月, 20086:02 下午

說到應用的話
We balance the points based on both speed and the flexibility of the client. The GPU client is still the fastest, but it is the least flexible and can only run a very, very limited set of WU’s. Thus, its points are not linearly proportional to the speed increase. The PS3 takes the middle ground between GPU’s (extreme speed, but at limited types of WU’s) and CPU’s (less speed, but more flexibility in types of WU’s). We have picked the PS3 as the natural benchmark machine for PS3 calculations and set its points per day to 900 to reflect this middle ground between speed (faster than CPU, but slower than GPU) and flexibility (more flexible than GPU, less than CPU).
PS3 跟 GPU 算的東西並不相同，單純以 mol/day 來做比較並不一定正確，等 stanford 那邊放出 FLOPS 的資料會比較可靠一些。
這部分從 CPU 的 4 跟 PS3 的 100 可以較清楚的看出，一般 x86 CPU 就算再不濟也有個 20GFLOPS，應該不會跟 Cell 有 25 倍的差異那麼大。

Reply
Wed.表示:

28 5 月, 20086:02 下午

說到應用的話
We balance the points based on both speed and the flexibility of the client. The GPU client is still the fastest, but it is the least flexible and can only run a very, very limited set of WU’s. Thus, its points are not linearly proportional to the speed increase. The PS3 takes the middle ground between GPU’s (extreme speed, but at limited types of WU’s) and CPU’s (less speed, but more flexibility in types of WU’s). We have picked the PS3 as the natural benchmark machine for PS3 calculations and set its points per day to 900 to reflect this middle ground between speed (faster than CPU, but slower than GPU) and flexibility (more flexible than GPU, less than CPU).
PS3 跟 GPU 算的東西並不相同，單純以 mol/day 來做比較並不一定正確，等 stanford 那邊放出 FLOPS 的資料會比較可靠一些。
這部分從 CPU 的 4 跟 PS3 的 100 可以較清楚的看出，一般 x86 CPU 就算再不濟也有個 20GFLOPS，應該不會跟 Cell 有 25 倍的差異那麼大。

Reply

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

Eji的碎碎念

FAH for CUDA confirm

在〈FAH for CUDA confirm〉中有 30 則留言

發佈留言取消回覆

現在只剩下黑歷史….

在〈FAH for CUDA confirm〉中有 30 則留言

發佈留言 取消回覆

現在只剩下黑歷史….

發佈留言取消回覆