CELL computing Board商品化:BCU-100

http://www.vfxworld.com/?sa=adv&code=3631a5a1&atype=news&id=24377

Sony Unveils New Hybrid Multi-Core Cell Platform

http://www.hpcwire.com/features/Sony_Unveils_Cell-Based_Image_Processing_Appliance.html

Sony Unveils Cell-Based Image Processing Appliance

http://www.terrasoftsolutions.com/news/2008/2008-08-12.shtml

Terra Soft Solutions provides Yellow Dog Linux for Sony ZEGO BCU-100.

http://www.sony.net/SonyInfo/News/Press/200808/08-095E/index.html

Sony to Showcase Innovative “Beyond HD” Content Creation Workflows at “SIGGRAPH 2008”

BCU-100看起來就是上回的CELL computing Board正式產品化,平台名稱為「ZEGO」。 由於是SONY手上的晶片組,CELL+RSX+SCC,不是PowerXCell 8i,所以只能裝XDR、頂多是SCC上頭和CELL computing Board一樣放些DDR2當成SSD使用,那麼會和PS3一樣遇到做某些大規模運算時主記憶體不是很夠的問題。 (此外,當時CELL computing Board的RSX沒有裝GDDR3,直接存取XDR….)

http://www.sony.net/video/cc_player2.swf?flv=http://www.sony.net/video/200808/08-095E/01_01.flv&flvNo=01&flvTitle=undefined&scMode=undefined

當然這玩意兒用途是影像處理,所以其實或許問題並不大,畢竟當初CELL computing Board的測試機就已經高達2GB XDR,SCC的8GB DDR2則是當SSD & I/O buffer使用。

主要的目的是讓CELL在影像處理上可以不用受一些雜務影響….而且現在的ZEGO BCU-100只有10個XDR chip的關係,看來頂多是512MB XDR。

所以STI三家廠商的路線都已經很明顯了:手上有RSX的SONY走影像處理、Toshiba透過製程與設計能力做SpursEngine、IBM在HPC市場做eDP產品(PowerXCell)。

但是從Larrabee和CUDA的速度,大家看得出來PC市場實在衝得很快….CELL麻煩大啦。

[EDIT]

http://www.watch.impress.co.jp/av/docs/20080818/sony2.htm

ソニー、CellとRSXを用いた業務用のCGワークステーション

-4Kデータのリアルタイムエンコード/デコード対応

日本整整晚一周。

在〈CELL computing Board商品化:BCU-100〉中有 30 則留言

  1. >(當時CELL computing Board的RSX沒有XDR….)
    應該是RSX沒有連接任何記憶體(包含GDDR3)吧?
    而是透過FlexIO來讀取XDR的…
    小弟沒記錯的話,
    CELL computing Board的SCC頻寬也比PS3來的高_A_?

  2. >(當時CELL computing Board的RSX沒有XDR….)
    應該是RSX沒有連接任何記憶體(包含GDDR3)吧?
    而是透過FlexIO來讀取XDR的…
    小弟沒記錯的話,
    CELL computing Board的SCC頻寬也比PS3來的高_A_?

  3. 這應該是用來offline rendering?
    如果是這樣,那RSX應該只是負責顯示而已.
    大部分計算都是用CPU軟體去算.
    算完透過RSX做輸出,所以拿掉GDDR以減少成本.
    offline rendering主記憶體數量比較重要,
    所以XDR多了很多顆.
    230Gglops應該只算CELL而已.
    (RSX的shader3.0規格太低,不適合做高精度
    的offline rendering.)
    不過即使疊了十個zego.運算量也只有2.3T
    連已上市的HD4870X2單卡都……orz
    跟GPU廠商提出的solution,
    GPU多核心多卡SLI相比,CELL這邊進步的幅度
    實在太慢了.

  4. 這應該是用來offline rendering?
    如果是這樣,那RSX應該只是負責顯示而已.
    大部分計算都是用CPU軟體去算.
    算完透過RSX做輸出,所以拿掉GDDR以減少成本.
    offline rendering主記憶體數量比較重要,
    所以XDR多了很多顆.
    230Gglops應該只算CELL而已.
    (RSX的shader3.0規格太低,不適合做高精度
    的offline rendering.)
    不過即使疊了十個zego.運算量也只有2.3T
    連已上市的HD4870X2單卡都……orz
    跟GPU廠商提出的solution,
    GPU多核心多卡SLI相比,CELL這邊進步的幅度
    實在太慢了.

  5. > 應該是RSX沒有連接任何記憶體(包含GDDR3)吧?
    > 而是透過FlexIO來讀取XDR的…
    > 小弟沒記錯的話,
    > CELL computing Board的SCC頻寬也比PS3來的高_A_?
    XDR那是我筆誤XD
    不過SCC只有HDMI 1.2a的關係,要輸出比較大的解析度(比方說上4096×2160)的話,裝RSX是比較方便。
    事實上應該說,SCC如果沒有接DDR2的話,只要接2.5GB/s雙向就太夠用了;然後接DDR2-533的時候,頻寬自然要高一點,不過這種頻寬的確是只能當SSD用了….XD
    XDR其實沒有多很多顆,從4顆變成8顆而已(另外兩個是ECC),顯然是從16bit四顆變成8bit 八顆,這樣的話如果是512Mbit就只有512MB,或者是1Gbit 的1GB。
    至於有沒有GDDR3老實說是看不出來,因為RSX是MCM,規格沒寫的話,沒有掀開鐵蓋不知道是不是真的沒有,其實以用途來說有和沒有是差異不大就是了,省下來省成本也不錯。
    230GFLOPS是只有CELL的數字沒有錯,offline rendering或是video processing都有可能,畢竟SONY先前在Siggraph07作的demo是高解析的JPEG2000壓縮….
    1U的話密集度稍微低一點,如果是Blade Center的話5U可以放16張blade,相對起來會高一點;但是要這樣說的話,Tesla用GT200的話1U就已經4TFLOPS啦…._A_)a
    不過重點並不是那個raw performance效率,CELL的SPE架構和其他GPU也不太一樣,還是不能一概而論。
    不過SPE的DMA要自己起始,傳輸內容要自己切成最大16KB的一堆小單位,LS又切成四塊64KB,所以看放的位置不同有時候存取會打架(其實就是program、data、I/O double buffer剛好切開)….總之SPE還是不少限制,對”找新用途來做”是比較麻煩;只是已經知道用途然後要做特化程式,比方說HPC用途的話,其實表現是會很好的,GPU在這些用途也常常發揮不出理論性能,那些理論數字不是一定就跑得出來的。
    —-
    >跟GPU廠商提出的solution,
    >GPU多核心多卡SLI相比,CELL這邊進步的幅度
    >實在太慢了.
    應該說,由於一開始是給PS3用,2004年就tapeout、但是2006年底才上市的CELL,這段時間以來除了微縮之外並沒有額外的進步…. 但是那些GPU規模都是每年一路往上爬的,不論是單晶片還是多晶片solution,總之規模都是一路換製程往上衝,所以方向不一樣啊。_A_
    即使是PowerXCell 32iv,die size大概也是維持在和目前CELL差不多的250mm^2前後;但是2010年那時候的GPU產品我想大概免不了要大得多了。
    所以某種意味上,如果當初CELL Visualizer真的做出來的話,硬是拿來GPU市場競爭說不定真的有辦法活也說不定,因為就可以乘著PC GPU市場的前進步調走了。

  6. > 應該是RSX沒有連接任何記憶體(包含GDDR3)吧?
    > 而是透過FlexIO來讀取XDR的…
    > 小弟沒記錯的話,
    > CELL computing Board的SCC頻寬也比PS3來的高_A_?
    XDR那是我筆誤XD
    不過SCC只有HDMI 1.2a的關係,要輸出比較大的解析度(比方說上4096×2160)的話,裝RSX是比較方便。
    事實上應該說,SCC如果沒有接DDR2的話,只要接2.5GB/s雙向就太夠用了;然後接DDR2-533的時候,頻寬自然要高一點,不過這種頻寬的確是只能當SSD用了….XD
    XDR其實沒有多很多顆,從4顆變成8顆而已(另外兩個是ECC),顯然是從16bit四顆變成8bit 八顆,這樣的話如果是512Mbit就只有512MB,或者是1Gbit 的1GB。
    至於有沒有GDDR3老實說是看不出來,因為RSX是MCM,規格沒寫的話,沒有掀開鐵蓋不知道是不是真的沒有,其實以用途來說有和沒有是差異不大就是了,省下來省成本也不錯。
    230GFLOPS是只有CELL的數字沒有錯,offline rendering或是video processing都有可能,畢竟SONY先前在Siggraph07作的demo是高解析的JPEG2000壓縮….
    1U的話密集度稍微低一點,如果是Blade Center的話5U可以放16張blade,相對起來會高一點;但是要這樣說的話,Tesla用GT200的話1U就已經4TFLOPS啦…._A_)a
    不過重點並不是那個raw performance效率,CELL的SPE架構和其他GPU也不太一樣,還是不能一概而論。
    不過SPE的DMA要自己起始,傳輸內容要自己切成最大16KB的一堆小單位,LS又切成四塊64KB,所以看放的位置不同有時候存取會打架(其實就是program、data、I/O double buffer剛好切開)….總之SPE還是不少限制,對”找新用途來做”是比較麻煩;只是已經知道用途然後要做特化程式,比方說HPC用途的話,其實表現是會很好的,GPU在這些用途也常常發揮不出理論性能,那些理論數字不是一定就跑得出來的。
    —-
    >跟GPU廠商提出的solution,
    >GPU多核心多卡SLI相比,CELL這邊進步的幅度
    >實在太慢了.
    應該說,由於一開始是給PS3用,2004年就tapeout、但是2006年底才上市的CELL,這段時間以來除了微縮之外並沒有額外的進步…. 但是那些GPU規模都是每年一路往上爬的,不論是單晶片還是多晶片solution,總之規模都是一路換製程往上衝,所以方向不一樣啊。_A_
    即使是PowerXCell 32iv,die size大概也是維持在和目前CELL差不多的250mm^2前後;但是2010年那時候的GPU產品我想大概免不了要大得多了。
    所以某種意味上,如果當初CELL Visualizer真的做出來的話,硬是拿來GPU市場競爭說不定真的有辦法活也說不定,因為就可以乘著PC GPU市場的前進步調走了。

  7. Sony 推這東西主要還是跟他們的軟體資源有配合吧! 如 Sony vegas 的後製軟體,Sony PCL 的 authoring 跟 SPE 的電影技術部門,配軟體出機或是單純的只賣給自己的子公司都是有可能的,CUDA 或是 4870 這方面沒有現成的市場,另外一方面也要去說服廠商把東西轉往他們的平台上,如 Cuda for premiere plug-in,另一方面是在速度外品質的要求,Sony 能賣這種高價的東西應該還是配著自家的軟體或是攝影器材當做一整個方案在賣的,要說效能/價格比可能不是很漂亮,但是考量到整體的系統建立成本跟後續的 support 情況又不一樣了。

  8. Sony 推這東西主要還是跟他們的軟體資源有配合吧! 如 Sony vegas 的後製軟體,Sony PCL 的 authoring 跟 SPE 的電影技術部門,配軟體出機或是單純的只賣給自己的子公司都是有可能的,CUDA 或是 4870 這方面沒有現成的市場,另外一方面也要去說服廠商把東西轉往他們的平台上,如 Cuda for premiere plug-in,另一方面是在速度外品質的要求,Sony 能賣這種高價的東西應該還是配著自家的軟體或是攝影器材當做一整個方案在賣的,要說效能/價格比可能不是很漂亮,但是考量到整體的系統建立成本跟後續的 support 情況又不一樣了。

  9. >Sony 推這東西主要還是跟他們的軟體資源有配合吧!
    > 考量到整體的系統建立成本跟後續的 support 情況又不一樣了。
    這倒是真的,SONY當初Siggraph07上demo的時候是和他們的數位劇院標準設備(DCI)一起demo的,而且它們等於已經在自己的製作流程裡面驗證過了,但是CUDA、Tesla和FireStream目前都在找小公司port工具的狀況;當然Intel已經把夢工廠都找來了,那就比較可怕些。
    想想CELL做denoise、upscale因為PS3已經算是一戰成名了….這東西很可能表現會比目前業界標準的HQV還要好得多。

  10. >Sony 推這東西主要還是跟他們的軟體資源有配合吧!
    > 考量到整體的系統建立成本跟後續的 support 情況又不一樣了。
    這倒是真的,SONY當初Siggraph07上demo的時候是和他們的數位劇院標準設備(DCI)一起demo的,而且它們等於已經在自己的製作流程裡面驗證過了,但是CUDA、Tesla和FireStream目前都在找小公司port工具的狀況;當然Intel已經把夢工廠都找來了,那就比較可怕些。
    想想CELL做denoise、upscale因為PS3已經算是一戰成名了….這東西很可能表現會比目前業界標準的HQV還要好得多。

  11. x86 的繪圖平台一直佔有很大的市場吧! 很多電影公司都有用 intel 的產品,包括 SONY 本身也不例外,多數的 renderware 都支援 x86,同樣的外掛也是,不管是現在或是未來要其他產品完全的取代 x86 平台都是很困難的事,這並不是光靠運算量的數字就能改變的。
    同樣的 Cell 要去取代 x86 平台也是相當的困難,除了 SPE 外短期內應該不會有什麼片廠去用他,但是除了 3D render 外,要用到電腦的地方還頗多的。光是以後製來說 Cell 跑即時 upconvert 勝過 Air 找專門的後製公司來處理就很明白了,我花大錢建立的環境可能不及你用一個 Cell 配上你的後製軟體要來的好,廠商自然也不是傻的。
    denoise、upscale 都還在進步,純粹跑模擬要做到比 PS3 好應該不是難事,問題是能否變成產品,多數的東西最後都因無法產品化而消失在世上,Cell/PS3 某方面來說很適合幫他們驗證新演算法的可行性,對後續產品的研發也有幫助。

  12. x86 的繪圖平台一直佔有很大的市場吧! 很多電影公司都有用 intel 的產品,包括 SONY 本身也不例外,多數的 renderware 都支援 x86,同樣的外掛也是,不管是現在或是未來要其他產品完全的取代 x86 平台都是很困難的事,這並不是光靠運算量的數字就能改變的。
    同樣的 Cell 要去取代 x86 平台也是相當的困難,除了 SPE 外短期內應該不會有什麼片廠去用他,但是除了 3D render 外,要用到電腦的地方還頗多的。光是以後製來說 Cell 跑即時 upconvert 勝過 Air 找專門的後製公司來處理就很明白了,我花大錢建立的環境可能不及你用一個 Cell 配上你的後製軟體要來的好,廠商自然也不是傻的。
    denoise、upscale 都還在進步,純粹跑模擬要做到比 PS3 好應該不是難事,問題是能否變成產品,多數的東西最後都因無法產品化而消失在世上,Cell/PS3 某方面來說很適合幫他們驗證新演算法的可行性,對後續產品的研發也有幫助。

  13. 當初CELL Visualizer真的做出來的話
    4PPE,16SPE,一堆TMU等fixed function的
    ….起碼是CELL的4倍以上
    (如果PPE和SPE規格不變,沒有砍掉部分指令或LS容量)
    粗略推測恐怕是0.8B~1.0B等級電晶體的東西
    也就是說那會是尺寸接近HD4870等級的晶片.
    成本降到市場能接受時,也差不多現在這個時候.
    但是其shader運算能力即使是4Ghz,還只有0.5+Tflops……
    CELL Visualizer應該是for offline rendering
    比較能發揮,跟PC GPU沒辦法直接競爭.

  14. 當初CELL Visualizer真的做出來的話
    4PPE,16SPE,一堆TMU等fixed function的
    ….起碼是CELL的4倍以上
    (如果PPE和SPE規格不變,沒有砍掉部分指令或LS容量)
    粗略推測恐怕是0.8B~1.0B等級電晶體的東西
    也就是說那會是尺寸接近HD4870等級的晶片.
    成本降到市場能接受時,也差不多現在這個時候.
    但是其shader運算能力即使是4Ghz,還只有0.5+Tflops……
    CELL Visualizer應該是for offline rendering
    比較能發揮,跟PC GPU沒辦法直接競爭.

  15. > RSX有256MB的GDDR3…_A_
    看來拿掉還是有差….XD
    不過反過來說,512MB XDR+ 256MB GDDR3的PS3原來就這麼威了啊。

  16. > RSX有256MB的GDDR3…_A_
    看來拿掉還是有差….XD
    不過反過來說,512MB XDR+ 256MB GDDR3的PS3原來就這麼威了啊。

  17. >512MB XDR+ 256MB GDDR3的PS3原來就這麼威了啊。
    開發機嗎?
    沒記錯的話,
    開發機的GDDR3有512MB吧_A_?
    用1GB的XDR應該是為了安裝Linux用的吧?

  18. >512MB XDR+ 256MB GDDR3的PS3原來就這麼威了啊。
    開發機嗎?
    沒記錯的話,
    開發機的GDDR3有512MB吧_A_?
    用1GB的XDR應該是為了安裝Linux用的吧?

  19. > 開發機嗎?
    > 沒記錯的話,
    > 開發機的GDDR3有512MB吧_A_?
    開發機是512MB + 256MB而已喔,512MB GDDR3是早期G70直接插上SSC的PCIe x4才有的。
    而RSX都是256MB封裝。
    結果我猜錯了,BCU-100有1GB XDR….

  20. > 開發機嗎?
    > 沒記錯的話,
    > 開發機的GDDR3有512MB吧_A_?
    開發機是512MB + 256MB而已喔,512MB GDDR3是早期G70直接插上SSC的PCIe x4才有的。
    而RSX都是256MB封裝。
    結果我猜錯了,BCU-100有1GB XDR….

  21. 它打算用CELL做MentalRay軟體算圖….
    RSX只是用來2D顯示而已,有沒有那GDDR其實沒啥
    影響,CELL也不會去讀寫GDDR.
    保留GDDR的原因可能只是使用現成的庫存?
    RSX已經生產上千萬顆,成本很低了.
    砍掉GDDR反而要另外改生產線不划算吧.
    強化最多之處就是主記憶體1GB.
    且SCC另外還接上1GB DDR2.
    是否那版本的CELL只能支援1GB?
    否則直接上2GB的XDR會比較有效率.

  22. 它打算用CELL做MentalRay軟體算圖….
    RSX只是用來2D顯示而已,有沒有那GDDR其實沒啥
    影響,CELL也不會去讀寫GDDR.
    保留GDDR的原因可能只是使用現成的庫存?
    RSX已經生產上千萬顆,成本很低了.
    砍掉GDDR反而要另外改生產線不划算吧.
    強化最多之處就是主記憶體1GB.
    且SCC另外還接上1GB DDR2.
    是否那版本的CELL只能支援1GB?
    否則直接上2GB的XDR會比較有效率.

  23. > 它打算用CELL做MentalRay軟體算圖….
    其實我以為MentalRay for CELL的計畫隨著被NVIDIA買下而消失了,原來還在XD
    RSX用現有存貨這點很同意,即使是簡化仍然是另作處理,不見得比較便宜。
    > 是否那版本的CELL只能支援1GB?
    > 否則直接上2GB的XDR會比較有效率.
    總共是10GB:
    1. XDR 1GB on CELL
    2. DDR2 1GB on SCC’s DDR2 interface
    3. 8GB on SCC’s PCIe x4
    後兩者的總和雖然高達9GB,可是都要透過5GB/s雙向的頻寬去走,所以老實說是當成SSD使用的機會比較大。
    應該不是CELL造成只能支援1GB,目前CELL最大的實體定址線路限制是64GB(透過轉接成DDR2話容量會變成只有16GB DDR2,目前PowerXCell 8i是內部轉接);但是實際XDR的顆粒容量就很可能影響,XDR目前只有總容量1Gbit和512Mbit兩個容量的顆粒,界面寬度則從16bit、8bit、4bit、到2bit。
    PS3用32Mbit x 16bit的顆粒,總共四顆;先前RoadRunner計畫拿出2bit寬的1Gbit顆粒過,這樣可以達到最大2GB XDR,但是這樣需要32顆XDR顆粒,顯然成本太高。
    考慮總共10顆,他們用的應該是 128Mbit x 8bit(1Gbit)顆粒 8個、還有ECC用的兩個128Mbit x 4bit (512Mbit)顆粒。

  24. > 它打算用CELL做MentalRay軟體算圖….
    其實我以為MentalRay for CELL的計畫隨著被NVIDIA買下而消失了,原來還在XD
    RSX用現有存貨這點很同意,即使是簡化仍然是另作處理,不見得比較便宜。
    > 是否那版本的CELL只能支援1GB?
    > 否則直接上2GB的XDR會比較有效率.
    總共是10GB:
    1. XDR 1GB on CELL
    2. DDR2 1GB on SCC’s DDR2 interface
    3. 8GB on SCC’s PCIe x4
    後兩者的總和雖然高達9GB,可是都要透過5GB/s雙向的頻寬去走,所以老實說是當成SSD使用的機會比較大。
    應該不是CELL造成只能支援1GB,目前CELL最大的實體定址線路限制是64GB(透過轉接成DDR2話容量會變成只有16GB DDR2,目前PowerXCell 8i是內部轉接);但是實際XDR的顆粒容量就很可能影響,XDR目前只有總容量1Gbit和512Mbit兩個容量的顆粒,界面寬度則從16bit、8bit、4bit、到2bit。
    PS3用32Mbit x 16bit的顆粒,總共四顆;先前RoadRunner計畫拿出2bit寬的1Gbit顆粒過,這樣可以達到最大2GB XDR,但是這樣需要32顆XDR顆粒,顯然成本太高。
    考慮總共10顆,他們用的應該是 128Mbit x 8bit(1Gbit)顆粒 8個、還有ECC用的兩個128Mbit x 4bit (512Mbit)顆粒。

  25. >開發機是512MB + 256MB而已喔
    這是量產版的PS3該有多好,
    這樣小弟在Linux上就不會有記憶體過少的煩惱了…Orz
    千萬別教我用終端機模式XD

  26. >開發機是512MB + 256MB而已喔
    這是量產版的PS3該有多好,
    這樣小弟在Linux上就不會有記憶體過少的煩惱了…Orz
    千萬別教我用終端機模式XD

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料