監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

如何管理大規(guī)模集群的軟硬件資源

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來(lái)源:泛普軟件

全球超級(jí)計(jì)算機(jī)Top500榜單讓人們重新對(duì)Linpack值、對(duì)最快計(jì)算機(jī)等話題燃起熱度,中石油東方地球物理公司研究院處理中心總工程師賴能和在2009英特爾高性能計(jì)算研討會(huì)上從用戶的角度告訴我們,除了超級(jí)計(jì)算機(jī)的運(yùn)行速度和規(guī)模,系統(tǒng)的軟硬件資源管理也是擺在面前的一個(gè)困難的問(wèn)題。  

問(wèn)題的提出

賴能和在研討會(huì)上的演講中介紹說(shuō),東方公司的集群軟硬件資源已形成規(guī)?;枰茖W(xué)的管理辦法,過(guò)去幾百顆CPU很好管理,現(xiàn)在幾千顆、幾萬(wàn)顆CPU的話再用原來(lái)的方法就不適用了;同時(shí)應(yīng)用效率低下,運(yùn)營(yíng)成本快速增長(zhǎng)以及生產(chǎn)與設(shè)備的安全問(wèn)題也在困擾著他們。

目前東方公司有將近1.5萬(wàn)顆CPU、大概28014個(gè)核的大型集群,占據(jù)了整個(gè)中石油所有核數(shù)的46.2%,因此遇到了很多困難:

1、 機(jī)柜很多,節(jié)點(diǎn)也很多,壞了也不清楚,使用情況無(wú)法及時(shí)掌握;

2、 存儲(chǔ)陣列很多,無(wú)法做預(yù)防性維護(hù);交換機(jī)也很多,出現(xiàn)網(wǎng)絡(luò)問(wèn)題后很難判斷在哪里出現(xiàn)問(wèn)題;

3、 數(shù)據(jù)交換機(jī)很多,出現(xiàn)問(wèn)題后很難判斷出問(wèn)題出現(xiàn)在哪里;

4、 沒(méi)有科學(xué)、合理的調(diào)度和管理手段

賴能和表示,PC集群計(jì)算理論峰值和實(shí)際應(yīng)用效率和性能差距很大,各家公司都在大規(guī)模投資。東方公司從2004年的將近一個(gè)億,一路飆升至2008年的1.47億,不僅投入龐大,折舊也很嚴(yán)重,BGP每年從2006年開始折舊達(dá)4000萬(wàn),2007年八千萬(wàn),2008年就突破一億了。

不僅如此,運(yùn)營(yíng)成本也居高不下。2005年,BGP的電費(fèi)在330萬(wàn)左右,這一數(shù)字到了2008年升至1101萬(wàn)。同時(shí),生產(chǎn)與設(shè)備的安全問(wèn)題也開始逐漸顯現(xiàn)出來(lái)。

如何解決問(wèn)題

為此,BGP引入了數(shù)字化管理技術(shù),著重在以下四個(gè)方面加強(qiáng)資源的管理:

1、開發(fā)數(shù)字化管理軟件平臺(tái),實(shí)現(xiàn)所有運(yùn)行項(xiàng)目的數(shù)字化管理;

2、開發(fā)CPU資源管理平臺(tái);

3、開發(fā)從存儲(chǔ)和網(wǎng)絡(luò)管理軟件,實(shí)現(xiàn)所有存儲(chǔ)資源的遠(yuǎn)程集中監(jiān)控;

4、開發(fā)UPS、空調(diào)實(shí)時(shí)監(jiān)控軟硬件,確保設(shè)備安全:這幾天北京溫度很高,數(shù)據(jù)中心也出現(xiàn)了報(bào)警,機(jī)房溫度出現(xiàn)了問(wèn)題;

對(duì)機(jī)房的安全,賴能和稱,每個(gè)機(jī)房的關(guān)鍵位置都有攝像頭保持一個(gè)月的監(jiān)控。

對(duì)HPC需求的展望

賴能和在會(huì)上從BGP的實(shí)際應(yīng)用中向大家闡述了高性能計(jì)算的發(fā)展趨勢(shì):

1、 多核CPU技術(shù)的刀片已成為HPC的發(fā)展趨勢(shì);

2、 GPU技術(shù)為地球物理高密度運(yùn)算和可視化處理帶來(lái)新的機(jī)會(huì):隨著地震軟件商的支持,有可能會(huì)使可視化處理、解釋系統(tǒng)、疊前偏移、速度建模等變得更有效率;GPU將加快計(jì)算、數(shù)據(jù)、信息可視化,實(shí)現(xiàn)圖像分析、模式識(shí)別等的完美結(jié)合,問(wèn)題出在沒(méi)有軟件支持;

3、 高密度多路服務(wù)器技術(shù)將成為地震綜合解釋研究新的應(yīng)用平臺(tái)

4、 萬(wàn)兆以太網(wǎng)將給HPC的發(fā)展帶來(lái)新的生機(jī):2011年和2018年會(huì)出現(xiàn)大的技術(shù)變革

5、 高效能綠色數(shù)據(jù)中心建設(shè)成為新的熱點(diǎn):開發(fā)和應(yīng)用自適應(yīng)節(jié)能降耗管理軟件,動(dòng)態(tài)調(diào)整服務(wù)器運(yùn)行狀態(tài),一年可節(jié)約電費(fèi)幾百萬(wàn);應(yīng)用虛擬化技術(shù)提供集中管理和移動(dòng)辦公

6、 復(fù)雜地震成像等技術(shù)的發(fā)展與應(yīng)用將需要更多的GPU。

賴能和表示,未來(lái)三年在BGP用于地震數(shù)據(jù)處理CPU核數(shù)至少需要增加1.5倍,也就是說(shuō),2012年底CPU總核數(shù)將達(dá)到5W,這將給高性能計(jì)算帶來(lái)更大的挑戰(zhàn)。(chinabyte)

發(fā)布:2007-04-21 11:51    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:

泛普沈陽(yáng)OA行業(yè)資訊其他應(yīng)用

沈陽(yáng)OA軟件 沈陽(yáng)OA新聞動(dòng)態(tài) 沈陽(yáng)OA信息化 沈陽(yáng)OA快博 沈陽(yáng)OA行業(yè)資訊 沈陽(yáng)軟件開發(fā)公司 沈陽(yáng)門禁系統(tǒng) 沈陽(yáng)物業(yè)管理軟件 沈陽(yáng)倉(cāng)庫(kù)管理軟件 沈陽(yáng)餐飲管理軟件 沈陽(yáng)網(wǎng)站建設(shè)公司