當前位置:工程項目OA系統(tǒng) > OA系統(tǒng)企業(yè)版 > 相關軟件 > 上網(wǎng)行為管理軟件
四大要訣做好數(shù)據(jù)中心維護
數(shù)據(jù)中心要保持穩(wěn)定的運行,需要大量的專業(yè)技術人員。一般承擔重要業(yè)務的數(shù)據(jù)中心都是有人24小時值守,無人值守的數(shù)據(jù)中心一般只能承擔不重要業(yè)務,完全無人管理維護的數(shù)據(jù)中心幾乎沒有。所以數(shù)據(jù)中心日常維護工作煩瑣,但又很重要。隨著人們的工作生活對數(shù)據(jù)的完全依賴,承載數(shù)據(jù)計算、運行的數(shù)據(jù)中心正發(fā)揮著越來越重要的作用,這更突顯出維護工作的重要。
當一個數(shù)據(jù)中心建成投產后,維護工作就開始了,一直到數(shù)據(jù)中心的生命周期結束。一般我們可以將數(shù)據(jù)中心維護工作分為四大類:一是日常檢查類;二是應用變更、部署類;三是軟、硬件升級類;四是突發(fā)故障處理類,下面就來詳細說一說這些維護工作,讓大家對維護工作有個了解。
日常檢查
“千里之堤,潰于蟻穴”。任何的故障在出現(xiàn)之前都可能會有所表現(xiàn),小的隱患不消除,可能導致重大的故障出現(xiàn),所以數(shù)據(jù)中心日常的例行檢查工作枯燥,但也很重要,可以及時發(fā)現(xiàn)一些運行中的隱患。根據(jù)數(shù)據(jù)中心承載業(yè)務重要性的不同,要對數(shù)據(jù)中心里的所有運行的設備進行例行檢查。一些數(shù)據(jù)中心設備廠商提供了檢查軟件,比如網(wǎng)管軟件,安全防護軟件等。可以利用這些軟件對數(shù)據(jù)中心網(wǎng)絡進行檢查,看日志是否有異常告警,網(wǎng)絡是否出現(xiàn)過短時中斷,端口是否出現(xiàn)UP/DOWN等。通過網(wǎng)絡探測軟件看網(wǎng)絡質量如何。檢查服務器應用服務是否正常,CPU內存等利用率是否正常。對應用業(yè)務進行檢查,比如如果有搜索業(yè)務,就可以通過服務器進行單詞搜索,看搜索的結果和延遲是否在正常的范圍之內。這些檢查每日都要重復檢查,一旦有異常及時處理與消除,必要時將重要業(yè)務切換到備用環(huán)境中,然后排除后再切回。
對數(shù)據(jù)中心的機房環(huán)境也要進行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求。空調、供電系統(tǒng)進行運行良好,設備運行是否過熱,地板、天窗、消防、監(jiān)控都是檢查的部分。不合理的地方要及時進行整改,而不應該偷懶。經(jīng)常到一些數(shù)據(jù)中心,就會發(fā)現(xiàn)值班維護人員很多都抱著電腦在瀏覽網(wǎng)頁,打游戲。對于日常檢查應付一下,甚至根本不去檢查,只要沒有出現(xiàn)故障,就打游戲消耗時間,這樣數(shù)據(jù)中心出現(xiàn)故障是遲早的事。一旦出現(xiàn)故障就毛手毛腳,甚至哪個業(yè)務走的哪個設備,哪個端口哪個網(wǎng)線都不清楚,本來一個小故障可能因為不熟悉導致大故障,因此日常檢查絕不能應付,雖然需要不斷重復,但卻很重要,在持續(xù)的檢查過程中,將會對數(shù)據(jù)中心的理解越來越深,這樣每次檢查都會有新的發(fā)現(xiàn),在檢查中進行學習。
應用變更
數(shù)據(jù)中心承載的業(yè)務不會是一成不變的,隨著業(yè)務的多樣化,經(jīng)常要對業(yè)務進行調整,包括服務器和網(wǎng)絡的設置。因此要對服務器和網(wǎng)絡設備操作很熟悉,主要需要掌握Linux服務器命令和網(wǎng)絡協(xié)議。要根據(jù)應用的需要,做出變更。這時就對維護人員提出了更高的要求,不僅是對數(shù)據(jù)中心原有業(yè)務要非常熟悉,還要對新上的應用業(yè)務有正確的理解,這樣才能在不影響原有業(yè)務的基礎上做調整。這樣的應用變更每個月可能都要做幾次,是數(shù)據(jù)中心維護人員的必修課,突顯了一個技術人員的基本技能水平。這時要對設備操作命令比較熟悉,懂得如何實現(xiàn)業(yè)務,要經(jīng)常和設備廠商的技術人員打交道,通過交流盡快掌握設備操作方法。同時,由于設備廠商對應用業(yè)務缺乏了解,這就需要維護人員在應用業(yè)務和設備具體實現(xiàn)之間做好協(xié)調,處理。以最快的時間和最小的代價完成應用業(yè)務部署。
軟硬件升級
數(shù)據(jù)中心的設備一般運行周期是五年,不斷地有設備需要逐漸淘汰進行更換,也有一些設備因為存在軟件缺陷需要升級,因此軟硬件升級也是維護工作的一部分,尤其是軟硬件出現(xiàn)故障時,就必須要進行更換。有時為了不影響業(yè)務,往往還需要設備廠商提供軟件補丁來解決問題。數(shù)據(jù)中心的設備成百上千,出現(xiàn)軟硬件故障很正常,所以要不斷地進行軟硬件升級,這類工作往往都要在業(yè)務量最少的凌晨之后進行,維護人員通宵熬夜是常有的事,維護人員要有一個良好的身體素質,否則會吃不消。軟硬件升級時需要做好回退機制,以防升級出現(xiàn)問題時無法回退,業(yè)務長時間無法恢復。當接手數(shù)據(jù)中心維護工作就會發(fā)現(xiàn),怎么會有那么多的升級,幾乎每個月都要有升級操作,熬夜升級工作成了維護人員的家常便飯。
突發(fā)故障
沒有任何一個數(shù)據(jù)中心是不出故障的,在數(shù)據(jù)中心運行的過程中都會出現(xiàn)這樣那樣的問題。這時就顯示出維護人員的高技能水平,根據(jù)統(tǒng)計百分之八十的故障都是人為故障,所以維護人員的水平高低往往決定了一個數(shù)據(jù)中心運行的穩(wěn)定程度。另外對于突發(fā)故障,高水平的維護人員可以靜下心來冷靜分析故障的觸發(fā)原因,迅速找到解決的方法,如果在短時間內找不到解決方法,也可以通過切換到備用設備上先恢復業(yè)務,再進行分析。這時擁有高水平的維護人員對于一個數(shù)據(jù)中心至關重要,在關鍵時刻就能派上用場。
雖然這些工作看起來有些平常,但千萬別小看它們。數(shù)據(jù)中心維護工作實際上非常重要,關乎著整個數(shù)據(jù)中心業(yè)務的正常運行。目前市場上這類專業(yè)人才非常搶手,尤其對于具有較深故障排查水平的人才比較缺乏。只有重視數(shù)據(jù)中心的維護工作,才能給數(shù)據(jù)中心一個平安。
本文來自互聯(lián)網(wǎng),僅供參考- 1IT運維管理為何陷入人力成本困境?
- 2IT運維管理的發(fā)展趨勢之自動化運維
- 3一體化網(wǎng)絡之上網(wǎng)行為管理系統(tǒng)如何設計?
- 4網(wǎng)管員必知:常用電腦密碼破解
- 5網(wǎng)管經(jīng)驗實例:交換機頻繁掉線的分析與解決
- 6IT運維服務管理中知識管理的概念及方法
- 7系統(tǒng)運維人員如何解決突發(fā)性故障?
- 8綜合布線系統(tǒng)線纜如何挑選
- 9網(wǎng)絡運維管理的好幫手:IIS日志
- 10高級網(wǎng)管的網(wǎng)絡管理經(jīng)驗
- 11教你優(yōu)化網(wǎng)絡連接技巧
- 12虛擬網(wǎng)絡管理面臨多種挑戰(zhàn)
- 13網(wǎng)管必知:IP協(xié)議、ARP協(xié)議和RARP協(xié)議
- 14IP網(wǎng)絡安全管理的主要問題總結
- 15大數(shù)據(jù)中心日常維護工作總結
- 16WLAN速度優(yōu)化策略大放送
- 17CIO如何應對2013大數(shù)據(jù)元年
- 18網(wǎng)絡分段的優(yōu)缺點及挑戰(zhàn)
- 19測量上網(wǎng)行為管理系統(tǒng)性能的三種方法
- 20CIO必知:IT省錢那些招兒
- 21上網(wǎng)行為管理系統(tǒng)工作原理:魔法背后的技術
- 22綜合布線系統(tǒng)三種設計等級之間的差異
- 23網(wǎng)絡管理員知識:服務器機房維護與管理詳談
- 24關于泛普BTDM
- 25Gartner:2017年公有云服務市場將達1310億美元
- 26 網(wǎng)絡管理員必懂的路由器基礎知識
- 27寬帶路由器死機的四大原因
- 28IT人,如何幫企業(yè)進行合理的信息化建設
- 29IDC最新研報:大數(shù)據(jù)在2020年
- 30IT運維管理經(jīng)驗:提高企業(yè)云計算安全的辦法
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓