大家一定對這樣的情景再熟悉不過:用戶忙不迭地向服務臺打電話求助,一個勁抱怨產(chǎn)品之愚蠢與狀況之糟糕;然而調(diào)查之后的結論卻是,這要么完全是一場誤會、要么就是用戶自己造成的。既然用戶都能造成這種程度的破壞,那么一位來自IT部門的專家如果犯錯,又會搞出怎樣的麻煩呢?相信這家伙一定會大大地出名——而他所帶來的問題將成為引發(fā)其它眾多問題的根源。
大家一定對這樣的情景再熟悉不過:用戶忙不迭地向服務臺打電話求助,一個勁抱怨產(chǎn)品之愚蠢與狀況之糟糕;然而調(diào)查之后的結論卻是,這要么完全是一場誤會、要么就是用戶自己造成的。既然用戶都能造成這種程度的破壞,那么一位來自IT部門的專家如果犯錯,又會搞出怎樣的麻煩呢?相信這家伙一定會大大地出名——而他所帶來的問題將成為引發(fā)其它眾多問題的根源。
故事背景
在這個經(jīng)典故事發(fā)生之時,我正為某家規(guī)模巨大的非美國國有機構工作。當時機構中的某位IT專家——我們姑且稱他為“Robert”——接到一項任務,即將主數(shù)據(jù)中心內(nèi)那些未貼標簽的已經(jīng)離線且將不再繼續(xù)使用的服務器加以清退。當時管理層的想法主要是為了清理空間、對中心內(nèi)的各使用中硬件進行精確清點、搞明白哪些團隊在使用哪些硬件以及使用的具體理由。如果對某件設備的作用不太清楚,Robert需要首先明確哪個團隊在使用它,然后在著手處理前等待團隊給出的詳細反饋信息。
同其它任何數(shù)據(jù)中心一樣,我們的這套設施也擁有大量服務器及其它周邊設備,其中一些裝置的重要性顯然高于其它。由于我所在的是一家國有機構,所以外圍防火墻監(jiān)控著大量來自互聯(lián)網(wǎng)的信息流量:來自國內(nèi)外企業(yè)與組織的內(nèi)容、遠程客戶端、所有內(nèi)部交互信息以及所有咨詢數(shù)據(jù)庫等等。
這些防火墻由一臺中央管理服務器所控制,服務器向每個防火墻體系發(fā)送監(jiān)控政策及配置信息。防火墻所需進行的任何必要變更都一定要由服務器端設定。而且根據(jù)設備
供應商的說法,從防火墻端無法恢復服務器的管理機制內(nèi)容。一旦防火墻重新啟動,它將完全根據(jù)管理服務器發(fā)來的配置文件實施配置。通過這種方式,整套防御體系將很快恢復正常功能。
Robert是怎么做的
Robert就這樣帶著他的任務穿梭在整個數(shù)據(jù)中心之中,并通過Excel表格記錄下所有詳細信息;這時情況出現(xiàn)了——出于某種我們無法理解的原因,他認為這臺管理服務器并沒有承擔什么重要的工作內(nèi)容。他隨手將服務器關閉并直接把網(wǎng)線給拔掉了,并捧著機器回到自己的辦公桌旁。最可怕的是,他開始著手格式化服務器硬盤。
有一點可以肯定,他并不是什么從事間諜活動的危險人物,也并非帶著共產(chǎn)主義國家的密令意欲摧毀資本主義世界的邪惡統(tǒng)治——他只是在管理生產(chǎn)型數(shù)據(jù)中心時犯了點迷糊。
接下來的事情大家也想得到,網(wǎng)絡團隊開始接手審查——當他們發(fā)現(xiàn)管理服務器直接從數(shù)據(jù)中心里消失后自然是又驚又怒,場面一片混亂。
當他們最終在Robert的辦公桌上找到這臺管理服務器時,他們發(fā)現(xiàn)Robert根本沒注意到服務器上所貼的標簽,甚至沒注意到那臺服務器在被拔掉插頭之前處于使用狀態(tài)。他當時迅速做出了判斷——壓根沒打算做什么調(diào)查——這臺服務器沒啥用。
結果……
網(wǎng)絡團隊開始嘗試全力挽救一切,但接下來的大問題令人束手無策:服務器內(nèi)容并未進行過備份。實際情況表明,這臺服務器的日常管理者沒有意識到數(shù)據(jù)庫內(nèi)容就保存在其中。由于缺乏溝通,管理員認為一旦發(fā)生事故,只要根據(jù)防火墻端的信息進行重裝即可令一切恢復正常。他們對防火墻進行了多次備份,但服務器這邊則完全無人理睬。
事已到此也別無他法,從零開始的重建工作一直持續(xù)了五個月,這才讓防御機制回到維護前的初始狀態(tài)。
情況跟大家想象的一樣,管理者們對Robert既非普通又非文藝的工作能力大為不滿,他在IT部門中的地位也隨之一落千丈。數(shù)據(jù)中心最佳實踐方案也做出一番大規(guī)模整頓,并成為機構全體人員的進修課程。此外,那臺管理服務器也從此得到了定期備份的待遇。
在這個經(jīng)典故事發(fā)生之時,我正為某家規(guī)模巨大的非美國國有機構工作。當時機構中的某位IT專家——我們姑且稱他為“Robert”——接到一項任務,即將主數(shù)據(jù)中心內(nèi)那些未貼標簽的已經(jīng)離線且將不再繼續(xù)使用的服務器加以清退。當時管理層的想法主要是為了清理空間、對中心內(nèi)的各使用中硬件進行精確清點、搞明白哪些團隊在使用哪些硬件以及使用的具體理由。如果對某件設備的作用不太清楚,Robert需要首先明確哪個團隊在使用它,然后在著手處理前等待團隊給出的詳細反饋信息。
同其它任何數(shù)據(jù)中心一樣,我們的這套設施也擁有大量服務器及其它周邊設備,其中一些裝置的重要性顯然高于其它。由于我所在的是一家國有機構,所以外圍防火墻監(jiān)控著大量來自互聯(lián)網(wǎng)的信息流量:來自國內(nèi)外企業(yè)與組織的內(nèi)容、遠程客戶端、所有內(nèi)部交互信息以及所有咨詢數(shù)據(jù)庫等等。
這些防火墻由一臺中央管理服務器所控制,服務器向每個防火墻體系發(fā)送監(jiān)控政策及配置信息。防火墻所需進行的任何必要變更都一定要由服務器端設定。而且根據(jù)設備供應商的說法,從防火墻端無法恢復服務器的管理機制內(nèi)容。一旦防火墻重新啟動,它將完全根據(jù)管理服務器發(fā)來的配置文件實施配置。通過這種方式,整套防御體系將很快恢復正常功能。
Robert做了什么?
Robert就這樣帶著他的任務穿梭在整個數(shù)據(jù)中心之中,并通過Excel表格記錄下所有詳細信息;這時情況出現(xiàn)了——出于某種我們無法理解的原因,他認為這臺管理服務器并沒有承擔什么重要的工作內(nèi)容。他隨手將服務器關閉并直接把網(wǎng)線給拔掉了,并捧著機器回到自己的辦公桌旁。最可怕的是,他開始著手格式化服務器硬盤。
有一點可以肯定,他并不是什么從事間諜活動的危險人物,也并非帶著共產(chǎn)主義國家的密令意欲摧毀資本主義世界的邪惡統(tǒng)治——他只是在管理生產(chǎn)型數(shù)據(jù)中心時犯了點迷糊。
接下來的事情大家也想得到,網(wǎng)絡團隊開始接手審查——當他們發(fā)現(xiàn)管理服務器直接從數(shù)據(jù)中心里消失后自然是又驚又怒,場面一片混亂。
當他們最終在Robert的辦公桌上找到這臺管理服務器時,他們發(fā)現(xiàn)Robert根本沒注意到服務器上所貼的標簽,甚至沒注意到那臺服務器在被拔掉插頭之前處于使用狀態(tài)。他當時迅速做出了判斷——壓根沒打算做什么調(diào)查——這臺服務器沒啥用。
結果……
網(wǎng)絡團隊開始嘗試全力挽救一切,但接下來的大問題令人束手無策:服務器內(nèi)容并未進行過備份。實際情況表明,這臺服務器的日常管理者沒有意識到數(shù)據(jù)庫內(nèi)容就保存在其中。由于缺乏溝通,管理員認為一旦發(fā)生事故,只要根據(jù)防火墻端的信息進行重裝即可令一切恢復正常。他們對防火墻進行了多次備份,但服務器這邊則完全無人理睬。
事已到此也別無他法,從零開始的重建工作一直持續(xù)了五個月,這才讓防御機制回到維護前的初始狀態(tài)。
情況跟大家想象的一樣,管理者們對Robert既非普通又非文藝的工作能力大為不滿,他在IT部門中的地位也隨之一落千丈。數(shù)據(jù)中心最佳實踐方案也做出一番大規(guī)模整頓,并成為機構全體人員的進修課程。此外,那臺管理服務器也從此得到了定期備份的待遇。
【推薦閱讀】
◆網(wǎng)管軟件專區(qū)
◆維護服務器安全保護備份最重要
◆奇怪的排障:企業(yè)網(wǎng)絡管理要突破慣有思維
◆網(wǎng)絡管理員應該如何進行系統(tǒng)及數(shù)據(jù)備份?
◆IT運維管理專區(qū)
本文來自互聯(lián)網(wǎng),僅供參考