監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關閉

[原創(chuàng)]面壁ITIL之連續(xù)性管理

申請免費試用、咨詢電話:400-8352-114

孫翊威

630,一陣mp3音樂響起。昨晚加班到今天凌晨100才休息的丁磊迷迷糊糊地伸手想去關掉鬧鐘,手指在手機的觸摸屏上摸索著。摸了一圈伴著振動的音樂還在響著。迷糊中丁磊忽然明白這是一個電話。“丁磊,我今天的數據通訊無法操作。”一個相熟的客戶打來報修電話。服務臺7點才上班,估計是客戶一著急就打倒了丁磊的手機上。“噢,你再多做幾次”“試過了可就是不行。”“再試試,如果還不行7點以后你直接打800電話報修。”丁磊還沒有完全清醒。

數據通訊故障一般都會在故障發(fā)生后重復做幾次就能解決,客戶很多時候會大驚小怪。所以丁磊沒有將此放在心上繼續(xù)合上眼又瞇了一會才懶懶地起床洗漱。

700,話務員小林今天值早班,一踏進服務臺的門就聽見里面的電話響個不停。“今天這是怎么了,電話都響了??磥碛质菙祿ㄓ嵐收?。”小林根據自己的經驗判斷只有公網服務器出現故障才會在這么早有這么多的電話。

“您好,工號648為您服務,請問有什么可以幫您?”小林先接起一個電話。

“你好,我今天早上的數據通訊一直無法做成功。這是怎么回事?”

果然不出所料,小林按照規(guī)定的問題處理腳本對客戶進行操作輔導。一步步操作下來沒有任何問題,數據通訊依然無法操作成功。小林有些著急,客戶的故障沒有解決,旁邊的電話還在響個不停。無奈之下,小林只好答應客戶將會派工程師上門處理。接了幾個電話都是相同的問題。小林知道應該是服務器出了故障,按照以往的經驗,此類故障只需要服務維護工程師重啟服務器即可解決。因此,小林在輔導客戶的時候就會告知12個小時后再做數據通訊,不再承諾派工程師上門服務。

720,丁磊吃完早餐正準備出門換鞋,兜里的手機響了。又是數據通訊的問題,丁磊依舊讓客戶再試幾次如果還不行,就直接報修。接完電話之后,丁磊換好鞋出門。剛走到電梯口,手機又響了。還是相同的問題,丁磊依葫蘆畫瓢應付了過去。

730,服務臺的話務員開始多了起來。但增加的人手很快被淹沒在此起彼伏的報修電話之中。過去的半個小時里小林馬不停蹄地接了幾十個電話,水都來不及喝一口。

750,丁磊已經在公交車上接了10個報修電話。這是不正常的現象,丁磊離開工程師的崗位之后一般不會再接到客戶的報修電話。打到他手機的報修多是很緊急的問題或者是投訴之類。丁磊覺察到一絲的不安。于是,他撥通了服務器工程師的手機。

800,服務器工程師小周開始遠程連接服務器檢查運行情況。“又是例行公事,重啟服務器。”小周已經對類似的故障習以為常。昨天晚上他還遠程登陸過服務器沒有任何問題。但是,很顯然今天的故障不同于以往。小周發(fā)現連過去之后硬盤無法讀寫。“出問題了。”小周抄起背包打了Taxi就趕到電信機房。

845,小周重新啟動服務器,發(fā)現硬盤邏輯卷顯示為OFFLine。“完了,服務器硬盤壞了。”小周心里一陣陣地緊張。全市3000多家門店的商品配送信息都是依靠這臺服務器完成傳遞。他感覺到自己手心有些濕。這是他第一次遇到這么嚴重的事故。

900,三位話務加兩名二線工程師全部到崗。服務臺此時就象一個戰(zhàn)時的指揮部,所有的人都在緊張地工作著。放下一個電話再接起另外一個電話,不斷地重復解釋數據通訊為何不能操作。丁磊隔著玻璃窗看著里面忙碌的景象,若有所思。沒想到上個月討論有關IT服務連續(xù)性管理的內容,今天就派上了用場。

已經過去一個小時了,小周還沒有打電話過來通知具體的故障原因,丁磊于是聯系小周詢問現場的情況。當得知是服務器硬盤損壞的故障,丁磊更加慶幸上個月及時討論了如何確保IT服務連續(xù)性這個問題。由于事先對類似的故障做了規(guī)劃,制定了應急方案。按照方案的設計故障可以在1小時內解決,因此丁磊對這次事故的控制心里比較有底,加之應急方案制定之后一直沒有演練過,正好也可以利用這次難得的故障檢驗應急方案。

1030,故障排除。小周按照預定的處理方案,先聯系了服務器支持廠商。在廠商的支持仍然沒有解決問題之后,小周只好采用備用機替換的方式來盡快恢復服務器的工作,期間還要恢復一些數據。這么一折騰處理時間超出應急方案規(guī)定的恢復時間達45分鐘。

1200,小周回到公司向丁磊匯報工作。

“領導,我來認錯了。”小周見到丁磊的第一句話就是作自我檢討。“為什么?因為恢復服務的時間超時?”“這是一個原因吧,但不是最主要的。”小周喝了口水,坐在丁磊的對面開始聊起這次的故障處理。

“說句實話,我到了現場發(fā)現服務器硬盤損壞時,心里真的很慌。”小周不好意思地笑了笑,“幸好上個月我們剛討論過這個應急方案。我就按照應急方案的步驟開始操作,本來按照方案處理1個小時是可以解決問題。但在替換備份機的時候有一個備份腳本沒找到,這時候有點緊張然后怎么找就是找不到。最后沒辦法,備用機替上去后臺的一些目錄只好通過手工去建立,耽誤了不少時間。等我恢復好服務器工作之后居然又找到了那個備份腳本。真讓人郁悶!”“沒關系,雖然這次處理的時間長了點,但是好在問題已經解決。也檢驗了我們制定的應急方案是正確的。”丁磊知道小周做事一向很謹慎。這次沒有找到的備份腳本,其實就是小周自己寫的腳本,每周一次將服務器上的目錄打包發(fā)送到備用機上,而且做了三地備份。從技術上講,小周已經做到了充分準備。這45分鐘的超時讓丁磊看到IT服務連續(xù)性管理中沒有強調,但是很容易忽略的一個步驟。

IT服務連續(xù)性管理的措施就是要求事先規(guī)劃,做好應急計劃。當客戶業(yè)務遭到中斷后,IT服務方必須提供根據事先規(guī)劃好的IT服務連續(xù)性應急計劃來支持客戶業(yè)務最低需求的能力。相對于應付日常操作及日常危機的IT服務可用性管理,有人將IT服務連續(xù)性管理戲稱為“B計劃”以作區(qū)別。

丁磊認識到自己在識別IT服務風險,制定應急方案方面花費了不少的時間和精力。重心都放在了如何在技術上應付突發(fā)的風險,卻忽視了人在應急方案中的弱點。重壓之下,人在沒有做好充分準備的情況時很難做到氣定神閑。出錯也將在所難免,無形之中也增加了新的風險。

沉著冷靜。丁磊決定在應急方案中增加這樣一項非技術步驟,而且是放在第一條的位置。人不能冷靜下來,再好的技術處理步驟都將變得面目全非。如何在重壓之下依然能夠保持冷靜?丁磊想到了小區(qū)公告欄里貼出的在915全民國防教育日這一天要鳴響空襲警報的通知。通知寫明了鳴放的時間,范圍和形式。目的是為了檢驗空襲警報設備的可用性和可靠性,同時也在演練空襲警報的流程。

丁磊不是沒有想到演練,只是制定應急方案的時間和這次故障的時間間隔太短,他還沒有來得及進行演練就被拉上“戰(zhàn)場”來了一次實戰(zhàn)。實戰(zhàn)的結果讓他對演練更加看重。一項應急方案的執(zhí)行是人按照流程運用技術來處理故障,最終達到盡快恢復服務的目的。正所謂:養(yǎng)兵千日,用兵一時。如果不通過演練來強化人對流程的熟悉,對技術的運用,那么真到了實戰(zhàn)的那一天也許腦子里有的只是一片空白了。

發(fā)布:2007-03-25 10:21    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章: