監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

十個(gè)最嚴(yán)重的云服務(wù)中斷故障

申請免費(fèi)試用、咨詢電話:400-8352-114

本文介紹了近年來十個(gè)最嚴(yán)重的云服務(wù)中斷故障,其中既包括象微軟、Google這樣的大牌明星企業(yè),也包括了客戶管理軟件提供商Salesforce。旨在幫助大家認(rèn)識(shí)云服務(wù)中斷故障并從中汲取教訓(xùn)。

1:亞馬遜Web服務(wù)中斷。

免除你乏味的網(wǎng)絡(luò)維護(hù)工作是在云中做生意的主要賣點(diǎn)。但是他的缺點(diǎn)是:當(dāng)你的云廠商例行性改變配置讓你的業(yè)務(wù)中斷的時(shí)候,你會(huì)束手無策。

這是許多亞馬遜Web服務(wù)用戶在今年4月經(jīng)歷的事情。當(dāng)時(shí),亞馬遜北弗吉尼亞州的數(shù)據(jù)中心出現(xiàn)故障,完全無法使用。

這個(gè)故障是在網(wǎng)絡(luò)升級(jí)期間發(fā)生的。當(dāng)時(shí),信息尋找可用的設(shè)備把自己作為備份嵌入到這些設(shè)備中時(shí),一個(gè)錯(cuò)誤路線的通訊移動(dòng)把一連串的亞馬遜EBS(彈性塊存儲(chǔ))通訊量發(fā)送到一個(gè)重新鏡像的風(fēng)暴。這是一種反常的現(xiàn)象。這引起了一系列事件,最終導(dǎo)致亞馬遜在美國東部地區(qū)的許多服務(wù)中斷。

這個(gè)故障持續(xù)了大約四天時(shí)間。但是,在許多企業(yè)陷入困境之中的同時(shí),Netflix等其它公司的排除了故障。生存的關(guān)鍵是什么?設(shè)計(jì)系統(tǒng)的時(shí)候就要考慮到這種類型的故障。

Netflix工程師在題為“Netflix從亞馬遜Web服務(wù)中斷故障中吸取的教學(xué)”的博客中稱,我們的架構(gòu)避免使用EBS作為我們的主要數(shù)據(jù)存儲(chǔ)服務(wù)。我們依靠的SimpleDB、S3和Cassandra服務(wù)從而沒有受到這次中斷事故的影響。無國家的服務(wù)和可用地區(qū)的數(shù)據(jù)的多個(gè)冗余熱拷貝是避免亞馬遜Web服務(wù)云故障的關(guān)鍵。

考慮一下你必須是Netflix規(guī)模的企業(yè)才能保證安全嗎?再考慮一下。幫助開發(fā)人員把通訊與其Web應(yīng)用程序集成在一起的Twilio公司利用亞馬遜的EC2服務(wù)托管其核心的基礎(chǔ)設(shè)施。盡管如此,4月份的中斷故障對(duì)它的穩(wěn)定性幾乎沒有影響。

Twilio共同創(chuàng)始人和首席技術(shù)官Evan Cooke稱,建立云的前提是假設(shè)這個(gè)網(wǎng)絡(luò)將出現(xiàn)故障。我們圍繞著主機(jī)能夠并且將發(fā)生故障這個(gè)思路建立了一個(gè)基礎(chǔ)設(shè)施。因此,我們不依賴于核心架構(gòu)本身的任何一臺(tái)機(jī)器或者一個(gè)組件。

2:Sidekick關(guān)閉。

智能手機(jī)讓你很容易在移動(dòng)中訪問自己的數(shù)據(jù)。但是,某些東西并不能因?yàn)槊种杏?ldquo;智能”二字而不會(huì)傻。例證:大約在2009年秋季發(fā)生的T-Mobile Sidekick中斷故障。

還記得這次大慘敗嗎?微軟擁有的Sidekick遭受了將近一個(gè)星期的服務(wù)中斷,使用戶不能訪問電子郵件、日歷信息和其它個(gè)人數(shù)據(jù)。后來,微軟承認(rèn)它完全失去了云存儲(chǔ)的數(shù)據(jù)并且也許不能回復(fù)這些數(shù)據(jù)。微軟的人員顯然忘記了做備份。

這個(gè)技術(shù)從那以后也許已經(jīng)發(fā)展了。但是,教訓(xùn)是相同的:當(dāng)涉及到重要數(shù)據(jù)的時(shí)候,永遠(yuǎn)不要假設(shè)其他人將自動(dòng)保護(hù)你。要保證你理解你的云提供商的災(zāi)難恢復(fù)設(shè)置。最好是制定獨(dú)立地備份你的重要數(shù)據(jù)的計(jì)劃。

AlertSite公司負(fù)責(zé)監(jiān)視產(chǎn)品的副總裁Ken Godskind稱,同樣的運(yùn)營規(guī)則甚至適用于云。使用云的機(jī)構(gòu)不能僅僅假設(shè)因?yàn)樗窃谠浦?,業(yè)務(wù)持續(xù)性計(jì)劃的全部責(zé)任已經(jīng)交給了提供商。

3:Gmail故障。

在所有的云服務(wù)中,谷歌Gmail是對(duì)微軟在企業(yè)中內(nèi)部安裝的郵件服務(wù)堡壘的最大威脅之一。使用Postini支持的便宜的獨(dú)立的電子郵件服務(wù)取代你的維護(hù)成本高的Exchange服務(wù)器。有什么不一樣?

許多令人討厭的中斷。最近的中斷故障讓15萬Gmail用戶在登錄自己的賬戶之后只看到一個(gè)空白頁,沒有郵件和文件夾,沒有任何東西表明他們實(shí)際上在看自己的收件箱。值得贊揚(yáng)的是,谷歌提供了定期的更新并且承諾迅速修復(fù)故障。但是,對(duì)于某些受影響的用戶來說,谷歌修復(fù)這個(gè)故障用了4天時(shí)間。

谷歌負(fù)責(zé)工程的副總裁Ben Treynor當(dāng)時(shí)在博客中稱,如果有你的數(shù)據(jù)的多個(gè)副本,怎么會(huì)發(fā)生這樣的事情?在很少出現(xiàn)的情況下,軟件瑕疵能夠影響幾份數(shù)據(jù)。那就是這里發(fā)生的事情。

谷歌最后不得不改用物理磁帶備份以便恢復(fù)數(shù)據(jù)。最終,谷歌的多層數(shù)據(jù)保護(hù)確實(shí)發(fā)揮了作用,但是,還是讓數(shù)千用戶在幾天時(shí)間里無法訪問其電子郵件。

故障是不使用云連接的東西的一個(gè)理由嗎?也許不是。但是,這是在緊迫的需求出現(xiàn)之前,認(rèn)證檢查你自己的數(shù)據(jù)保護(hù)和考慮建立備份或者離線訪問解決方案的一個(gè)理由。

AlertSite公司的Ken Godskind稱,當(dāng)你查看廣泛的平均狀況時(shí),云的運(yùn)行成功率遠(yuǎn)遠(yuǎn)高于你個(gè)人的運(yùn)行成功率。這只是當(dāng)你進(jìn)入到Web規(guī)模時(shí),故障的影響以更大的方式放大了。

4:Hotmail一團(tuán)糟。

當(dāng)然,微軟也為大力推廣其云服務(wù)提供最好的廣告。微軟Hotmail在2010年年底出現(xiàn)了數(shù)據(jù)庫錯(cuò)誤,導(dǎo)致數(shù)萬個(gè)收件箱在轉(zhuǎn)換到新的一年的時(shí)候都被清空。

微軟稱,這個(gè)故障是一個(gè)腳本錯(cuò)誤造成的。這是為自動(dòng)測試創(chuàng)建的一個(gè)刪除虛賬戶的腳本。這個(gè)腳本錯(cuò)誤地刪除了1.7萬個(gè)真正的賬戶。

微軟用了三天時(shí)間恢復(fù)了大多數(shù)用戶的賬戶。大約8%的運(yùn)氣不佳的用戶必須再等待三天時(shí)間才能恢復(fù)自己的數(shù)據(jù)。

5:Intuit兩次中斷。

Intuit去年遭遇一次嚴(yán)重故障。它的基于云連接的服務(wù),包括TurboTax、Quicken和QuickBooks等流行的平臺(tái)在一個(gè)月內(nèi)發(fā)生兩次斷網(wǎng)事故。最最糟糕的一次是去年6月的一次36小時(shí)斷網(wǎng)事故。一次電源故障顯然導(dǎo)致主要設(shè)備使用備用電源,該公司主要的和備份的系統(tǒng)完全斷網(wǎng)。

更糟糕的是,幾個(gè)星期之后,又發(fā)生了一次明顯的電源故障。此外,第二次中斷顯然引起了人們的大罵。

一個(gè)用戶當(dāng)時(shí)在微博中稱,25小時(shí)的斷網(wǎng)是很難忍受的。Intuit的被動(dòng)的、不透明的和無法接受的溝通沒有幫助。

惠普安全優(yōu)勢計(jì)劃主要戰(zhàn)略家Chris Whitener稱,事實(shí)是,如果你需要絕對(duì)的可用性,有比一個(gè)云更好的解決方案。你沒有必要備份一切,但是,你在那里采取一個(gè)額外的步驟(也許僅依靠自己備份重要的數(shù)據(jù))就會(huì)產(chǎn)生完全不同的結(jié)果。

嚴(yán)重的云中斷6:微軟BPOS(商務(wù)辦公在線套件)故障。當(dāng)你的基于云的辦公套件出現(xiàn)故障時(shí),那是很難有辦公效率的。那是幾個(gè)星期前依賴微軟商務(wù)云服務(wù)的機(jī)構(gòu)發(fā)生的事情。在5月10日左右,微軟BPOS服務(wù)開始出現(xiàn)斷斷續(xù)續(xù)地工作的情況。一些用戶的電子郵件因此延遲了9個(gè)小時(shí)才收到。

兩天后,就在BPOS好像排除了故障的時(shí)候,延遲的現(xiàn)象又發(fā)生了,向外發(fā)出的信息也阻塞了。如果這個(gè)事故還不夠的話,微軟還經(jīng)歷了另一個(gè)故障,阻止用戶登錄基于Web的Outlook門戶網(wǎng)站。

微軟在線服務(wù)部門副總裁在博客中稱,我要因?yàn)檫@個(gè)故障引起的這些不便向你們、我們的客戶和合作伙伴表示道歉。

7:Salesforce服務(wù)中斷。

一個(gè)小時(shí)的斷網(wǎng)故障聽起來也許不嚴(yán)重。但是,如果你的公司擁有數(shù)萬家企業(yè)客戶服務(wù)業(yè)務(wù)的關(guān)鍵,許多這樣的機(jī)構(gòu)肯定要把這60分鐘看作是生命期。

當(dāng)去年1月數(shù)據(jù)中心關(guān)閉的時(shí)候,Salesforce吸取了深刻的教訓(xùn)。在進(jìn)入新的一年剛剛四天的時(shí)候,Salesforce報(bào)告了一次全面的故障,也就是說服務(wù)、備份等全套服務(wù)都中斷了。

令人厭煩?絕對(duì)如此。令人意外?不完全意外。

柯尼卡美能達(dá)的子公司All Covered的首席信息官Tim Crawford稱,現(xiàn)實(shí)是基于云的數(shù)據(jù)中心也中斷了。那一直是故障的原因并且總是這種情況。我們對(duì)此必須現(xiàn)實(shí)一些。

Crawford稱,成功的云計(jì)算需要一個(gè)與傳統(tǒng)的服務(wù)器設(shè)置不同的思維方式。你要自己決定你的企業(yè)的數(shù)據(jù)是否能夠承受偶爾的斷網(wǎng)。如果不能承受,你要保證你的配置有避開斷網(wǎng)故障所需要的彈性。

當(dāng)你選擇一個(gè)云提供商的時(shí)候,你需要做家庭作業(yè)以理解他們?nèi)绾翁峁┻@些服務(wù),他們是否能夠建立比你自己做的還要好的冗余水平。如果答案是否定的,那么,你為什么要使用這些云提供商呢?

8:云提供商Terremark可怕的一天。

最近,Terremark與Verizon之間的10億美元的交易也許成為了重要新聞。但是,在2010年年初,主要報(bào)道的新聞是Terremark的斷網(wǎng)事故。

在2010年3月17日的圣帕特里克節(jié),Terremark的運(yùn)氣開始變壞。該公司的vCloud Express服務(wù)在那一天急轉(zhuǎn)直下,在邁阿密的數(shù)據(jù)中心斷網(wǎng)了大約7個(gè)小時(shí)。在這段時(shí)間里,用戶不能訪問存儲(chǔ)在這個(gè)數(shù)據(jù)中心的數(shù)據(jù)。

沒有得到更多的冗余。但是,這帶來的冗余的價(jià)值,讓你的重要數(shù)據(jù)提供到不同數(shù)據(jù)中心的多臺(tái)服務(wù)器,或者最好是提供到不同地區(qū)的多臺(tái)服務(wù)器。作為一種故障保險(xiǎn),你還可以采取額外的步驟把數(shù)據(jù)分散到不同的提供商。

IBM云安全戰(zhàn)略計(jì)劃首席技術(shù)官Harold Moss稱,你可以選擇一系列廠商托管一個(gè)工作量,一個(gè)廠商負(fù)責(zé)備份或者兩個(gè)廠商負(fù)責(zé)備份,然后選擇一個(gè)廠商作為你的主要提供商。然后,你可以在安全的情況下實(shí)施你的工作量,有適當(dāng)?shù)陌踩⑶议_始引進(jìn)你的彈性能力。

9:PayPal斷網(wǎng)故障。

要一個(gè)引起廣泛的嚴(yán)重影響的云斷網(wǎng)故障嗎?設(shè)法讓PayPal斷網(wǎng)幾個(gè)小時(shí)就可以看到。

這不是假設(shè)的演習(xí):2009年夏季PayPal的斷網(wǎng)故障是真的,讓全球數(shù)百萬臺(tái)機(jī)器無法銷售商品。這項(xiàng)服務(wù)在大約一個(gè)小時(shí)的時(shí)間里完全不可用,在后來的幾個(gè)小時(shí)里仍是斷斷續(xù)續(xù)的。PayPal稱,硬件故障是事故的原因。

毫無疑問,這種中斷故障是很少發(fā)生的。但是,這個(gè)不幸的斷網(wǎng)故障使PayPal輕松在云計(jì)算的恥辱堂上贏得一個(gè)位置。

10:Rackspace的坎坷年。

當(dāng)你向TechCrunch和Justin Timberlake等網(wǎng)站提供云服務(wù)網(wǎng)的時(shí)候,你最好相信當(dāng)你的服務(wù)器停止工作的時(shí)候,人們會(huì)注意到。

Rackspace在2009年吸取了幾次教訓(xùn)。這家云提供商在2009年全年遭遇了四次引人矚目的斷網(wǎng)故障,使該公司的客戶的斷網(wǎng)時(shí)間達(dá)到幾個(gè)小時(shí)。Rackspace不得不向用戶賠償了將近300萬美元的服務(wù)費(fèi)。

Rackspace把這些事故稱作“痛苦的和非常令人失望的”并且承諾以后在很長時(shí)間里都要高水平地提供服務(wù)。目前,該公司繼續(xù)把重點(diǎn)放在運(yùn)行時(shí)間方面,但是還幫助用戶制定計(jì)劃準(zhǔn)備應(yīng)對(duì)在云服務(wù)中不可避免地出現(xiàn)的混亂局面。

Rackspace公司的Lew Moorman稱,如果你要建立一個(gè)服務(wù)集群或者建立地理位置的冗余,現(xiàn)在要比以前容易做到。但是,你必須采取這些步驟。如果你以前在企業(yè)內(nèi)部做過這個(gè)事情,這個(gè)云不會(huì)帶來可能出現(xiàn)的弱點(diǎn)。

考慮到所有的故障,這里最大的教訓(xùn)是沒有一個(gè)單個(gè)的服務(wù)器、中心或者服務(wù)是百分之百可靠的。如果你不以這種思路建立你的業(yè)務(wù),那么,我的朋友,你就是在不切實(shí)際地到處走。

發(fā)布:2007-03-28 13:08    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章: