微信CRM系統(tǒng)

當前位置：工程項目OA系統(tǒng) > CRM客戶管理系統(tǒng) > 相關(guān)軟件 > 微信CRM系統(tǒng)

十個最嚴重的云服務(wù)中斷故障

本文介紹了近年來十個最嚴重的云服務(wù)中斷故障，其中既包括象微軟、Google這樣的大牌明星企業(yè)，也包括了客戶管理軟件提供商Salesforce。旨在幫助大家認識云服務(wù)中斷故障并從中汲取教訓(xùn)。

1：亞馬遜Web服務(wù)中斷。

免除你乏味的網(wǎng)絡(luò)維護工作是在云中做生意的主要賣點。但是他的缺點是：當你的云廠商例行性改變配置讓你的業(yè)務(wù)中斷的時候，你會束手無策。

這是許多亞馬遜Web服務(wù)用戶在今年4月經(jīng)歷的事情。當時，亞馬遜北弗吉尼亞州的數(shù)據(jù)中心出現(xiàn)故障，完全無法使用。

這個故障是在網(wǎng)絡(luò)升級期間發(fā)生的。當時，信息尋找可用的設(shè)備把自己作為備份嵌入到這些設(shè)備中時，一個錯誤路線的通訊移動把一連串的亞馬遜EBS(彈性塊存儲)通訊量發(fā)送到一個重新鏡像的風(fēng)暴。這是一種反常的現(xiàn)象。這引起了一系列事件，最終導(dǎo)致亞馬遜在美國東部地區(qū)的許多服務(wù)中斷。

這個故障持續(xù)了大約四天時間。但是，在許多企業(yè)陷入困境之中的同時，Netflix等其它公司的排除了故障。生存的關(guān)鍵是什么?設(shè)計系統(tǒng)的時候就要考慮到這種類型的故障。

Netflix工程師在題為“Netflix從亞馬遜Web服務(wù)中斷故障中吸取的教學(xué)”的博客中稱，我們的架構(gòu)避免使用EBS作為我們的主要數(shù)據(jù)存儲服務(wù)。我們依靠的SimpleDB、S3和Cassandra服務(wù)從而沒有受到這次中斷事故的影響。無國家的服務(wù)和可用地區(qū)的數(shù)據(jù)的多個冗余熱拷貝是避免亞馬遜Web服務(wù)云故障的關(guān)鍵。

考慮一下你必須是Netflix規(guī)模的企業(yè)才能保證安全嗎?再考慮一下。幫助開發(fā)人員把通訊與其Web應(yīng)用程序集成在一起的Twilio公司利用亞馬遜的EC2服務(wù)托管其核心的基礎(chǔ)設(shè)施。盡管如此，4月份的中斷故障對它的穩(wěn)定性幾乎沒有影響。

Twilio共同創(chuàng)始人和首席技術(shù)官Evan Cooke稱，建立云的前提是假設(shè)這個網(wǎng)絡(luò)將出現(xiàn)故障。我們圍繞著主機能夠并且將發(fā)生故障這個思路建立了一個基礎(chǔ)設(shè)施。因此，我們不依賴于核心架構(gòu)本身的任何一臺機器或者一個組件。

2：Sidekick關(guān)閉。

智能手機讓你很容易在移動中訪問自己的數(shù)據(jù)。但是，某些東西并不能因為名字中有“智能”二字而不會傻。例證：大約在2009年秋季發(fā)生的T-Mobile Sidekick中斷故障。

還記得這次大慘敗嗎?微軟擁有的Sidekick遭受了將近一個星期的服務(wù)中斷，使用戶不能訪問電子郵件、日歷信息和其它個人數(shù)據(jù)。后來，微軟承認它完全失去了云存儲的數(shù)據(jù)并且也許不能回復(fù)這些數(shù)據(jù)。微軟的人員顯然忘記了做備份。

這個技術(shù)從那以后也許已經(jīng)發(fā)展了。但是，教訓(xùn)是相同的：當涉及到重要數(shù)據(jù)的時候，永遠不要假設(shè)其他人將自動保護你。要保證你理解你的云提供商的災(zāi)難恢復(fù)設(shè)置。最好是制定獨立地備份你的重要數(shù)據(jù)的計劃。

AlertSite公司負責(zé)監(jiān)視產(chǎn)品的副總裁Ken Godskind稱，同樣的運營規(guī)則甚至適用于云。使用云的機構(gòu)不能僅僅假設(shè)因為它是在云中，業(yè)務(wù)持續(xù)性計劃的全部責(zé)任已經(jīng)交給了提供商。

3：Gmail故障。

在所有的云服務(wù)中，谷歌Gmail是對微軟在企業(yè)中內(nèi)部安裝的郵件服務(wù)堡壘的最大威脅之一。使用Postini支持的便宜的獨立的電子郵件服務(wù)取代你的維護成本高的Exchange服務(wù)器。有什么不一樣?

許多令人討厭的中斷。最近的中斷故障讓15萬Gmail用戶在登錄自己的賬戶之后只看到一個空白頁，沒有郵件和文件夾，沒有任何東西表明他們實際上在看自己的收件箱。值得贊揚的是，谷歌提供了定期的更新并且承諾迅速修復(fù)故障。但是，對于某些受影響的用戶來說，谷歌修復(fù)這個故障用了4天時間。

谷歌負責(zé)工程的副總裁Ben Treynor當時在博客中稱，如果有你的數(shù)據(jù)的多個副本，怎么會發(fā)生這樣的事情?在很少出現(xiàn)的情況下，軟件瑕疵能夠影響幾份數(shù)據(jù)。那就是這里發(fā)生的事情。

谷歌最后不得不改用物理磁帶備份以便恢復(fù)數(shù)據(jù)。最終，谷歌的多層數(shù)據(jù)保護確實發(fā)揮了作用，但是，還是讓數(shù)千用戶在幾天時間里無法訪問其電子郵件。

故障是不使用云連接的東西的一個理由嗎?也許不是。但是，這是在緊迫的需求出現(xiàn)之前，認證檢查你自己的數(shù)據(jù)保護和考慮建立備份或者離線訪問解決方案的一個理由。

AlertSite公司的Ken Godskind稱，當你查看廣泛的平均狀況時，云的運行成功率遠遠高于你個人的運行成功率。這只是當你進入到Web規(guī)模時，故障的影響以更大的方式放大了。

4：Hotmail一團糟。

當然，微軟也為大力推廣其云服務(wù)提供最好的廣告。微軟Hotmail在2010年年底出現(xiàn)了數(shù)據(jù)庫錯誤，導(dǎo)致數(shù)萬個收件箱在轉(zhuǎn)換到新的一年的時候都被清空。

微軟稱，這個故障是一個腳本錯誤造成的。這是為自動測試創(chuàng)建的一個刪除虛賬戶的腳本。這個腳本錯誤地刪除了1.7萬個真正的賬戶。

微軟用了三天時間恢復(fù)了大多數(shù)用戶的賬戶。大約8%的運氣不佳的用戶必須再等待三天時間才能恢復(fù)自己的數(shù)據(jù)。

5：Intuit兩次中斷。

Intuit去年遭遇一次嚴重故障。它的基于云連接的服務(wù)，包括TurboTax、Quicken和QuickBooks等流行的平臺在一個月內(nèi)發(fā)生兩次斷網(wǎng)事故。最最糟糕的一次是去年6月的一次36小時斷網(wǎng)事故。一次電源故障顯然導(dǎo)致主要設(shè)備使用備用電源，該公司主要的和備份的系統(tǒng)完全斷網(wǎng)。

更糟糕的是，幾個星期之后，又發(fā)生了一次明顯的電源故障。此外，第二次中斷顯然引起了人們的大罵。

一個用戶當時在微博中稱，25小時的斷網(wǎng)是很難忍受的。Intuit的被動的、不透明的和無法接受的溝通沒有幫助。

惠普安全優(yōu)勢計劃主要戰(zhàn)略家Chris Whitener稱，事實是，如果你需要絕對的可用性，有比一個云更好的解決方案。你沒有必要備份一切，但是，你在那里采取一個額外的步驟(也許僅依靠自己備份重要的數(shù)據(jù))就會產(chǎn)生完全不同的結(jié)果。

嚴重的云中斷6：微軟BPOS(商務(wù)辦公在線套件)故障。當你的基于云的辦公套件出現(xiàn)故障時，那是很難有辦公效率的。那是幾個星期前依賴微軟商務(wù)云服務(wù)的機構(gòu)發(fā)生的事情。在5月10日左右，微軟BPOS服務(wù)開始出現(xiàn)斷斷續(xù)續(xù)地工作的情況。一些用戶的電子郵件因此延遲了9個小時才收到。

兩天后，就在BPOS好像排除了故障的時候，延遲的現(xiàn)象又發(fā)生了，向外發(fā)出的信息也阻塞了。如果這個事故還不夠的話，微軟還經(jīng)歷了另一個故障，阻止用戶登錄基于Web的Outlook門戶網(wǎng)站。

微軟在線服務(wù)部門副總裁在博客中稱，我要因為這個故障引起的這些不便向你們、我們的客戶和合作伙伴表示道歉。

7：Salesforce服務(wù)中斷。

一個小時的斷網(wǎng)故障聽起來也許不嚴重。但是，如果你的公司擁有數(shù)萬家企業(yè)客戶服務(wù)業(yè)務(wù)的關(guān)鍵，許多這樣的機構(gòu)肯定要把這60分鐘看作是生命期。

當去年1月數(shù)據(jù)中心關(guān)閉的時候，Salesforce吸取了深刻的教訓(xùn)。在進入新的一年剛剛四天的時候，Salesforce報告了一次全面的故障，也就是說服務(wù)、備份等全套服務(wù)都中斷了。

令人厭煩？絕對如此。令人意外？不完全意外。

柯尼卡美能達的子公司All Covered的首席信息官Tim Crawford稱，現(xiàn)實是基于云的數(shù)據(jù)中心也中斷了。那一直是故障的原因并且總是這種情況。我們對此必須現(xiàn)實一些。

Crawford稱，成功的云計算需要一個與傳統(tǒng)的服務(wù)器設(shè)置不同的思維方式。你要自己決定你的企業(yè)的數(shù)據(jù)是否能夠承受偶爾的斷網(wǎng)。如果不能承受，你要保證你的配置有避開斷網(wǎng)故障所需要的彈性。

當你選擇一個云提供商的時候，你需要做家庭作業(yè)以理解他們?nèi)绾翁峁┻@些服務(wù)，他們是否能夠建立比你自己做的還要好的冗余水平。如果答案是否定的，那么，你為什么要使用這些云提供商呢?

8：云提供商Terremark可怕的一天。

最近，Terremark與Verizon之間的10億美元的交易也許成為了重要新聞。但是，在2010年年初，主要報道的新聞是Terremark的斷網(wǎng)事故。

在2010年3月17日的圣帕特里克節(jié)，Terremark的運氣開始變壞。該公司的vCloud Express服務(wù)在那一天急轉(zhuǎn)直下，在邁阿密的數(shù)據(jù)中心斷網(wǎng)了大約7個小時。在這段時間里，用戶不能訪問存儲在這個數(shù)據(jù)中心的數(shù)據(jù)。

沒有得到更多的冗余。但是，這帶來的冗余的價值，讓你的重要數(shù)據(jù)提供到不同數(shù)據(jù)中心的多臺服務(wù)器，或者最好是提供到不同地區(qū)的多臺服務(wù)器。作為一種故障保險，你還可以采取額外的步驟把數(shù)據(jù)分散到不同的提供商。

IBM云安全戰(zhàn)略計劃首席技術(shù)官Harold Moss稱，你可以選擇一系列廠商托管一個工作量，一個廠商負責(zé)備份或者兩個廠商負責(zé)備份，然后選擇一個廠商作為你的主要提供商。然后，你可以在安全的情況下實施你的工作量，有適當?shù)陌踩⑶议_始引進你的彈性能力。

9：PayPal斷網(wǎng)故障。

要一個引起廣泛的嚴重影響的云斷網(wǎng)故障嗎?設(shè)法讓PayPal斷網(wǎng)幾個小時就可以看到。

這不是假設(shè)的演習(xí)：2009年夏季PayPal的斷網(wǎng)故障是真的，讓全球數(shù)百萬臺機器無法銷售商品。這項服務(wù)在大約一個小時的時間里完全不可用，在后來的幾個小時里仍是斷斷續(xù)續(xù)的。PayPal稱，硬件故障是事故的原因。

毫無疑問，這種中斷故障是很少發(fā)生的。但是，這個不幸的斷網(wǎng)故障使PayPal輕松在云計算的恥辱堂上贏得一個位置。

10：Rackspace的坎坷年。

當你向TechCrunch和Justin Timberlake等網(wǎng)站提供云服務(wù)網(wǎng)的時候，你最好相信當你的服務(wù)器停止工作的時候，人們會注意到。

Rackspace在2009年吸取了幾次教訓(xùn)。這家云提供商在2009年全年遭遇了四次引人矚目的斷網(wǎng)故障，使該公司的客戶的斷網(wǎng)時間達到幾個小時。Rackspace不得不向用戶賠償了將近300萬美元的服務(wù)費。

Rackspace把這些事故稱作“痛苦的和非常令人失望的”并且承諾以后在很長時間里都要高水平地提供服務(wù)。目前，該公司繼續(xù)把重點放在運行時間方面，但是還幫助用戶制定計劃準備應(yīng)對在云服務(wù)中不可避免地出現(xiàn)的混亂局面。

Rackspace公司的Lew Moorman稱，如果你要建立一個服務(wù)集群或者建立地理位置的冗余，現(xiàn)在要比以前容易做到。但是，你必須采取這些步驟。如果你以前在企業(yè)內(nèi)部做過這個事情，這個云不會帶來可能出現(xiàn)的弱點。

考慮到所有的故障，這里最大的教訓(xùn)是沒有一個單個的服務(wù)器、中心或者服務(wù)是百分之百可靠的。如果你不以這種思路建立你的業(yè)務(wù)，那么，我的朋友，你就是在不切實際地到處走。

發(fā)布：2007-03-28 13:08 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：

相關(guān)文章：

上一篇：企業(yè)微信crm常見問題釋疑

下一篇：凡客客戶資料疑遭泄露，網(wǎng)絡(luò)數(shù)據(jù)安全不容忽視

相關(guān)軟件

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢