當(dāng)前位置:工程項目OA系統(tǒng) > 泛普各地 > 重慶OA系統(tǒng) > 重慶OA快博
IP網(wǎng)絡(luò)故障的排查思路和措施
在網(wǎng)絡(luò)維護(hù)管理中,IP地址沖突是常見的問題之一,作為網(wǎng)絡(luò)管理員,掌握IP網(wǎng)絡(luò)故障管理技能是基本要求,IP地址處于網(wǎng)絡(luò)管理層的傳輸層,一般物理光纖的故障將引起路由協(xié)議的收斂,下面看詳細(xì)解析。
IP網(wǎng)絡(luò)故障管理難表現(xiàn)為兩點:第一,告警數(shù)量多,甚至是泛濫,每天告警工單數(shù)量很多,但一些告警定位后,又不需要作任何恢復(fù)動作,維護(hù)人員不堪重負(fù)。第二,故障發(fā)生卻無任何告警,只能摸索排查,定位耗時長,非常依賴人的經(jīng)驗。這兩種現(xiàn)象給故障管理工作帶來非常大的困擾,本文將深入診斷其發(fā)生的根源,并給出相應(yīng)的治理辦法。
溯源
故障告警多
告警數(shù)量多的根源與IP網(wǎng)絡(luò)兩個特點相關(guān),第一個特點是網(wǎng)絡(luò)層次多,例如一個VLL(Virtual Leased Line)業(yè)務(wù)在IP網(wǎng)絡(luò)上承載,要經(jīng)過物理層、鏈路層、路由協(xié)議、MPLS、VLL等多層次處理,若某條物理光纖發(fā)生中斷,那么物理層、鏈路層、IP傳輸層、VLL管道層將全部受到影響,這些層次也將全部發(fā)送TRAP。第二個特點是協(xié)議關(guān)聯(lián)多,一般物理光纖的故障將引起路由協(xié)議的收斂,再引起MPLS LDP等協(xié)議的變化,這個過程中必然要發(fā)送大量的TRAP。
無告警
無告警的問題相對復(fù)雜。我們先回顧一下故障的定義,故障是產(chǎn)品或產(chǎn)品的一部分不能或?qū)⒉荒芡瓿深A(yù)期功能的事件或狀態(tài),簡單地說,就是現(xiàn)狀不符合預(yù)期。反之,如果沒有“預(yù)期”,則不會有“故障”。實際上,正是IP網(wǎng)絡(luò)上的預(yù)期無法清晰定義,才導(dǎo)致了“無告警”現(xiàn)象的發(fā)生。我們從控制平面和轉(zhuǎn)發(fā)平面的原理出發(fā),追溯無告警發(fā)生的根源。
控制平面決定源到目的地的業(yè)務(wù)路徑。在傳統(tǒng)的電路網(wǎng)絡(luò)上,管理員靜態(tài)指定主備路徑,每個業(yè)務(wù)的下一跳非主即備,預(yù)期非常清晰。而在IP網(wǎng)絡(luò)上,路由協(xié)議根據(jù)網(wǎng)絡(luò)實際情況選擇最優(yōu)路徑,單個路由器只知下一跳,并不掌握業(yè)務(wù)路徑。因此,當(dāng)鏈路中斷產(chǎn)生路由收斂或者路徑計算錯誤,導(dǎo)致路徑發(fā)生變化時,路由器無法告警業(yè)務(wù)路徑切換。
有這樣一個網(wǎng)上問題:NGN語音業(yè)務(wù)中斷40多分鐘而IP承載網(wǎng)無任何告警,排查中發(fā)現(xiàn)是LSP路徑計算錯誤,其結(jié)果與ISIS路徑不一致而導(dǎo)致業(yè)務(wù)中斷。在這個案例里,建立LSP的協(xié)議并不掌握路徑預(yù)期,因此無法發(fā)現(xiàn)LSP路徑計算錯誤,也就無法發(fā)出告警通知路徑錯誤。
在轉(zhuǎn)發(fā)平面上,IP網(wǎng)絡(luò)不是同步網(wǎng)絡(luò),其轉(zhuǎn)發(fā)機制無法定義預(yù)期,比如,業(yè)務(wù)報文要經(jīng)過路由器A、B順序轉(zhuǎn)發(fā),但是B完全不知道A是否有報文會送到,有報文送到是正常,沒有也是正常,因此當(dāng)A路由器故障無法轉(zhuǎn)發(fā)報文時,B無法告警。
此類故障最常見的情況是路由器間的光纖劣化,光纖上發(fā)生了丟包,但路由器上無告警。對于這類故障的排查需要花費大量的時間,需要按照承載網(wǎng)的轉(zhuǎn)發(fā)路徑,逐個路由器、逐條鏈路去排查,最終才能發(fā)現(xiàn)是光纖故障導(dǎo)致丟包。
理清IP網(wǎng)絡(luò)故障管理難的根源后,排障的思路和措施就比較明確了,下文將給出對告警多和無告警故障的解決之道。
排障
突出根源告警
前文提到,告警數(shù)量多的根源在于層次多、關(guān)聯(lián)多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無效告警派單處理,從而減少工作量。
從網(wǎng)上問題庫中統(tǒng)計發(fā)現(xiàn),IP網(wǎng)絡(luò)的故障根源大部分來自于硬件、鏈路的劣化。尤其是網(wǎng)絡(luò)中的鏈路,如光纖、微波等,容易受到環(huán)境影響,從而導(dǎo)致接口閃斷。接口反復(fù)UP/DOWN,將引發(fā)大量接口的告警,同時又引起IGP協(xié)議收斂,引發(fā)IGP反復(fù)告警,進(jìn)而引發(fā)LSP的反復(fù)告警。即鏈路的告警將衍生出大量的協(xié)議告警。
針對以上情況,本文提出兩種告警優(yōu)化的思路:第一,在告警監(jiān)控中,將告警歸類為環(huán)境、硬件、軟件、接口、鏈路管道、協(xié)議和業(yè)務(wù)等幾個類別,環(huán)境、硬件類告警的處理優(yōu)先級大于協(xié)議、業(yè)務(wù)類告警。高級別告警處理恢復(fù)后,其衍生的低級別協(xié)議告警會自動恢復(fù)。這種方法簡單實用,可短期見效。第二,建設(shè)告警相關(guān)性系統(tǒng),按協(xié)議、業(yè)務(wù)運行關(guān)系定義告警的衍生關(guān)系。在告警監(jiān)控系統(tǒng)上,將衍生告警掛接在根源告警上顯示,管理員直接處理根源告警,這種方法可以比較完善地解決告警多的問題,但建設(shè)困難且周期較長。
解決“無告警故障”的關(guān)鍵在于預(yù)期和現(xiàn)狀的對比,我們?nèi)詮目刂破矫婧娃D(zhuǎn)發(fā)平面分別闡述。
路徑預(yù)期和檢測
盡管IP的控制平面采用了動態(tài)協(xié)議,但其運行的基礎(chǔ)仍然是物理鏈路和SPF(Shortest Path First)算法,鏈路規(guī)劃越簡單,路徑預(yù)期就越清晰。如在大部分的中小型城域網(wǎng)設(shè)計中,網(wǎng)絡(luò)層次少,層次之間采用主備雙鏈路進(jìn)行保護(hù),路徑非主即備。對于這種網(wǎng)絡(luò),只要維護(hù)好網(wǎng)絡(luò)拓?fù)鋱D,就可以滿足故障處理的需要。
對于大型、復(fù)雜的網(wǎng)絡(luò),管理員通過物理鏈路的分布,已無法快速識別業(yè)務(wù)路徑。在這種情況下,需要采用仿真計算的方式,將網(wǎng)絡(luò)上的配置、拓?fù)涞燃械椒抡孳浖?,計算出業(yè)務(wù)的預(yù)期路徑。
預(yù)期建立之后,采用OSS軟件定期獲取路徑的現(xiàn)狀并與預(yù)期對比的方式,若不一致即發(fā)送告警,并提示管理員發(fā)生了IP網(wǎng)絡(luò)故障。中小型、簡單網(wǎng)絡(luò)可以采用TraceRt獲取路徑。大型、復(fù)雜網(wǎng)絡(luò)一般都會存在ECMP(Equal-Cost MultiPath等價多路徑),此類情況一般可以綜合TraceRt、轉(zhuǎn)發(fā)表查詢等方式來詳細(xì)判斷業(yè)務(wù)流的路徑。另一種方式是通過分析IGP的泛洪報文,掌握路徑建立的詳細(xì)過程,根據(jù)路由算法和配置來掌握轉(zhuǎn)發(fā)路徑。
轉(zhuǎn)發(fā)預(yù)期和檢測
在轉(zhuǎn)發(fā)平面上,預(yù)期的建立和檢測非常密切,按照實現(xiàn)方式的不同,可以分為三種情況:非業(yè)務(wù)隨路檢測、業(yè)務(wù)隨路檢測和業(yè)務(wù)分析。
第一種是非業(yè)務(wù)隨路檢測。簡單地說,就是自行定義預(yù)期,在網(wǎng)絡(luò)上注入OAM檢測報文。由于接收方已預(yù)先掌握了檢測報文的大小、時間間隔等特征,當(dāng)收到的報文不符合自行定義的預(yù)期特征時,即是發(fā)生IP網(wǎng)絡(luò)故障。
這種方式的優(yōu)點是容易獲取和實施,網(wǎng)絡(luò)各層面均有OAM檢測協(xié)議可以使用,如BFD、EthOAM、ICMP Ping、MPLS OAM等,缺點是OAM檢測報文特征與業(yè)務(wù)流量特征不完全一致,可能會出現(xiàn)檢測未發(fā)現(xiàn)問題,但實際業(yè)務(wù)卻發(fā)生了問題的情況。
第二種方式是業(yè)務(wù)隨路檢測,直接對業(yè)務(wù)流進(jìn)行度量,典型代表是ITU-T Y.1731標(biāo)準(zhǔn)中定義的丟包統(tǒng)計功能,其原理簡單地說就是“包守恒”,體現(xiàn)在以下的公式:
接收報文數(shù)量=發(fā)送報文數(shù)量
具體實現(xiàn)上,發(fā)送方和接受方都對業(yè)務(wù)流進(jìn)行計數(shù)統(tǒng)計,發(fā)送方定時將計數(shù)發(fā)送到接收方,由接收方進(jìn)行核對,核對出錯即是IP網(wǎng)絡(luò)故障發(fā)生。
第三種是業(yè)務(wù)分析。這種方式度量業(yè)務(wù)數(shù)據(jù),并和預(yù)定義的標(biāo)準(zhǔn)閾值進(jìn)行對比,如針對IPTV業(yè)務(wù),采用專用硬件掛接在設(shè)備端口上,直接度量網(wǎng)絡(luò)上IPTV流量的vMOS值等業(yè)務(wù)指標(biāo)。這種方式需要采用DPI等方式,對實際業(yè)務(wù)報文進(jìn)行采樣統(tǒng)計或深度解析,按照業(yè)務(wù)已經(jīng)定義的預(yù)期,分析其是否出現(xiàn)問題。該方式的優(yōu)點是真實,缺點是設(shè)備部署和維護(hù)的成本高。
這三種方式不是非此即彼的關(guān)系,需要根據(jù)業(yè)務(wù)SLA目標(biāo),綜合采購、維護(hù)成本等因素進(jìn)行考慮和選擇。
【編輯推薦】
◆網(wǎng)管軟件專區(qū)
◆網(wǎng)絡(luò)管理者最易犯的十大低級錯誤
◆網(wǎng)絡(luò)管理基礎(chǔ)知識:網(wǎng)路管理模式
◆學(xué)習(xí)高效網(wǎng)絡(luò)管理技巧三招五式
◆IT運維管理專區(qū)
- 1十七冶在建海外工程合同額達(dá)17億美元
- 2Linux系統(tǒng)運維關(guān)于OpenSSH的基礎(chǔ)講解
- 3信用社會計工作總結(jié)怎么寫
- 4網(wǎng)絡(luò)管理:分析路由器故障的根本原因
- 5LED燈亮化城市地標(biāo),更新城市科技時尚觀
- 6企業(yè)云計算項目建立的三種聯(lián)系
- 7正確配置無線路由器讓網(wǎng)絡(luò)更暢通
- 8在職場中學(xué)習(xí)我們該注意哪些環(huán)節(jié),有哪些法則呢
- 9外企職場知識 實用職場心法分享
- 10OA系統(tǒng)、ERP軟件系統(tǒng)、CRM等新浪、IT信息網(wǎng)站、等等,軟文推廣
- 11重慶泛普OA軟件對XXX協(xié)同辦公需求的理解
- 12自動配置管理工具輕松改寫程序的妙處
- 13重慶泛普OA軟件提供組織內(nèi)外高效的協(xié)作流程引擎
- 14如何實現(xiàn)透明化網(wǎng)絡(luò)管理?
- 15沈陽春節(jié)亮化28條街路 小年夜前“點燈”
- 16OA系統(tǒng)賬號使用姓名的漢語拼音首字母組成
- 17重慶本地有做OA系統(tǒng)做得好的公司嗎?
- 18優(yōu)質(zhì)服務(wù)年工作總結(jié)怎么寫
- 19大渡口:加強路燈維護(hù)管理 提高城市亮化水平
- 20跳槽注意事項有哪些
- 21埃森哲的待遇如何
- 22質(zhì)量控制主管崗位說明書示例
- 23保證路由器安全的十個重要技巧
- 24保證網(wǎng)絡(luò)自動化管理正常運轉(zhuǎn)的十大方法
- 25長沙打造綠色城市亮化景觀 點“靚”璀璨“星”城
- 26如何策劃合適的網(wǎng)絡(luò)拓?fù)涔芾韴D
- 27OA采用先進(jìn)、成熟實用的編碼技術(shù)和安全技術(shù)
- 28漢陰實施一河兩岸亮化等四大工程 城鎮(zhèn)建設(shè)新開局
- 29萊州全市景觀亮化設(shè)施進(jìn)行“體檢”
- 30總經(jīng)理秘書崗位說明書示例
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓