監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

走出存儲(chǔ)錯(cuò)誤管理的困境 讓工作生活更輕松

申請免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

現(xiàn)在存儲(chǔ)廠商和開源社區(qū)推出了很多可以從數(shù)據(jù)路徑的各個(gè)方面解決SNMP數(shù)據(jù)集的產(chǎn)品套件,從HBA到存儲(chǔ)設(shè)備。

而且目前許多存儲(chǔ)設(shè)備都支持由存儲(chǔ)網(wǎng)絡(luò)行業(yè)協(xié)會(huì)(Storage Networking Industry Association,SNIA)制訂的存儲(chǔ)管理技術(shù)規(guī)格(Storage Management Initiative Specification,SMI-S)

我一直有一個(gè)疑問,是否這些管理技術(shù)可以滿足有所存儲(chǔ)管理者的需求?隨著我遇到的存儲(chǔ)難題越來越多,加上與用戶和合作伙伴之間的交流,我發(fā)現(xiàn)這個(gè)問題的答案完全是否定的。

網(wǎng)絡(luò)錯(cuò)誤管理架構(gòu)和錯(cuò)誤功能性在不同規(guī)格下(例如ICMP、IP、TCP、SONET以及以太網(wǎng)等等)發(fā)展到成熟階段以滿足更多需求經(jīng)歷了數(shù)十年的時(shí)間。SNMP 1.0自1991年5月就已經(jīng)推出了,它是由RFC執(zhí)行的——一項(xiàng)標(biāo)準(zhǔn)IETF執(zhí)行方法。

那么缺少了什么?就我個(gè)人來看,我認(rèn)為數(shù)據(jù)路徑的錯(cuò)誤管理架構(gòu)缺失了兩大重要因素:

·對存儲(chǔ)設(shè)備內(nèi)部情況的全面了解

·對從每個(gè)連接的渠道錯(cuò)誤率的詳細(xì)信息

存儲(chǔ)設(shè)備錯(cuò)誤的詳細(xì)信息

對磁盤和磁帶驅(qū)動(dòng)器的錯(cuò)誤信息細(xì)節(jié)實(shí)際上是可以追蹤到的。對于磁帶驅(qū)動(dòng)器來說,針對驅(qū)動(dòng)器的錯(cuò)誤信息被保留下來,這樣實(shí)際上我們是可以追蹤到錯(cuò)誤條件信息的。不過這兩種情況并非表面看上去那么簡單,那么就讓我們來看一看磁帶和磁盤的這兩種情況。

磁帶

所有磁帶驅(qū)動(dòng)器都有磁道錯(cuò)誤,就像任何一種硬件設(shè)備一樣。除此之外,所有磁帶都有錯(cuò)誤和生命期限(life span)。當(dāng)你使用的磁帶接近生命期限快要結(jié)束的時(shí)候,你可能就會(huì)遇到更多的錯(cuò)誤。這些錯(cuò)誤起初大多是“軟錯(cuò)誤”,然后逐漸演變成“硬錯(cuò)誤”,也就是說,最終你甚至無法讀取數(shù)據(jù)。那么你如何找到這些錯(cuò)誤,并在“軟錯(cuò)誤”轉(zhuǎn)變成“硬錯(cuò)誤”之前將其化解?

當(dāng)然,這做起來要比說起來難得多。磁帶錯(cuò)誤數(shù)據(jù)是由驅(qū)動(dòng)器決定的。你需要做的就是將一種被稱為通過指令的特殊SCSI指令發(fā)送到驅(qū)動(dòng)器,這是一種低層級驅(qū)動(dòng)器指令,驅(qū)動(dòng)器可以在SCSI通過指令的請求下報(bào)告錯(cuò)誤信息。當(dāng)數(shù)據(jù)被收集的時(shí)候,錯(cuò)誤信息也可以被驅(qū)動(dòng)器和驅(qū)動(dòng)器中的磁帶盒收集起來,所以這些錯(cuò)誤以及用于收集LTO驅(qū)動(dòng)器錯(cuò)誤數(shù)據(jù)的指令要不同于Sun T10000磁帶驅(qū)動(dòng)器上的錯(cuò)誤和指令的。

這是非常復(fù)雜的,而且對于一些磁帶驅(qū)動(dòng)器和磁帶庫來說,這是沒有證明文件的,所以有時(shí)候你需要一項(xiàng)未公布的協(xié)議來獲取磁帶驅(qū)動(dòng)器和磁帶庫的信息和不同錯(cuò)誤的位置。這對于軟件產(chǎn)品來說實(shí)際上是一個(gè)機(jī)會(huì),不少廠商都有可以為不同類型磁帶驅(qū)動(dòng)器設(shè)備收集和提供這些數(shù)據(jù)信息的產(chǎn)品。這些產(chǎn)品具有不同的功能特性以及顯示數(shù)據(jù)的方式。有些產(chǎn)品在大型環(huán)境下比其他產(chǎn)品具有更好的可擴(kuò)展性,但是你可以有多種選擇。你檢查環(huán)境中的“軟錯(cuò)誤”過程中,這些產(chǎn)品是有很大幫助作用的,這些產(chǎn)品可以幫助你在這些磁帶、驅(qū)動(dòng)器和設(shè)備的軟錯(cuò)誤轉(zhuǎn)變成硬錯(cuò)誤之前將其解決掉。

那么這其中還存在什么問題嗎?這些產(chǎn)品集成到了其他環(huán)境下的錯(cuò)誤管理架構(gòu)中了嗎?與一些SNMP警報(bào)相比,從單一管理架構(gòu)中獲得這些數(shù)據(jù)并非易事。

磁盤

談到磁盤硬件監(jiān)控,你也將面臨類似的難題。磁盤有一個(gè)錯(cuò)誤值的指令集,它可以通過SMART技術(shù)收集和定義。如果你有JBOD或者低端RAID的話,你就可以購買這種套件來收集這些SMART數(shù)據(jù)。

那么那些擁有來自不同廠商的大型RAID系統(tǒng)的人怎么辦?所有這些廠商都根據(jù)他們從驅(qū)動(dòng)器廠商那里收集來的信息以及他們自己多年積累下來的數(shù)據(jù)信息實(shí)現(xiàn)對SMART數(shù)據(jù)的監(jiān)控以及預(yù)先檢測出可能發(fā)生故障的驅(qū)動(dòng)器,出于某些對性能有具體要求的情況,一些廠商選擇更換驅(qū)動(dòng)器,而不會(huì)接受重新嘗試低性能的產(chǎn)品,尤其是一些使用SATA驅(qū)動(dòng)器的廠商。所有這些都很好,但是你卻無法詳細(xì)了解其中的信息,所有這些都是向RAID控制器中完成和管理的,你看不到其中任何情況。

因此我們再次提出,這其中存在什么問題?我有一些問題和擔(dān)心。

·正如弗朗西斯·培根所說,知識(shí)就是力量。我希望了解RAID控制器內(nèi)發(fā)生的什么、其中作出了怎樣的決策、為什么會(huì)發(fā)生磁盤驅(qū)動(dòng)器故障。

·在過去10年時(shí)間內(nèi),我很多次看到一個(gè)現(xiàn)象——尤其是在新驅(qū)動(dòng)器產(chǎn)品發(fā)布的時(shí)候,驅(qū)動(dòng)器的故障率是很高的。如果我之前了解到一些相關(guān)數(shù)據(jù)的話,也許我對廠商提供的這些故障率有一些心理準(zhǔn)備了(當(dāng)然,他們是不希望讓我知道的)。

·沒有一個(gè)錯(cuò)誤信息被集成到了這種環(huán)境中,所有我能獲取到的也許就是一些SNMP警報(bào)或者一些訪問RAID控制器的細(xì)節(jié)信息。

出于這些原因,我更愿意讓RAID廠商為我提供一些表面之下的深層數(shù)據(jù)信息,這樣我就可以作出更好的決策。問題是,你如何在一個(gè)企業(yè)監(jiān)控架構(gòu)之下獲得所有這些數(shù)據(jù)?答案是:并不容易。

通道錯(cuò)誤率

光纖通道和其他許多技術(shù)都有一個(gè)第10E12位的渠道錯(cuò)誤率,但是通過糾錯(cuò)代碼可以修正到一個(gè)更高的數(shù)字。就我所知,光纖通道已經(jīng)被修正到大約第10E21位。這就意味著超過這個(gè)范圍之外的錯(cuò)誤或者不能被檢測出來,或者被誤修正。

但是我一直在想一個(gè)問題,如果通道被損壞的話會(huì)發(fā)生什么情況(參看文章:無形中的數(shù)據(jù)損失 何時(shí)突破技術(shù)局限?)。如果通道錯(cuò)誤率是第10E12位,然后開始出現(xiàn)問題,這對第10E21的糾錯(cuò)率有怎樣的影響、什么時(shí)候通道開始出現(xiàn)問題?那么第10E11或者第10E10的錯(cuò)誤率呢?我還無法回答這些問題,至少是公開回答。不管數(shù)字是多少,糾錯(cuò)率在一個(gè)非線性環(huán)境下會(huì)有所降低。當(dāng)然這方面我沒有任何可以公開的信息,但是我可以說這也許是非常大幅度的降低,我估計(jì)大約是4到5個(gè)數(shù)量級。這就是為什么我希望收集這方面信息、能夠?qū)⑵渑c整個(gè)數(shù)據(jù)路徑聯(lián)系起來的原因。

實(shí)際上是有很多關(guān)于整個(gè)數(shù)據(jù)路徑的錯(cuò)誤數(shù)據(jù)和信息的,但問題是沒有一種通用的方法來通過一個(gè)管理工具或者所有這些數(shù)據(jù)信息。我經(jīng)常從使用一款工具到另一款工具來檢測問題所在。隨著存儲(chǔ)環(huán)境變得越來越復(fù)雜,能夠?qū)⑺袛?shù)據(jù)路徑錯(cuò)誤、警報(bào)以及低層級數(shù)據(jù)聯(lián)系到一起固然是件好事。SNMP警報(bào)就是這樣,總是無法給你提供關(guān)于什么導(dǎo)致了警報(bào)的信息。也許我的問題太多了,但是將這些問題解決也許就能讓許多人的工作生活更加輕松。(存儲(chǔ)時(shí)代)

發(fā)布:2007-04-22 09:11    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普重慶OA信息化其他應(yīng)用

重慶OA軟件 重慶OA新聞動(dòng)態(tài) 重慶OA信息化 重慶OA客戶 重慶OA快博 重慶OA行業(yè)資訊 重慶軟件開發(fā)公司 重慶網(wǎng)站建設(shè)公司 重慶物業(yè)管理軟件 重慶餐飲管理軟件 重慶倉庫管理系統(tǒng) 重慶門禁系統(tǒng) 重慶微信營銷 重慶ERP 重慶監(jiān)控公司 重慶金融行業(yè)軟件 重慶B2B、B2C商城系統(tǒng)開發(fā) 重慶建筑施工項(xiàng)目管理系統(tǒng)開發(fā)