監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

重復數(shù)據(jù)刪除與壓縮孰優(yōu)孰劣?

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

容量優(yōu)化長期以來是次級存儲的事情:次級存儲上主要是數(shù)量眾多的重復數(shù)據(jù)(常常是磁盤到磁盤備份的產(chǎn)物)和要求不太高的I/O模式。應對這方面難題的解決方案很多,包括結(jié)合了諸多創(chuàng)新技術(shù)的方案,如文件單一實例、固定和可變長度的子文件重復數(shù)據(jù)刪除、壓縮及更多技術(shù)。這個領域的解決方案證明了它們有時能夠把存儲數(shù)據(jù)縮減到原來所占空間的1/20,或者縮減得更多。由于容量優(yōu)化有著如此誘人的發(fā)展前景,類似解決方案的市場規(guī)模已超過20億美元。

對于為支持近乎失控的數(shù)據(jù)增長而焦頭爛額的IT經(jīng)理來說,這些技術(shù)無疑在其他方面(即次級存儲以外的方面)也有用武之地。而最明顯的莫過于所有那些數(shù)據(jù)的真正根源:主存儲。但是對于將興趣付諸實踐的IT經(jīng)理來說,嘗試往往以失敗告終。不像大多數(shù)次級存儲環(huán)境,主存儲對性能往往極其敏感,而且不包括數(shù)量眾多的幾乎相同的數(shù)據(jù)。如果運用重復數(shù)據(jù)刪除技術(shù),對于那些幾乎相同的數(shù)據(jù)就能得到立竿見影的效果。

刪重VS. 壓縮

我們需要一系列獨特的功能來優(yōu)化存儲數(shù)據(jù)在主存儲上占用的空間。特別是,很難在不影響應用性能的情況下對主存儲進行優(yōu)化,無論是文件還是數(shù)據(jù)塊。主存儲中的隨機I/O模式,加上生產(chǎn)應用對性能的嚴格要求,已經(jīng)使得對主存儲容量進行優(yōu)化成為幾乎不可能接受的挑戰(zhàn)。

就在不久前,還沒有切實可行的方法來克服上述問題。由于現(xiàn)有的重復數(shù)據(jù)刪除技術(shù)對存儲性能、數(shù)據(jù)完整性及/或數(shù)據(jù)管理流程有影響,通常不盡如人意。幸好對用戶們來說,如今出現(xiàn)了一類新的數(shù)據(jù)壓縮解決方案,它們有望克服主存儲優(yōu)化(Primary Storage Optimization,PSO)的特定挑戰(zhàn)。

對照主存儲優(yōu)化的標準,讓我們看看重復數(shù)據(jù)刪除(刪重)和壓縮這兩項主要競爭技術(shù)的相比較結(jié)果如何。

重復數(shù)據(jù)刪除技術(shù)可以找出冗余數(shù)據(jù)塊,然后只保存一個副本,從而縮減數(shù)據(jù)集的大小。但盡管重復數(shù)據(jù)刪除通常能為備份數(shù)據(jù)流提供12:1到20:1的壓縮比,但在大多數(shù)主存儲環(huán)境下,這個壓縮比會跌到2:1。

更重要的是,重復數(shù)據(jù)刪除會導致性能下降,而這不符合主存儲的要求。在主存儲中,存儲系統(tǒng)常常超量配置,就是為了獲得性能的提高。盡管固態(tài)磁盤(SSD)等下一代技術(shù)能提高性能,且能減少磁盤的數(shù)量,但耗費內(nèi)存、造成延遲的重復數(shù)據(jù)刪除還沒有為此做好準備。

重復數(shù)據(jù)刪除給如今的控制器帶來了太長的周期和太大的開銷,原因在于工作過程涉及諸多步驟,如緩存數(shù)據(jù)塊、在內(nèi)存中的B樹或類似索引中跟蹤引用、擴大和縮小模式匹配窗口、緩存和重寫進入到磁盤上的數(shù)據(jù)流。這類開銷(取代傳統(tǒng)上的數(shù)據(jù)從控制器傳輸?shù)酱疟P),加上毫秒級的旋轉(zhuǎn)磁盤延遲(SSD的延遲較短),明顯影響了許多應用工作負載的性能,尤其是有大量活躍數(shù)據(jù)的工作負載。所以,適合運用重復數(shù)據(jù)刪除的數(shù)據(jù)仍然很有限。重復數(shù)據(jù)刪除的數(shù)據(jù)縮減也許好處很明顯,高度冗余、以讀操作為主的數(shù)據(jù)集增加額外延遲也在所不惜。一些用戶發(fā)現(xiàn),用戶主目錄和VMware或Hyper-V的啟動映像就是這種情況,它們含有大量相互重疊、相對靜態(tài)的數(shù)據(jù)。

現(xiàn)在再來談談數(shù)據(jù)壓縮方法,評估它們?yōu)橹鞔鎯?yōu)化準備的情況。就在不久前,還無法在不影響性能或危及數(shù)據(jù)完整性的情況下實時壓縮數(shù)據(jù)。但是Storwize等廠商提供的新技術(shù)已改變了態(tài)勢,讓壓縮不但切實可行,還成為適合主存儲優(yōu)化(PSO)的方案。

壓縮解決方案各不相同,如今最先進的解決方案是指網(wǎng)絡內(nèi)(帶內(nèi))設備,除了內(nèi)置或控制器功能外,它們還能壓縮數(shù)據(jù),并能針對分布在多個系統(tǒng)上的數(shù)據(jù)集進行壓縮。這種帶內(nèi)解決方案能夠提供全速存儲性能,又不給現(xiàn)有的控制器帶來負擔(實際上它們還能優(yōu)化控制器的交互),同時運用最先進的壓縮算法。

實時壓縮又是如何進行的呢?這種方法通常使用介于NAS存儲陣列(運行NFS或CIFS)和數(shù)據(jù)用戶之間的硬件設備。使用Lempel-Ziv(LZ)等標準壓縮技術(shù),以壓縮格式寫入的每個文件完全保留了原始數(shù)據(jù)的完整性,而訪問或重新創(chuàng)建原始文件所需的全部信息都包含在剛剛壓縮的文件里面。這種“無損”壓縮方法確保了數(shù)據(jù)完整性不受到危及,這對于遵循《健康保險可攜性及責任性法案》(HIPAA)和《薩班斯-奧克斯利法案》等重要的行業(yè)法規(guī)來說至關(guān)重要。而相比之下,重復數(shù)據(jù)刪除技術(shù)用指向其他數(shù)據(jù)的指針取代文件級和子文件級的數(shù)據(jù)模式,從理論上來說,這些指針可能會出現(xiàn)引用錯誤。

帶內(nèi)解決方案在整條數(shù)據(jù)路徑提供了端到端驗證機制,可以提供更好的完整性。由于保留了數(shù)據(jù)完整性以及在硬件設備里操作,這種壓縮滿足了PSO標準中的第三和第四個標準(見鏈接一)。

但更重要的是,實時嵌入式壓縮把主存儲容量的需求平均減少了50%到90%,有效壓縮比隨存儲數(shù)據(jù)的類型不同而有變化。比如說,數(shù)據(jù)庫和文本文件通常能獲得超過80%的壓縮比;而PDF和其他格式文檔的壓縮比通常只有50%。

壓縮還可以改善底層存儲系統(tǒng)的整體性能,其累加效應完全抵消了極小的硬件設備開銷。這種解決方案在數(shù)據(jù)最初寫入時壓縮數(shù)據(jù),因而形成的磁盤I/O比較少,還減輕了磁盤的工作負載。數(shù)據(jù)壓縮后傳送到存儲陣列,增加了存儲緩存的有效容量,讓陣列可以滿足來自讀寫緩存的更多請求。由于讀寫在緩存里面而不是在磁盤上得到實現(xiàn),所以使讀寫速度加快了。為了進一步加快讀取速度,帶內(nèi)設備可通過設備緩存來加大陣列緩存。

目前在這個市場中提供解決方案的主要廠商是Storwize。在IBM與Storwize共同進行的一系列性能測試中,這兩家公司設法比較了壓縮給各種應用工作負載在吞吐量和響應時間方面帶來的影響。在TPC-C基準測試中,與不使用壓縮的基準情況相比,壓縮設備大大縮短了響應時間,提高了吞吐量,還降低了NAS系統(tǒng)上的CPU和磁盤占用率。結(jié)論是,這種壓縮解決方案起碼能保持應用性能;在許多情況下,還能提升應用性能。

此外,壓縮的好處還會造福于存儲數(shù)據(jù)的整個生命周期,而不僅僅造福于主存儲。它不像重復數(shù)據(jù)刪除技術(shù),當數(shù)據(jù)訪問時會重新膨脹(re-inflated)。壓縮后的數(shù)據(jù)仍可以保持壓縮狀態(tài),只要壓縮設備仍在帶內(nèi),那么數(shù)據(jù)訪問時,不需要“重新膨脹”或解壓縮。由于數(shù)據(jù)在存儲層之間轉(zhuǎn)移時,壓縮機制仍在原來位置,壓縮后數(shù)據(jù)甚至可以優(yōu)化存儲,避開法規(guī)遵從等棘手問題。此外,壓縮后的數(shù)據(jù)轉(zhuǎn)移到近線或離線存儲庫后,仍可以借助其他廠商的重復數(shù)據(jù)刪除算法來加以優(yōu)化。

給存儲經(jīng)理的建議

如今主存儲環(huán)境中的數(shù)據(jù)存儲區(qū)(data store)在迅速變大,加上維護或提升性能服務級別的要求,優(yōu)化主存儲顯得必不可少。這對存儲經(jīng)理和公司的利潤來說都事關(guān)重大。存儲經(jīng)理再也不能通過投入更多資金和運營資源來應對挑戰(zhàn)的辦法,以應對存儲容量的瘋狂增長和更嚴格服務級別協(xié)議(SLA)所帶來的雙重挑戰(zhàn)。此外,容量與性能之爭現(xiàn)在上升到了新的水平——SSD技術(shù)蓄勢待發(fā),等待合適的存儲架構(gòu)和價位,從而變成主流。但就算SSD成為主流,其較小的容量也會加劇存儲經(jīng)理面臨的容量問題。添加SSD很可能變成為了提升性能而超量配置容量,這是一種過時的做法,會給存儲管理員帶來新的壓力,必須優(yōu)化主存儲容量。

一些廠商的重復數(shù)據(jù)刪除技術(shù)處理近線數(shù)據(jù)和備份數(shù)據(jù)時效果非常好,比如EMC(Data Domain)、Exagrid、飛康、NetApp、昆騰、Sepaton及其他廠商。對于擁有先進的重復數(shù)據(jù)刪除和優(yōu)化架構(gòu)的一些廠商來說,比如GreenBytes、Ocarina和Permabit,重復數(shù)據(jù)刪除增強了其優(yōu)化主存儲庫中數(shù)據(jù)的功能。但是對主存儲的關(guān)鍵任務生產(chǎn)工作負載來說,重復數(shù)據(jù)刪除還不是首選的解決方案。

帶內(nèi)壓縮是重復數(shù)據(jù)刪除之外的一種切實可行的選擇。我們建議用戶考慮其主存儲基礎設施中磁盤上數(shù)據(jù)的成本影響,考慮使用以實時嵌入的方式壓縮數(shù)據(jù),然后傳送到存儲陣列的外部PSO設備。此外,為了避免影響數(shù)據(jù)完整性和法規(guī)遵從,IT經(jīng)理應該只考慮提供無損壓縮的解決方案。

如果用戶選擇了正確的數(shù)據(jù)壓縮解決方案,勢必會得到諸多好處,包括提高存儲效率,在整個數(shù)據(jù)生命周期內(nèi)減少容量、降低成本。在更大的背景下,如果容量優(yōu)化策略結(jié)合針對主存儲的數(shù)據(jù)壓縮與針對次級存儲的重復數(shù)據(jù)刪除,有望讓企業(yè)能夠從存儲方面投入的資本支出和運營支出得到最大的回報。

發(fā)布:2007-04-21 11:08    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
長沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普長沙OA軟件行業(yè)資訊其他應用

長沙OA 長沙新聞動態(tài) 長沙OA信息化 長沙OA快博 長沙OA軟件行業(yè)資訊 長沙軟件開發(fā)公司 長沙門禁系統(tǒng) 長沙物業(yè)管理軟件 長沙倉庫管理軟件 長沙餐飲管理軟件 長沙網(wǎng)站建設公司