監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

如何應(yīng)對(duì)大數(shù)據(jù)洪流

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

對(duì)存儲(chǔ)容量復(fù)雜而無(wú)止境的需求,讓存儲(chǔ)管理員感到十分頭疼。以下我們將為大家介紹一些如何應(yīng)對(duì)數(shù)據(jù)洪流的方法。

以往只有科研人員、互聯(lián)網(wǎng)巨頭,以及亞馬遜、推特、臉譜和Shutterfly等社交媒體巨頭面臨數(shù)據(jù)洪流的問(wèn)題,但是現(xiàn)在越來(lái)越多的企業(yè)開(kāi)始嘗試通過(guò)大數(shù)據(jù)挖掘來(lái)發(fā)現(xiàn)手中所掌握的有價(jià)值信息,并以此獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。如今,沃爾瑪、金寶湯、輝瑞默克和Wawa連鎖便利店正在為他們的大數(shù)據(jù)制訂一套宏偉的計(jì)劃。

為了更快地回應(yīng)客戶,更好地追蹤客戶信息,以及更迅速地向市場(chǎng)導(dǎo)入新產(chǎn)品,許多公司開(kāi)始投資大數(shù)據(jù)分析。

市場(chǎng)研究機(jī)構(gòu)IDC存儲(chǔ)分析師Ashish Nadkarni稱: “對(duì)于身處互聯(lián)網(wǎng)時(shí)代的任何公司來(lái)說(shuō),如果他們不這樣做,他們的競(jìng)爭(zhēng)對(duì)手就會(huì)先下手為強(qiáng)。”

目前所有機(jī)構(gòu)都被來(lái)自內(nèi)部和外部的數(shù)據(jù)所淹沒(méi)。在這些數(shù)據(jù)中,許多數(shù)據(jù)是實(shí)時(shí)傳輸過(guò)來(lái)的,又有許多數(shù)據(jù)只會(huì)被用上幾分鐘、幾小時(shí)或是幾天時(shí)間。

市場(chǎng)研究公司Aberdeen Group表示,因此帶來(lái)的存儲(chǔ)需求的增長(zhǎng)對(duì)大型企業(yè)來(lái)說(shuō)尤為棘手。在這些大型企業(yè)中,從2010年至2011年,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所需要的存儲(chǔ)容量平均增長(zhǎng)了44%。無(wú)論多大規(guī)模的公司,數(shù)據(jù)存儲(chǔ)需求每隔2.5年就會(huì)翻一番。而且對(duì)視頻存儲(chǔ)、電子表格、格式化數(shù)據(jù)庫(kù)和純非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行優(yōu)化需要不同的工具。

Aberdeen 集團(tuán)虛擬化和存儲(chǔ)分析師Dick Csaplar 稱:“能夠讓存儲(chǔ)方面的花銷不隨存儲(chǔ)需求增長(zhǎng)而增長(zhǎng)是一個(gè)挑戰(zhàn)。”能夠幫助主流大數(shù)據(jù)用戶避免陷入這一惡性循環(huán)的技術(shù)有存儲(chǔ)虛擬化、去重和存儲(chǔ)分層技術(shù)。對(duì)于科研人員、社交媒體網(wǎng)站與仿真項(xiàng)目開(kāi)發(fā)人員等大數(shù)據(jù)重度用戶,面向?qū)ο蟮暮完P(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)都是不錯(cuò)的選擇。

與內(nèi)部日常存儲(chǔ)平臺(tái)相比,以易于訪問(wèn)的格式存儲(chǔ)PB級(jí)(和更大規(guī)模)數(shù)據(jù)所需的系統(tǒng)在設(shè)計(jì)上要更為復(fù)雜。以下是專家對(duì)管理和存儲(chǔ)大數(shù)據(jù)提出的一些建議。

分析數(shù)據(jù)類型

所需的存儲(chǔ)類型取決于要分析的數(shù)據(jù)類型與數(shù)量。全部數(shù)據(jù)均有一個(gè)保存期限。例如,股票報(bào)價(jià)只在價(jià)格變動(dòng)前的一或兩分鐘內(nèi)重要。棒球比賽得分對(duì)于人們來(lái)說(shuō),只需要保存24小時(shí)或是直到下一場(chǎng)比賽前。這一類型的數(shù)據(jù)在最需要的時(shí)候應(yīng)當(dāng)保存在主存儲(chǔ)器中,隨后即可以轉(zhuǎn)移至廉價(jià)的存儲(chǔ)器內(nèi)。多年來(lái)的觀察已經(jīng)證明了這一理念,即被長(zhǎng)期存儲(chǔ)的數(shù)據(jù)通常并不需要存儲(chǔ)在容易被訪問(wèn)到的主驅(qū)動(dòng)器上。

分析存儲(chǔ)容量

在存儲(chǔ)大數(shù)據(jù)時(shí),企業(yè)需要的存儲(chǔ)容量和類型取決于所需要存儲(chǔ)的數(shù)據(jù)大小和這些數(shù)據(jù)的使用時(shí)限。

在大數(shù)據(jù)分析中涉及三種類型的數(shù)據(jù)。Nadkarni稱:“它們能夠?qū)?lái)自多個(gè)來(lái)源的數(shù)據(jù)每秒源源不斷地傳輸給你,在這些數(shù)據(jù)失去時(shí)效性之前,時(shí)間切片應(yīng)當(dāng)為數(shù)分鐘。”這類數(shù)據(jù)包括天氣、交通、社交網(wǎng)絡(luò)上的趨勢(shì)話題和關(guān)于全球事件的Twitter等更新信息。

大數(shù)據(jù)還包括了那些休眠數(shù)據(jù)或是公司為了適度使用而生成和控制的數(shù)據(jù)。

數(shù)據(jù)傳輸需要快速的捕獲和分析能力。Nadkarni稱:“一旦分析了它們,企業(yè)就不再需要它們了。但是對(duì)于休眠數(shù)據(jù)或被控制的數(shù)據(jù),應(yīng)當(dāng)將它們存儲(chǔ)起來(lái)。”

選擇最適用的存儲(chǔ)工具

對(duì)于那些剛開(kāi)始涉足大數(shù)據(jù)存儲(chǔ)和分析的公司,行業(yè)觀察人士建議采用將所有的存儲(chǔ)放在一個(gè)保護(hù)傘下的存儲(chǔ)虛擬化技術(shù)、去重壓縮數(shù)據(jù)技術(shù)和分層存儲(chǔ)方案,以確保最有價(jià)值的數(shù)據(jù)被存儲(chǔ)在最容易被訪問(wèn)的系統(tǒng)中。

存儲(chǔ)虛擬化提供了一個(gè)軟件抽象層,讓用戶無(wú)法找到物理設(shè)備,并且允許所有設(shè)備作為一個(gè)單一的池被管理。盡管服務(wù)器虛擬化已經(jīng)成為了目前上網(wǎng)行為基礎(chǔ)設(shè)施中的一個(gè)成熟組件,但是存儲(chǔ)虛擬化仍然未被廣泛接受。

在2012年2月份,Aberdeen對(duì)106家大型公司進(jìn)行了調(diào)查。結(jié)果顯示,僅有20%的受訪者表示他們擁有一個(gè)單獨(dú)的存儲(chǔ)管理應(yīng)用。平均下來(lái),3個(gè)管理應(yīng)用對(duì)應(yīng)3.2個(gè)存儲(chǔ)設(shè)備。

盡管如此,許多存儲(chǔ)廠商并不愿意讓自己生產(chǎn)的設(shè)備接受其他廠商產(chǎn)品的管理。Csaplar說(shuō):“存儲(chǔ)虛擬化非常復(fù)雜,并且極為耗時(shí)。因此,它們無(wú)法像服務(wù)器虛擬化那樣被廣泛接受。”相反,許多存儲(chǔ)管理員正在關(guān)注針對(duì)第三或第四層存儲(chǔ)的云解決方案。因?yàn)樵品桨改軌蚋鼮槿菀椎卦诓煌A(chǔ)設(shè)施之間轉(zhuǎn)移數(shù)據(jù),同時(shí)可以降低存儲(chǔ)成本。他補(bǔ)充說(shuō):“許多公司已經(jīng)這么做了,并且得到了良好的效果,但這距離人們的期望值還存在一定的差距。”

Csaplar希望看到,隨著網(wǎng)絡(luò)連通性的改善,成本的下降,以及傳輸過(guò)程中數(shù)據(jù)加解密能力的提升,云存儲(chǔ)和其他基于云的計(jì)算資源的使用率在不久的未來(lái)將出現(xiàn)增長(zhǎng)。他說(shuō):“有了云,就可以從運(yùn)營(yíng)預(yù)算中結(jié)算每月的賬單而無(wú)須單獨(dú)的資金預(yù)算。”

去重與壓縮

通過(guò)去重技術(shù),管理員能夠降低所需的存儲(chǔ)空間。由于數(shù)據(jù)壓縮工具可識(shí)別出各個(gè)文件中的重復(fù)字符串,并且每個(gè)文件僅存儲(chǔ)一份拷貝,因此去重過(guò)程可以消除冗余數(shù)據(jù)。

那么這樣一來(lái)可以降低多少存儲(chǔ)需求呢?Aberdeen的調(diào)查報(bào)告顯示,13%的受訪者表示,他們將數(shù)據(jù)大小降低了50%。另有約13%的公司表示,高度重復(fù)的結(jié)構(gòu)化數(shù)據(jù)減少了30%至50%。

存儲(chǔ)分層

一旦公司確定他們將分析哪些數(shù)據(jù),存儲(chǔ)管理員就能夠?qū)⒆钚潞妥钪匾臄?shù)據(jù)放在速度最快、可靠性最高的存儲(chǔ)介質(zhì)上。隨著數(shù)據(jù)的時(shí)效性越來(lái)越差,這些數(shù)據(jù)可以被轉(zhuǎn)移到速度較慢、價(jià)格較便宜的存儲(chǔ)上。具有存儲(chǔ)分層程序自動(dòng)化功能的系統(tǒng)正在受到關(guān)注,但是還沒(méi)有被用戶廣泛采用。

在制訂存儲(chǔ)等級(jí)時(shí),管理員必須要考慮存儲(chǔ)技術(shù)、設(shè)備的速度,以及保護(hù)數(shù)據(jù)安全的RAID的形式。

失效備援的標(biāo)準(zhǔn)解決辦法是復(fù)制,通常以RAID陣列的形式進(jìn)行復(fù)制。在線照片分享網(wǎng)站Shutterfly的高級(jí)副總裁兼首席技術(shù)官Neil Day指出,如果數(shù)據(jù)的規(guī)模過(guò)于龐大,那么RAID所產(chǎn)生的問(wèn)題會(huì)比其解決的問(wèn)題還要多。由于允許用戶無(wú)限量地存儲(chǔ)原始分辨率的照片,因此,目前該網(wǎng)站存儲(chǔ)的數(shù)據(jù)已經(jīng)超過(guò)了30PB。

在傳統(tǒng)的RAID數(shù)據(jù)存儲(chǔ)模式中,每份數(shù)據(jù)的拷貝都被做成鏡像存儲(chǔ)在陣列中的多個(gè)磁盤上,以確保數(shù)據(jù)的完整性和可靠性。不過(guò),這也意味著所存儲(chǔ)和被做成鏡像的每份數(shù)據(jù)在大小方面都翻了五倍。隨著RAID陣列所使用的驅(qū)動(dòng)器容量越來(lái)越大——從密度和能耗方面看,目前,3TB的驅(qū)動(dòng)器最具吸引力——將故障驅(qū)動(dòng)器上的內(nèi)容完整復(fù)制到新驅(qū)動(dòng)器上所需要的時(shí)間正變得越來(lái)越長(zhǎng)。

Shutterfly最終選擇了糾刪碼技術(shù)。通過(guò)該技術(shù),每片數(shù)據(jù)能夠被分成小數(shù)據(jù)塊,并分散存儲(chǔ)在不同的磁盤驅(qū)動(dòng)器或服務(wù)器內(nèi),而這些小塊本身并沒(méi)有意義。任何時(shí)候,即使由于驅(qū)動(dòng)器故障導(dǎo)致多個(gè)小數(shù)據(jù)塊遺失,其余的部分小數(shù)據(jù)塊也可以完整復(fù)原數(shù)據(jù)。換句話說(shuō),不再需要?jiǎng)?chuàng)建多份數(shù)據(jù)拷貝,單一實(shí)例能夠確保數(shù)據(jù)的完整性和可靠性。由于糾刪碼技術(shù)是一種基于軟件的技術(shù),因此這種技術(shù)能夠與商業(yè)化硬件一起使用,甚至可以降低大規(guī)模部署的成本。

Cleversafe是最早的糾刪碼軟件廠商之一。該公司通過(guò)添加位置信息研發(fā)了一種被稱為分散編碼的技術(shù),允許用戶在地理上相互獨(dú)立的地方,如多數(shù)據(jù)中心內(nèi)存儲(chǔ)小數(shù)據(jù)塊或是數(shù)據(jù)切片。

超級(jí)大數(shù)據(jù)用戶

像Shutterfly這樣有著海量存儲(chǔ)需求的公司必須提前考慮塊存儲(chǔ)。Nadkarni稱:“在談?wù)揚(yáng)B級(jí)海量數(shù)據(jù)集時(shí),企業(yè)必須要開(kāi)始關(guān)注對(duì)象存儲(chǔ)或分布式文件系統(tǒng)了。可以考慮EMC的Isilon集群存儲(chǔ)和戴爾Fluid文件系統(tǒng)等商業(yè)解決方案或是開(kāi)源方案。它們必須能夠以更低的成本存儲(chǔ)數(shù)據(jù),并且能夠提供更優(yōu)秀的性價(jià)比。此外,它們還要具備可擴(kuò)展性。”

他補(bǔ)充道,商業(yè)軟件的用戶常常會(huì)存儲(chǔ)一些用完即棄的一次性數(shù)據(jù),并且?guī)缀鯖](méi)有后處理需求。

不再需要存儲(chǔ)管理員

在正確部署后,存儲(chǔ)虛擬化、去重、存儲(chǔ)分層和糾刪碼技術(shù)可降低企業(yè)對(duì)管理人員的需求,因?yàn)檫@些工具能夠讓通過(guò)單一虛擬管理平臺(tái)管理數(shù)據(jù)。在Shutterfly的案例中,自動(dòng)化存儲(chǔ)基礎(chǔ)設(shè)施允許公司降低維護(hù)人員的增長(zhǎng)速度,隨著公司日常維護(hù)工作的減少,管理員可以將更多的時(shí)間花在一些具有前瞻性的項(xiàng)目上。

Nadkarni稱,在一些案例中,大數(shù)據(jù)項(xiàng)目由一些特殊團(tuán)隊(duì)完成,而不是傳統(tǒng)的上網(wǎng)行為員工。“這些項(xiàng)目由公司的業(yè)務(wù)部門負(fù)責(zé)掌管與運(yùn)營(yíng),因?yàn)樯暇W(wǎng)行為基礎(chǔ)設(shè)施在靈活性上無(wú)法支持大數(shù)據(jù)環(huán)境,或是沒(méi)有掌握大數(shù)據(jù)所需要的相關(guān)技能。”

“在這些項(xiàng)目中可能沒(méi)有存儲(chǔ)管理員的身影,或者他們只扮演一個(gè)非常小的角色,所有的工作都將由系統(tǒng)人員完成。”

未來(lái)發(fā)展趨勢(shì)

Nadkarni認(rèn)為將計(jì)算層轉(zhuǎn)移至數(shù)據(jù)層之中的概念將會(huì)流行起來(lái)。“應(yīng)當(dāng)關(guān)注由Cleversafe提供的解決方案,以及其他存儲(chǔ)提供商提出的在存儲(chǔ)層中植入計(jì)算功能的解決方案。目前我們?cè)僖矡o(wú)法輕易地將數(shù)據(jù)轉(zhuǎn)移至計(jì)算層。可以說(shuō)這實(shí)際上已經(jīng)是不可能的了,尤其是當(dāng)需要在數(shù)據(jù)失去時(shí)效性之前只有幾分鐘時(shí)間分析它們的情況下。所以為什么不將計(jì)算層轉(zhuǎn)移至數(shù)據(jù)存儲(chǔ)層之中呢?”

Cleversafe針對(duì)Shutterfly等大數(shù)據(jù)重度用戶提供了一個(gè)高端的Hadoop解決方案,不過(guò)他們目前正在嘗試將其變成一個(gè)通用解決方案。Nadkarni稱:“Cleversafe打破了從一家廠商那里采購(gòu)計(jì)算力,再?gòu)钠渌麖S商那里采購(gòu)應(yīng)用存儲(chǔ)的模式。為了在主流企業(yè)中獲得成功,公司的業(yè)務(wù)部門必須要開(kāi)拓思路。我認(rèn)為它們最終將會(huì)受到廣泛認(rèn)可,因?yàn)槟壳澳J降男什⒉贿m合大數(shù)據(jù)的需求。”

他補(bǔ)充道:“大數(shù)據(jù)是公司保持競(jìng)爭(zhēng)優(yōu)勢(shì)的工具。為了最大限度地利用手中的數(shù)據(jù),公司必須要調(diào)整處理程序和使用方式,以便更加迅速地從這些數(shù)據(jù)中挖掘出它們所蘊(yùn)含的價(jià)值。”

Csaplar警告說(shuō):“在投資新的大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施之前,公司必須要做好調(diào)查研究和前期準(zhǔn)備工作。仔細(xì)研究它們,多與那些已經(jīng)部署了大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施的公司進(jìn)行溝通。大數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施并不是什么尖端的東西,與已經(jīng)部署了它們的人進(jìn)行溝通,可以讓你在部署過(guò)程中避免犯下相同的錯(cuò)誤。”(更多內(nèi)容詳見(jiàn): http://www.cnw.com.cn/P/4729)

Hadoop不再是唯一的選擇

目前,“大數(shù)據(jù)”概念的范圍得到了很大程度的延伸。以前,大數(shù)據(jù)這一術(shù)語(yǔ)指那些對(duì)科研人員和社交媒體網(wǎng)站等高級(jí)用戶頻繁查詢、迅速做出響應(yīng)的復(fù)雜數(shù)據(jù)。如今,大數(shù)據(jù)這一概念中包括了大多數(shù)公司必須存儲(chǔ)的海量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

盡管Hadoop和Cassandra開(kāi)源系統(tǒng)是大數(shù)據(jù)存儲(chǔ)和分析的理想選擇,但是目前許多廠商已經(jīng)開(kāi)始在調(diào)整他們的存儲(chǔ)系統(tǒng),以應(yīng)對(duì)數(shù)以PB計(jì)的數(shù)據(jù),以及提供更便捷的分析方法。

IBM 存儲(chǔ)產(chǎn)品營(yíng)銷管理策略副總裁Ed Walsh 稱:“以往大數(shù)據(jù)是頂級(jí)大型公司才使用的工具,現(xiàn)在幾乎所有的公司都在利用大數(shù)據(jù)從數(shù)據(jù)中獲得洞察力。你最好有一個(gè)高效的存儲(chǔ),否則成本將非常龐大。此外,相關(guān)的應(yīng)用也要具有良好的性能,并且能夠動(dòng)態(tài)調(diào)整。”

IBM花了數(shù)年時(shí)間研發(fā)了一套包括Hadoop在內(nèi)的高性能存儲(chǔ)與分析產(chǎn)品,以及相關(guān)技術(shù)。IBM在去年六月份正式向市場(chǎng)推出了一套名為IBM智能存儲(chǔ)的存儲(chǔ)與分析產(chǎn)品。IBM還表示,這是他們首套整合了Platform Computing公司軟件的解決方案,旨在服務(wù)更多的企業(yè)客戶。IBM在2012年年初收購(gòu)了技術(shù)和分布式計(jì)算管理軟件制造商Platform Computing公司。

Walsh 表示:“我們這么做的原因是因?yàn)槲覀儞碛幸惶追浅M暾漠a(chǎn)品組合。這套產(chǎn)品不再像以往那樣復(fù)雜,它們可以幫助用戶更加全面地洞察發(fā)展趨勢(shì),讓用戶知道他們應(yīng)當(dāng)嘗試?yán)檬种械臄?shù)據(jù)做哪些工作。”

 

本文轉(zhuǎn)載自企業(yè)級(jí)上網(wǎng)行為信息服務(wù)平臺(tái)-網(wǎng)界網(wǎng)-CNW.com.cn
原文地址:http://www.cnw.com.cn/weekly/htm2013/20130301_264872_2.shtml

 

【推薦閱讀】

網(wǎng)管軟件專區(qū)

網(wǎng)絡(luò)管理維護(hù)技巧:實(shí)現(xiàn)VLAN環(huán)境下DHCP服務(wù)

網(wǎng)管員技巧:學(xué)會(huì)限制路由器多臺(tái)電腦上網(wǎng)

網(wǎng)絡(luò)管理維護(hù)技巧:路由器故障排除技巧

上網(wǎng)行為運(yùn)維管理專區(qū)

本文來(lái)自互聯(lián)網(wǎng),僅供參考
發(fā)布:2007-04-15 10:03    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
相關(guān)軟件
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢