監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

利用云計算做數(shù)據(jù)遷移將面臨的挑戰(zhàn)

申請免費試用、咨詢電話:400-8352-114

數(shù)據(jù)遷移是一項十分慎重的工作,一不小心即將面臨數(shù)據(jù)丟失的危險。大家都知道云存儲可以按需擴展,我們可以利用云計算技術(shù)做數(shù)據(jù)遷移工作。


云可以將大量服務器貢獻于某一具體任務。很多人都了解到,云計算和數(shù)據(jù)倉庫是合理的一對。數(shù)據(jù)倉庫通用功能是本地數(shù)據(jù)分析工具,受到計算和存儲資源的限制,同時也受到設(shè)計者考慮新數(shù)據(jù)源集成的能力的限制??朔@些數(shù)據(jù)遷移的挑戰(zhàn)之后,便能將一個數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個問題。


云端數(shù)據(jù)管理通常牽扯到在分布式文件系統(tǒng)中加載和維護文件,像Hadoop分布式文件系統(tǒng)(HDFS),隨后用類似MapReduce這樣的工具處理數(shù)據(jù)。對于數(shù)據(jù)倉庫和其他的分析人物,像Hive這樣的數(shù)據(jù)庫工具在分布式文件系統(tǒng)之上提供了類SQL的功能。


盡管傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和云端非關(guān)系型數(shù)據(jù)庫之間可以并行描述,但是在兩個片段之間轉(zhuǎn)移數(shù)據(jù)時,不同的運行方式會導致問題。抽取、轉(zhuǎn)換和加載流程甚至會造成更多挑戰(zhàn)。


數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項挑戰(zhàn)。如果由于數(shù)據(jù)量的增長,數(shù)據(jù)倉庫面臨性能或者存儲問題,可能就是時候考慮使用運資源了。下面提供了一些工具來協(xié)助從關(guān)系型數(shù)據(jù)庫加載數(shù)據(jù)到云文件系統(tǒng)和數(shù)據(jù)庫。


專業(yè)工具,像Sqoop(SQL-to-Hadoop)生成代碼從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù),并將其拷貝到HDFS或者Hive。Sqoop使用JDBC驅(qū)動,同多種類型的關(guān)系型數(shù)據(jù)庫工作,但是通過JDBC推出大量數(shù)據(jù)導致了性能成本。


為了數(shù)據(jù)遷移到云端,從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù)時,你可能需要進行數(shù)據(jù)轉(zhuǎn)換。如果你所工作的所有數(shù)據(jù)來自于單一數(shù)據(jù)庫,就可以在源數(shù)據(jù)庫中進行轉(zhuǎn)換。如果從兩個分離的系統(tǒng)合并數(shù)據(jù),在抽取之后再轉(zhuǎn)移數(shù)據(jù)源更有效。然而,你應該在加載數(shù)據(jù)到最終數(shù)據(jù)存儲庫之前做這些。Cascading數(shù)據(jù)處理API可以協(xié)助這項任務的進行。


Cascading提供了運行在Hadoop之上的功能,像工作流處理、計劃和調(diào)度。就比如說,它同管道過濾器工作;數(shù)據(jù)應用過濾器通過管道從一個源流到目的源。其他功能像grouping可以應用于數(shù)據(jù)流。Cascading用Java實現(xiàn),在MapReduce工作中調(diào)用轉(zhuǎn)換API。


如果你正在同MySQL共事,Sqoop介意使用MySQL轉(zhuǎn)儲功能繞離JDBC并更加有效地抽取數(shù)據(jù)。Sqoop也可以生成Java類,這個類可以用于操縱加載數(shù)據(jù)并將其直接導入Hive。HIHO (Hadoop Input and Output)從關(guān)系型表抽取數(shù)據(jù)并提供一些基本的轉(zhuǎn)換服務,像去重以及合并輸入流。


當生成文件在將其加載到HDFS文件系統(tǒng)或者Hive數(shù)據(jù)倉庫之前,要求最小化轉(zhuǎn)換,你就能直接加載文件了。在確定目標表和分割規(guī)格后,Hive有一個命令來加載數(shù)據(jù)。Pig是數(shù)據(jù)分析程序的一種高水平語言,尤其是和Java中的MapReduce編碼對比的時候。它提供了一種基本的統(tǒng)計函數(shù),你可以在關(guān)系型數(shù)據(jù)庫中找到(像min、max、count),在數(shù)學和字符串處理功能中也能找到。Pig支持架構(gòu)化和非結(jié)構(gòu)化文本文件的壓縮。


云計算資源補充了數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)。然而,為將數(shù)據(jù)倉庫轉(zhuǎn)移到云端的利益最大化,適當結(jié)構(gòu)化數(shù)據(jù)并使用正確的數(shù)據(jù)分析工具很重要。

編輯推薦】

網(wǎng)管軟件專區(qū)

網(wǎng)絡管理者最易犯的十大低級錯誤

網(wǎng)絡管理基礎(chǔ)知識:網(wǎng)路管理模式

學習高效網(wǎng)絡管理技巧三招五式

IT運維管理專區(qū)

本文來自互聯(lián)網(wǎng),僅供參考
發(fā)布:2007-04-15 10:41    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普重慶OA快博其他應用

重慶OA軟件 重慶OA新聞動態(tài) 重慶OA信息化 重慶OA客戶 重慶OA快博 重慶OA行業(yè)資訊 重慶軟件開發(fā)公司 重慶網(wǎng)站建設(shè)公司 重慶物業(yè)管理軟件 重慶餐飲管理軟件 重慶倉庫管理系統(tǒng) 重慶門禁系統(tǒng) 重慶微信營銷 重慶ERP 重慶監(jiān)控公司 重慶金融行業(yè)軟件 重慶B2B、B2C商城系統(tǒng)開發(fā) 重慶建筑施工項目管理系統(tǒng)開發(fā)