當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 重慶OA系統(tǒng) > 重慶OA快博
利用云計(jì)算做數(shù)據(jù)遷移將面臨的挑戰(zhàn)
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
數(shù)據(jù)遷移是一項(xiàng)十分慎重的工作,一不小心即將面臨數(shù)據(jù)丟失的危險(xiǎn)。大家都知道云存儲(chǔ)可以按需擴(kuò)展,我們可以利用云計(jì)算技術(shù)做數(shù)據(jù)遷移工作。
云可以將大量服務(wù)器貢獻(xiàn)于某一具體任務(wù)。很多人都了解到,云計(jì)算和數(shù)據(jù)倉庫是合理的一對(duì)。數(shù)據(jù)倉庫通用功能是本地?cái)?shù)據(jù)分析工具,受到計(jì)算和存儲(chǔ)資源的限制,同時(shí)也受到設(shè)計(jì)者考慮新數(shù)據(jù)源集成的能力的限制。克服這些數(shù)據(jù)遷移的挑戰(zhàn)之后,便能將一個(gè)數(shù)據(jù)倉庫以及其數(shù)據(jù)分析工具從數(shù)據(jù)中心中的專用服務(wù)器轉(zhuǎn)移到基于云的文件系統(tǒng)和數(shù)據(jù)庫就可以解決這個(gè)問題。
云端數(shù)據(jù)管理通常牽扯到在分布式文件系統(tǒng)中加載和維護(hù)文件,像Hadoop分布式文件系統(tǒng)(HDFS),隨后用類似MapReduce這樣的工具處理數(shù)據(jù)。對(duì)于數(shù)據(jù)倉庫和其他的分析人物,像Hive這樣的數(shù)據(jù)庫工具在分布式文件系統(tǒng)之上提供了類SQL的功能。
盡管傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)和云端非關(guān)系型數(shù)據(jù)庫之間可以并行描述,但是在兩個(gè)片段之間轉(zhuǎn)移數(shù)據(jù)時(shí),不同的運(yùn)行方式會(huì)導(dǎo)致問題。抽取、轉(zhuǎn)換和加載流程甚至?xí)斐筛嗵魬?zhàn)。
數(shù)據(jù)遷移工具輔助向云端遷移從數(shù)據(jù)庫抽取數(shù)據(jù)很容易,從數(shù)據(jù)庫中有效挖掘大容量數(shù)據(jù)確是一項(xiàng)挑戰(zhàn)。如果由于數(shù)據(jù)量的增長,數(shù)據(jù)倉庫面臨性能或者存儲(chǔ)問題,可能就是時(shí)候考慮使用運(yùn)資源了。下面提供了一些工具來協(xié)助從關(guān)系型數(shù)據(jù)庫加載數(shù)據(jù)到云文件系統(tǒng)和數(shù)據(jù)庫。
專業(yè)工具,像Sqoop(SQL-to-Hadoop)生成代碼從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù),并將其拷貝到HDFS或者Hive。Sqoop使用JDBC驅(qū)動(dòng),同多種類型的關(guān)系型數(shù)據(jù)庫工作,但是通過JDBC推出大量數(shù)據(jù)導(dǎo)致了性能成本。
為了數(shù)據(jù)遷移到云端,從關(guān)系型數(shù)據(jù)庫抽取數(shù)據(jù)時(shí),你可能需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。如果你所工作的所有數(shù)據(jù)來自于單一數(shù)據(jù)庫,就可以在源數(shù)據(jù)庫中進(jìn)行轉(zhuǎn)換。如果從兩個(gè)分離的系統(tǒng)合并數(shù)據(jù),在抽取之后再轉(zhuǎn)移數(shù)據(jù)源更有效。然而,你應(yīng)該在加載數(shù)據(jù)到最終數(shù)據(jù)存儲(chǔ)庫之前做這些。Cascading數(shù)據(jù)處理API可以協(xié)助這項(xiàng)任務(wù)的進(jìn)行。
Cascading提供了運(yùn)行在Hadoop之上的功能,像工作流處理、計(jì)劃和調(diào)度。就比如說,它同管道過濾器工作;數(shù)據(jù)應(yīng)用過濾器通過管道從一個(gè)源流到目的源。其他功能像grouping可以應(yīng)用于數(shù)據(jù)流。Cascading用Java實(shí)現(xiàn),在MapReduce工作中調(diào)用轉(zhuǎn)換API。
如果你正在同MySQL共事,Sqoop介意使用MySQL轉(zhuǎn)儲(chǔ)功能繞離JDBC并更加有效地抽取數(shù)據(jù)。Sqoop也可以生成Java類,這個(gè)類可以用于操縱加載數(shù)據(jù)并將其直接導(dǎo)入Hive。HIHO (Hadoop Input and Output)從關(guān)系型表抽取數(shù)據(jù)并提供一些基本的轉(zhuǎn)換服務(wù),像去重以及合并輸入流。
當(dāng)生成文件在將其加載到HDFS文件系統(tǒng)或者Hive數(shù)據(jù)倉庫之前,要求最小化轉(zhuǎn)換,你就能直接加載文件了。在確定目標(biāo)表和分割規(guī)格后,Hive有一個(gè)命令來加載數(shù)據(jù)。Pig是數(shù)據(jù)分析程序的一種高水平語言,尤其是和Java中的MapReduce編碼對(duì)比的時(shí)候。它提供了一種基本的統(tǒng)計(jì)函數(shù),你可以在關(guān)系型數(shù)據(jù)庫中找到(像min、max、count),在數(shù)學(xué)和字符串處理功能中也能找到。Pig支持架構(gòu)化和非結(jié)構(gòu)化文本文件的壓縮。
云計(jì)算資源補(bǔ)充了數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)。然而,為將數(shù)據(jù)倉庫轉(zhuǎn)移到云端的利益最大化,適當(dāng)結(jié)構(gòu)化數(shù)據(jù)并使用正確的數(shù)據(jù)分析工具很重要。
【編輯推薦】
◆網(wǎng)管軟件專區(qū)
◆網(wǎng)絡(luò)管理者最易犯的十大低級(jí)錯(cuò)誤
◆網(wǎng)絡(luò)管理基礎(chǔ)知識(shí):網(wǎng)路管理模式
◆學(xué)習(xí)高效網(wǎng)絡(luò)管理技巧三招五式
◆IT運(yùn)維管理專區(qū)
- 1操作系統(tǒng)自動(dòng)化升級(jí)使工作更輕便
- 2網(wǎng)絡(luò)管理:解決交換機(jī)無故重啟故障
- 3企業(yè)辦公軟件對(duì)小組成員激勵(lì)方案:
- 4一般做OA軟件代理的公司,都開展有多種業(yè)務(wù)
- 5企業(yè)辦公軟件中檔案管理如何實(shí)現(xiàn)共享呢?
- 6OA采用先進(jìn)、成熟實(shí)用的編碼技術(shù)和安全技術(shù)
- 7酒店辭職報(bào)告范文
- 8如何書寫職業(yè)生涯規(guī)劃書?
- 9OA系統(tǒng)、CRM軟件、ERP網(wǎng)站主要推廣欄目的視頻,制作PPT視頻
- 10賀蘭縣美化亮化工程“扮靚”城市形象
- 11某氣象部門網(wǎng)絡(luò)安全管理實(shí)例分析
- 12IT運(yùn)維管理系統(tǒng)的十大無奈之處
- 13解析企業(yè)項(xiàng)目建議書
- 14琿春市大力實(shí)施街路亮化工程
- 15高度重視嚴(yán)格要求扎實(shí)做好拉薩城市亮化工作
- 16OA系統(tǒng)中的管理用戶分成如下三種角色:
- 17成功人士的特點(diǎn) 成功人士的創(chuàng)業(yè)經(jīng)驗(yàn)
- 18網(wǎng)絡(luò)管理:分析路由器故障的根本原因
- 19泛普可謂品牌實(shí)力在加強(qiáng),市場不斷擴(kuò)大
- 20網(wǎng)絡(luò)維護(hù)管理:路由協(xié)議故障的處理技巧
- 21SAP培訓(xùn)怎么樣
- 22搶抓機(jī)遇加快新型城市化進(jìn)程
- 23OA系統(tǒng)賬號(hào)使用姓名的漢語拼音首字母組成
- 24職場知識(shí)和職場案例分享
- 25詳解影響運(yùn)維管理體系的技術(shù)因素
- 26企業(yè)辦公系統(tǒng)都可以實(shí)現(xiàn)些什么功能呢?
- 27ERP系統(tǒng)的生管操作流程
- 28協(xié)同辦公為廣大工作人員提供局的相關(guān)信息
- 29霓虹閃爍夜色璀璨 市民點(diǎn)贊滕州城市亮化工程
- 30什么是OA系統(tǒng)的知識(shí)推送功能呢?
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓