監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

數(shù)據(jù)倉庫系統(tǒng)

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

   近年來隨著大數(shù)據(jù)技術(shù)和應(yīng)用的發(fā)展,數(shù)據(jù)倉儲(chǔ)需求也急劇增加,存儲(chǔ)成本大幅提高。在此情況下,分級(jí)存儲(chǔ)的思想被提出,各種數(shù)據(jù)分級(jí)策略、遷移方法和新的相應(yīng)存儲(chǔ)平臺(tái)涌現(xiàn)。但由于技術(shù)發(fā)展的歷史過程,目前企業(yè)中大量數(shù)據(jù)仍以二維表的形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,完全推翻現(xiàn)有系統(tǒng)架構(gòu)重建新的存儲(chǔ)平臺(tái),受限于成本、技術(shù)實(shí)現(xiàn)復(fù)雜和對(duì)持續(xù)提供服務(wù)的需求,通常企業(yè)無法接受。

  泛普發(fā)現(xiàn)了一種基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和Hadoop,共同構(gòu)建的分級(jí)存儲(chǔ)管理的數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì),可作為傳統(tǒng)數(shù)據(jù)倉庫向分級(jí)存儲(chǔ)平臺(tái)逐步過渡演進(jìn)的中間解決方案。

  數(shù)據(jù)分類放置指基于數(shù)據(jù)的訪問、恢復(fù)等特征,并根據(jù)不同的業(yè)務(wù)目標(biāo)進(jìn)行劃分存放,以實(shí)現(xiàn)基于信息的重要程度對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)管理。

e06bf594ebf97e3028fcbcef43daed3.png

  數(shù)據(jù)倉庫的特性

  1、集成性

  集成性是數(shù)據(jù)倉庫最重要的特性。數(shù)據(jù)倉庫中的數(shù)據(jù)由多個(gè)類型的數(shù)據(jù)源傳輸而來,不論上游數(shù)據(jù)管理組件是mysql,oracle,tidb,redis,mongodb或者任何沒有聽過的技術(shù)名詞,數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之后可以使用一種技術(shù)進(jìn)行處理,大大降低了數(shù)據(jù)的使用難度。

  當(dāng)然集成性的具體細(xì)節(jié)還包括:

  碼值一致轉(zhuǎn)換:上游性別由male/famale,0/1,x/y,統(tǒng)一重新編碼

  字段類型映射:上游int(11),varchar2,zset等轉(zhuǎn)為數(shù)倉技術(shù)字段類型

  數(shù)據(jù)傳輸效率:大數(shù)據(jù)量不必每一次全部傳輸,獲取增量是一個(gè)好選擇。

  2、非易失與隨時(shí)間變化

  當(dāng)數(shù)據(jù)從線上傳輸?shù)搅藬?shù)據(jù)倉庫時(shí),就留下了數(shù)據(jù)的快照,絕大部分?jǐn)?shù)據(jù)倉庫允許數(shù)據(jù)24小時(shí)的失準(zhǔn)時(shí)間(t-1),所以大部分?jǐn)?shù)據(jù)倉庫都是每隔一天傳輸一次數(shù)據(jù)。

744f67be5e7b3bb91567dc07478036c.png

  3、面向主題

  面向主題實(shí)際上是根據(jù)業(yè)務(wù)對(duì)于數(shù)據(jù)進(jìn)行有效編碼,讓理論最佳值在應(yīng)用中落地。

  對(duì)于一個(gè)數(shù)據(jù)模型,通常近期的數(shù)據(jù)具有較高的訪問頻度,歷史數(shù)據(jù)具有較低的訪問頻度。因而最簡(jiǎn)單的一種分類方式是基于數(shù)據(jù)的時(shí)間周期和業(yè)務(wù)類型劃分在線、離線數(shù)據(jù)。在線數(shù)據(jù)保留在數(shù)據(jù)挖掘建模數(shù)據(jù)庫上,離線數(shù)據(jù)定期從數(shù)據(jù)挖掘建模數(shù)據(jù)庫遷移到hadoop集群上存放。為了便于數(shù)據(jù)分類放置,數(shù)據(jù)建模的物理模型可以采用按時(shí)間周期分表或者按時(shí)間周期進(jìn)行表分區(qū)的方式。

  數(shù)據(jù)分類放置的策略制定后,通過數(shù)據(jù)遷移,實(shí)際上數(shù)據(jù)挖掘建模數(shù)據(jù)庫上保留模型數(shù)據(jù)的數(shù)據(jù)周期已固定,不需要再進(jìn)行存儲(chǔ)策略的管理。但是隨著時(shí)間的推移,遷移到Hadoop集群的歷史周期數(shù)據(jù)會(huì)積累的越來越多,占用的存儲(chǔ)會(huì)越來越大。而實(shí)際上過舊的數(shù)據(jù)實(shí)際上也會(huì)失去使用價(jià)值,沒必要一直保留。此時(shí)需要通過一定的存儲(chǔ)管理策略,對(duì)歷史數(shù)據(jù)進(jìn)行定期的清理。

發(fā)布:2021-06-10 16:15    編輯:泛普軟件 · luohongying    [打印此頁]    [關(guān)閉]