監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉
庫存檔案

當(dāng)前位置:工程項目OA系統(tǒng) > ERP系統(tǒng) > 功能介紹 > 庫存管理 > 庫存檔案

數(shù)據(jù)倉庫系統(tǒng)

申請免費(fèi)試用、咨詢電話:400-8352-114

   近年來隨著大數(shù)據(jù)技術(shù)和應(yīng)用的發(fā)展,數(shù)據(jù)倉儲需求也急劇增加,存儲成本大幅提高。在此情況下,分級存儲的思想被提出,各種數(shù)據(jù)分級策略、遷移方法和新的相應(yīng)存儲平臺涌現(xiàn)。但由于技術(shù)發(fā)展的歷史過程,目前企業(yè)中大量數(shù)據(jù)仍以二維表的形式存儲在關(guān)系型數(shù)據(jù)庫中,完全推翻現(xiàn)有系統(tǒng)架構(gòu)重建新的存儲平臺,受限于成本、技術(shù)實現(xiàn)復(fù)雜和對持續(xù)提供服務(wù)的需求,通常企業(yè)無法接受。

  泛普發(fā)現(xiàn)了一種基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和Hadoop,共同構(gòu)建的分級存儲管理的數(shù)據(jù)倉庫系統(tǒng)設(shè)計,可作為傳統(tǒng)數(shù)據(jù)倉庫向分級存儲平臺逐步過渡演進(jìn)的中間解決方案。

  數(shù)據(jù)分類放置指基于數(shù)據(jù)的訪問、恢復(fù)等特征,并根據(jù)不同的業(yè)務(wù)目標(biāo)進(jìn)行劃分存放,以實現(xiàn)基于信息的重要程度對數(shù)據(jù)進(jìn)行存儲管理。

e06bf594ebf97e3028fcbcef43daed3.png

  數(shù)據(jù)倉庫的特性

  1、集成性

  集成性是數(shù)據(jù)倉庫最重要的特性。數(shù)據(jù)倉庫中的數(shù)據(jù)由多個類型的數(shù)據(jù)源傳輸而來,不論上游數(shù)據(jù)管理組件是mysql,oracle,tidb,redis,mongodb或者任何沒有聽過的技術(shù)名詞,數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之后可以使用一種技術(shù)進(jìn)行處理,大大降低了數(shù)據(jù)的使用難度。

  當(dāng)然集成性的具體細(xì)節(jié)還包括:

  碼值一致轉(zhuǎn)換:上游性別由male/famale,0/1,x/y,統(tǒng)一重新編碼

  字段類型映射:上游int(11),varchar2,zset等轉(zhuǎn)為數(shù)倉技術(shù)字段類型

  數(shù)據(jù)傳輸效率:大數(shù)據(jù)量不必每一次全部傳輸,獲取增量是一個好選擇。

  2、非易失與隨時間變化

  當(dāng)數(shù)據(jù)從線上傳輸?shù)搅藬?shù)據(jù)倉庫時,就留下了數(shù)據(jù)的快照,絕大部分?jǐn)?shù)據(jù)倉庫允許數(shù)據(jù)24小時的失準(zhǔn)時間(t-1),所以大部分?jǐn)?shù)據(jù)倉庫都是每隔一天傳輸一次數(shù)據(jù)。

744f67be5e7b3bb91567dc07478036c.png

  3、面向主題

  面向主題實際上是根據(jù)業(yè)務(wù)對于數(shù)據(jù)進(jìn)行有效編碼,讓理論最佳值在應(yīng)用中落地。

  對于一個數(shù)據(jù)模型,通常近期的數(shù)據(jù)具有較高的訪問頻度,歷史數(shù)據(jù)具有較低的訪問頻度。因而最簡單的一種分類方式是基于數(shù)據(jù)的時間周期和業(yè)務(wù)類型劃分在線、離線數(shù)據(jù)。在線數(shù)據(jù)保留在數(shù)據(jù)挖掘建模數(shù)據(jù)庫上,離線數(shù)據(jù)定期從數(shù)據(jù)挖掘建模數(shù)據(jù)庫遷移到hadoop集群上存放。為了便于數(shù)據(jù)分類放置,數(shù)據(jù)建模的物理模型可以采用按時間周期分表或者按時間周期進(jìn)行表分區(qū)的方式。

  數(shù)據(jù)分類放置的策略制定后,通過數(shù)據(jù)遷移,實際上數(shù)據(jù)挖掘建模數(shù)據(jù)庫上保留模型數(shù)據(jù)的數(shù)據(jù)周期已固定,不需要再進(jìn)行存儲策略的管理。但是隨著時間的推移,遷移到Hadoop集群的歷史周期數(shù)據(jù)會積累的越來越多,占用的存儲會越來越大。而實際上過舊的數(shù)據(jù)實際上也會失去使用價值,沒必要一直保留。此時需要通過一定的存儲管理策略,對歷史數(shù)據(jù)進(jìn)行定期的清理。

發(fā)布:2021-06-10 16:15    編輯:泛普軟件 · luohongying    [打印此頁]    [關(guān)閉]