監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉
泛普博客

當(dāng)前位置:工程項目OA系統(tǒng) > 泛普服務(wù)體系 > 泛普博客

數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)改進(jìn)

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

1 數(shù)據(jù)倉庫與數(shù)據(jù)集市

(1)數(shù)據(jù)倉庫(DW)的定義

有關(guān)數(shù)據(jù)倉庫這一概念目前還沒有統(tǒng)一的定義,其中比較公認(rèn)的是由數(shù)據(jù)倉庫之父W.HJnmon在《BulldingtheDatawarehouse》一書中給出的定義:數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的、用來支持管理人員決策的數(shù)據(jù)集合。

數(shù)據(jù)倉庫處理的數(shù)據(jù)與一般的信息系統(tǒng)中的數(shù)據(jù)不同,它來自結(jié)構(gòu)不同的、分布的數(shù)據(jù)源,包括細(xì)節(jié)數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)和外部數(shù)據(jù)。在美國,數(shù)據(jù)倉庫技術(shù)和應(yīng)用的發(fā)展很快,近年來已成為僅次于Intemet的又一技術(shù)熱點。數(shù)據(jù)倉庫的發(fā)展是市場激烈競爭的結(jié)果,因為成功的數(shù)據(jù)倉庫系統(tǒng)可以為企業(yè)帶來巨大的經(jīng)濟(jì)效益以及良好的信息服務(wù)。數(shù)據(jù)倉庫技術(shù)的真正意義在于幫助人們制定能夠改進(jìn)商業(yè)活動的決策。

基于數(shù)據(jù)倉庫的決策支持系統(tǒng)需要從企業(yè)長期的業(yè)務(wù)活動所積累的大量數(shù)據(jù)中分析企業(yè)的發(fā)展規(guī)律和市場變化趨勢,一般不對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行更新操作,主要進(jìn)行經(jīng)常性的復(fù)雜查詢操作。數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫有很大的區(qū)別,所以需要將兩種環(huán)境分開。兩種數(shù)據(jù)環(huán)境的區(qū)別主要表現(xiàn)在以下幾個方面:

①系統(tǒng)性能不同:在操作型系統(tǒng)中,數(shù)據(jù)的輸人、更新和刪除等操作很頻繁,實時性要求高,一般要求在極短的時間內(nèi)得到響應(yīng),否則會影響用戶的使用。而在面向分析的數(shù)據(jù)倉庫中,數(shù)據(jù)一旦進(jìn)人數(shù)據(jù)倉庫,就很少被更新。但決策用到大量數(shù)據(jù)的復(fù)雜查詢分析,這些復(fù)雜的查詢操作可能會花費較長的時間,如幾分鐘甚至幾十分鐘,如果在操作型數(shù)據(jù)環(huán)境中進(jìn)行數(shù)據(jù)分析,會嚴(yán)重影響系統(tǒng)的性能。

②數(shù)據(jù)訪問方式不同:各種數(shù)據(jù)源對數(shù)據(jù)倉庫的用戶來說是透明的,而數(shù)據(jù)庫的用戶需要考慮數(shù)據(jù)庫的結(jié)構(gòu)。

③數(shù)據(jù)格式不同:操作型系統(tǒng)存放的是細(xì)節(jié)數(shù)據(jù),不同的數(shù)據(jù)源數(shù)據(jù)格式可以不同;而數(shù)據(jù)倉庫中既存放細(xì)節(jié)數(shù)據(jù),又存放各種粒度級別的綜合數(shù)據(jù),所有數(shù)據(jù)以提高查詢速度為目的進(jìn)行存儲和管理。

除此,數(shù)據(jù)倉庫中還需要包括來自外部數(shù)據(jù)源的數(shù)據(jù)、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)和歷史數(shù)據(jù)。所以用于分析的數(shù)據(jù)倉庫環(huán)境與操作型數(shù)據(jù)環(huán)境必須分開,以免相互影響、相互干擾。數(shù)據(jù)倉庫體系結(jié)構(gòu)的要求:不能妨礙操作型數(shù)據(jù)系統(tǒng),具有數(shù)據(jù)抽取和轉(zhuǎn)換功能,管理當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù),快速響應(yīng)復(fù)雜的查詢,并提供有效的分析工具。

能滿足這 些要求的數(shù)據(jù)倉庫一般具有以下特性:

①基于維模型;

②保留歷史數(shù)據(jù);

③包括詳細(xì)數(shù)據(jù)和概括性數(shù)據(jù);

④在保持一致性的前提下,將多個數(shù)據(jù)源的數(shù)據(jù)集成在一起;

⑤面向主題,如銷售、金融、保險等。

(2)數(shù)據(jù)集市(DMart一DataMart)

企業(yè)級數(shù)據(jù)倉庫中包含的是海量數(shù)據(jù)(TB數(shù)量級),信息涵蓋整個企業(yè),所以創(chuàng)建這樣一個數(shù)據(jù)倉庫往往需要花費大量的資金,以及大量的人力和物力,需要很長的開發(fā)周期,這樣勢必影響用戶對系統(tǒng)的興趣和信心。相對而言,數(shù)據(jù)集市是針對企業(yè)某個部門的,規(guī)模較小,開發(fā)周期較短,可以很快投人應(yīng)用,使用戶盡早獲益。

大型數(shù)據(jù)倉庫的建設(shè)往往從數(shù)據(jù)集市的建設(shè)開始,這些數(shù)據(jù)集市在數(shù)據(jù)倉庫建成之前就發(fā)揮作用了。但為了防止各部門的數(shù)據(jù)集市成為信息孤島,在開始建立數(shù)據(jù)集市前必須考慮數(shù)據(jù)集市的結(jié)構(gòu)和管理方法,一般采用與數(shù)據(jù)倉庫相同的規(guī)則和管理方法,使之成為未來數(shù)據(jù)倉庫的一部分。因此可以認(rèn)為數(shù)據(jù)集市是一種簡化的數(shù)據(jù)倉庫,是企業(yè)級數(shù)據(jù)倉庫的一個子集,面向某個特定的主題,主要為企業(yè)各部門的中層決策者提供服務(wù)。

數(shù)據(jù)集市具有以下特點:

①規(guī)模小,靈活;

②數(shù)據(jù)集市的粒度一般比數(shù)據(jù)倉庫小,因為其需求更明細(xì)、更具體;

③開發(fā)工作一般由業(yè)務(wù)部門來組織、設(shè)計、實施和維護(hù);

④能夠快速實現(xiàn),代價低,開發(fā)周期短,風(fēng)險小;

⑤有利于功能的擴展,數(shù)據(jù)集市可集成形成中心數(shù)據(jù)倉庫或分布式數(shù)據(jù)倉庫。

2 構(gòu)建OMart/D討體系方法

創(chuàng)建數(shù)據(jù)集市的方法主要有自頂向下和自底向上兩種方法,這兩種方法各有特色,各有利弊。理論上研究得較多的是自頂向下的方法,即由中心數(shù)據(jù)倉庫通過分發(fā)數(shù)據(jù)構(gòu)成非獨立的數(shù)據(jù)集市。

(1)自底向上構(gòu)建獨立數(shù)據(jù)集市

先開發(fā)各個部門的DMart,以遞增、進(jìn)化的方式逐步實現(xiàn)數(shù)據(jù)倉庫13]。這種方法的開發(fā)周期較短,在建好各部門數(shù)據(jù)集市的情況下,企業(yè)級的DW開發(fā)比較簡單。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來源于企業(yè)內(nèi)、外的異構(gòu)數(shù)據(jù)源,這種數(shù)據(jù)集市稱為獨立數(shù)據(jù)集市,如圖1所示。

這種方式的不足之處與處理方法:

①如果獨立數(shù)據(jù)集市的構(gòu)造和增殖不加控制,則不利于將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉庫中,這樣在將這些數(shù)據(jù)集市集成到數(shù)據(jù)倉庫時往往需要對它們進(jìn)行較大的修改。造成集成困難的主要原因有:商業(yè)規(guī)則不同、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)集市設(shè)計方案的表達(dá)方式不同,等等。為了解決數(shù)據(jù)集市集成困難的問題,在開發(fā)數(shù)據(jù)集市時,應(yīng)采用統(tǒng)一的數(shù)據(jù)倉庫信息模型,可采用共享元數(shù)據(jù)中心庫的方式,使企業(yè)主題域、通用維、度量、業(yè)務(wù)規(guī)則、數(shù)據(jù)的組織格式、數(shù)據(jù)源等在邏輯上統(tǒng)一,即事先制定一些必要的標(biāo)準(zhǔn)和規(guī)則,在設(shè)計數(shù)據(jù)集市時就遵守這些約定,以便日后可以方便地將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉庫中。

②隨著數(shù)據(jù)集市的增多,用戶可能會訪問其他部門的數(shù)據(jù)集市進(jìn)行交叉查詢分析,而數(shù)據(jù)集市之間的連接必須依靠數(shù)據(jù)庫中間件來完成,這些連接的透明性差,不易管理,所以執(zhí)行多數(shù)據(jù)集市之間的交叉查詢分析效果比較差。

③匆忙開發(fā)的獨立型數(shù)據(jù)集市,其設(shè)計容易受操作型系統(tǒng)的影響,甚至匆忙開發(fā)的數(shù)據(jù)倉庫也會受操作型系統(tǒng)的影響,其結(jié)構(gòu)與OLTP系統(tǒng)類同,不能很好地反映用戶面向主題分析的需求。因此開發(fā)數(shù)據(jù)集市應(yīng)該和開發(fā)數(shù)據(jù)倉庫一樣,遵循相應(yīng)的一些原則。

(2)自頂向下方法構(gòu)建非獨立型數(shù)據(jù)集市構(gòu)建(DM art/I)W體系的另一種模型如圖2所示,就是先構(gòu)建企業(yè)級DW,再將數(shù)據(jù)分發(fā)到各DMart中。這種模型的每DMart的構(gòu)建比較簡單,數(shù)據(jù)可統(tǒng)一管理,但開發(fā)周期較長。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來源于全局?jǐn)?shù)據(jù)倉庫,稱為非獨立數(shù)據(jù)集市。

這種方式的優(yōu)點如下:

①這是收集、建模和實現(xiàn)最終用戶決策支持需求的嚴(yán)格而又普遍的方法,它將數(shù)據(jù)倉庫的設(shè)計方法應(yīng)用于數(shù)據(jù)集市的設(shè)計和實現(xiàn)中,技術(shù)上比較可靠;

②這種方法建立了一個面向全企業(yè)的數(shù)據(jù)倉庫,可使用戶對企業(yè)的業(yè)務(wù)、組織和發(fā)展有全面的了解;

③所有數(shù)據(jù)集市的數(shù)據(jù)均來自同一個中心數(shù)據(jù)倉庫,所以數(shù)據(jù)格式是統(tǒng)一的。

這種方法的缺點是:

①使用這種方法的開發(fā)周期長,開發(fā)費用高;

②功能調(diào)整不易,不能及時根據(jù)客戶反饋的意見進(jìn)行改進(jìn);

③由于初期效果不明顯,如果處理不當(dāng),很容易使用戶對新系統(tǒng)失去信心和耐心,從而導(dǎo)致系統(tǒng)的失敗。

(3)聯(lián)合方法構(gòu)建混合型數(shù)據(jù)集市

上面介紹的兩種方法各有利弊,因此人們希望有一種折中解決的方案,既能控制成本,縮短投資回報時間,又能解決后期集成問題,從而提出了混合型數(shù)據(jù)集市的開發(fā)方案。這種數(shù)據(jù)倉庫系統(tǒng)包含獨立數(shù)據(jù)集市、中心數(shù)據(jù)倉庫、非獨立數(shù)據(jù)集市氣混合型數(shù)據(jù)集市克服了自頂向下方法開發(fā)周期長、開發(fā)成本高,以及自底向上方法后期集成困難等問題,但是仍然存在數(shù)據(jù)重復(fù)存儲、數(shù)據(jù)冗余度大的問題。

3 DW/DMart體系結(jié)構(gòu)的改進(jìn)

本文提出一種新的方法建立DW/DMart體系結(jié)構(gòu)(如圖4所示),它既不同于自頂向下方法和自底向上方法,也有別于傳統(tǒng)意義的聯(lián)合方法;在開發(fā)獨立數(shù)據(jù)集市過程中采用和建立數(shù)據(jù)倉庫相同的標(biāo)準(zhǔn)和規(guī)則,這樣可使各數(shù)據(jù)集市的后期集成更加簡單;而整個DW/DMart)W系統(tǒng)建好后,使用同一數(shù)據(jù)加載機制同時向各部門數(shù)據(jù)集市和企業(yè)中心數(shù)據(jù)倉庫加載數(shù)據(jù):將當(dāng)前數(shù)據(jù)和輕度綜合數(shù)據(jù)加載到數(shù)據(jù)集市,便于部門級領(lǐng)導(dǎo)針對各部門經(jīng)營情況作出各部門的具體決策;將歷史數(shù)據(jù)和共享數(shù)據(jù)加載到中心數(shù)據(jù)倉庫,便于所有部門共享;并通過二次集成將各部門高度綜合的數(shù)據(jù)加載到中心數(shù)據(jù)倉庫,便于企業(yè)高層領(lǐng)導(dǎo)根據(jù)整個企業(yè)的總體經(jīng)營情況快速地做出全局性的決策。這種結(jié)構(gòu)既具有自底向上方法的優(yōu)點,有利于系統(tǒng)用原型法進(jìn)行開發(fā),縮短開發(fā)周期;又具有自頂向下方法的優(yōu)點,獨立數(shù)據(jù)集市和數(shù)據(jù)倉庫具有相同的數(shù)據(jù)格式和管理規(guī)范,有利于數(shù)據(jù)集市的集成和數(shù)據(jù)的管理;而且與聯(lián)合方法建成的混合型體系結(jié)構(gòu)不同,數(shù)據(jù)存儲結(jié)構(gòu)更合理,數(shù)據(jù)冗余度較小,且提供給各級決策者的數(shù)據(jù)更符合他們的決策需要。

下面對該體系結(jié)構(gòu)的設(shè)計思想進(jìn)行具體說明。

①由于開發(fā)基于數(shù)據(jù)倉庫的企業(yè)決策支持系統(tǒng)是一項復(fù)雜的系統(tǒng)工程,開發(fā)周期長,開發(fā)成本高;漫長的開發(fā)過程容易使用戶喪失對系統(tǒng)的興趣和耐心。為了降低開發(fā)難度、縮短開發(fā)周期、使系統(tǒng)盡快投人使用,使用戶盡快從系統(tǒng)獲利,本系統(tǒng)開發(fā)過程采用原型法,即先建立企業(yè)某部門(例如營銷部)的數(shù)據(jù)集市(DMart)做為一個原型,再以同樣的方法建立各部門的數(shù)據(jù)集市,最后將這些數(shù)據(jù)集市通過數(shù)據(jù)上傳的方法來構(gòu)造企業(yè)級的中心數(shù)據(jù)倉庫。由于數(shù)據(jù)集市是針對部門級決策的,結(jié)構(gòu)相對簡單,規(guī)模比數(shù)據(jù)倉庫小,只針對某一特定主題,所以開發(fā)周期短,見效快。

②對于細(xì)節(jié)數(shù)據(jù)和共享的數(shù)據(jù)并不存放在各部門的數(shù)據(jù)集市中,而是存放在企業(yè)的中心數(shù)據(jù)倉庫的歷史數(shù)據(jù)庫和共享數(shù)據(jù)庫中,對于超過一定年限的歷史數(shù)據(jù)則導(dǎo)出到大容量的低速存儲設(shè)備。各部門的數(shù)據(jù)集市中只存儲和本部門有關(guān)的當(dāng)前數(shù)據(jù)及輕度綜合數(shù)據(jù),并不長期保留歷史數(shù)據(jù),這樣既方便各部門領(lǐng)導(dǎo)進(jìn)行具體決策,又使各數(shù)據(jù)集市不需要太多的空間,使數(shù)據(jù)的存儲結(jié)構(gòu)更合理,管理和使用更方便。

③企業(yè)級決策者一般無暇過問各部門的具體事務(wù)和具體經(jīng)營情況,他們只關(guān)心跟整個企業(yè)發(fā)展有關(guān)的重大問題和企業(yè)的整體經(jīng)營情況,所以只需要將各部門的高度綜合數(shù)據(jù)上傳至企業(yè)的中心數(shù)據(jù)倉庫即可,不需要將各部門的輕度綜合數(shù)據(jù)都上傳至企業(yè)的中心數(shù)據(jù)倉庫。高度綜合的數(shù)據(jù)更有利于企業(yè)高層領(lǐng)導(dǎo)更快地作出一些重大的決策。

④數(shù)據(jù)倉庫和數(shù)據(jù)集市用相同的規(guī)范進(jìn)行管理,數(shù)據(jù)在整個數(shù)據(jù)倉庫系統(tǒng)中的格式是統(tǒng)一的,這樣就解決了數(shù)據(jù)格式不一致、數(shù)據(jù)集市集成困難以及多個數(shù)據(jù)集市交叉查詢困難等問題。(萬方數(shù)據(jù))

 

發(fā)布:2007-04-25 16:46    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普泛普博客其他應(yīng)用

泛普OA商務(wù)合同 泛普OA需求調(diào)研 泛普OA實施方案 泛普OA項目啟動 泛普網(wǎng)絡(luò)硬件配置 泛普OA部署安裝 泛普流程模板表單 OA系統(tǒng)二次開發(fā) 泛普常見問題解決 泛普OA操作手冊 泛普軟件項目驗收 泛普培訓(xùn)推廣上線 泛普OA售后服務(wù) 泛普新聞 泛普期刊 泛普博客