當(dāng)前位置:工程項目OA系統(tǒng) > 泛普服務(wù)體系 > 泛普博客
數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)改進(jìn)
1 數(shù)據(jù)倉庫與數(shù)據(jù)集市
(1)數(shù)據(jù)倉庫(DW)的定義
有關(guān)數(shù)據(jù)倉庫這一概念目前還沒有統(tǒng)一的定義,其中比較公認(rèn)的是由數(shù)據(jù)倉庫之父W.HJnmon在《BulldingtheDatawarehouse》一書中給出的定義:數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的、用來支持管理人員決策的數(shù)據(jù)集合。
數(shù)據(jù)倉庫處理的數(shù)據(jù)與一般的信息系統(tǒng)中的數(shù)據(jù)不同,它來自結(jié)構(gòu)不同的、分布的數(shù)據(jù)源,包括細(xì)節(jié)數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)和外部數(shù)據(jù)。在美國,數(shù)據(jù)倉庫技術(shù)和應(yīng)用的發(fā)展很快,近年來已成為僅次于Intemet的又一技術(shù)熱點。數(shù)據(jù)倉庫的發(fā)展是市場激烈競爭的結(jié)果,因為成功的數(shù)據(jù)倉庫系統(tǒng)可以為企業(yè)帶來巨大的經(jīng)濟(jì)效益以及良好的信息服務(wù)。數(shù)據(jù)倉庫技術(shù)的真正意義在于幫助人們制定能夠改進(jìn)商業(yè)活動的決策。
基于數(shù)據(jù)倉庫的決策支持系統(tǒng)需要從企業(yè)長期的業(yè)務(wù)活動所積累的大量數(shù)據(jù)中分析企業(yè)的發(fā)展規(guī)律和市場變化趨勢,一般不對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行更新操作,主要進(jìn)行經(jīng)常性的復(fù)雜查詢操作。數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫有很大的區(qū)別,所以需要將兩種環(huán)境分開。兩種數(shù)據(jù)環(huán)境的區(qū)別主要表現(xiàn)在以下幾個方面:
①系統(tǒng)性能不同:在操作型系統(tǒng)中,數(shù)據(jù)的輸人、更新和刪除等操作很頻繁,實時性要求高,一般要求在極短的時間內(nèi)得到響應(yīng),否則會影響用戶的使用。而在面向分析的數(shù)據(jù)倉庫中,數(shù)據(jù)一旦進(jìn)人數(shù)據(jù)倉庫,就很少被更新。但決策用到大量數(shù)據(jù)的復(fù)雜查詢分析,這些復(fù)雜的查詢操作可能會花費較長的時間,如幾分鐘甚至幾十分鐘,如果在操作型數(shù)據(jù)環(huán)境中進(jìn)行數(shù)據(jù)分析,會嚴(yán)重影響系統(tǒng)的性能。
②數(shù)據(jù)訪問方式不同:各種數(shù)據(jù)源對數(shù)據(jù)倉庫的用戶來說是透明的,而數(shù)據(jù)庫的用戶需要考慮數(shù)據(jù)庫的結(jié)構(gòu)。
③數(shù)據(jù)格式不同:操作型系統(tǒng)存放的是細(xì)節(jié)數(shù)據(jù),不同的數(shù)據(jù)源數(shù)據(jù)格式可以不同;而數(shù)據(jù)倉庫中既存放細(xì)節(jié)數(shù)據(jù),又存放各種粒度級別的綜合數(shù)據(jù),所有數(shù)據(jù)以提高查詢速度為目的進(jìn)行存儲和管理。
除此,數(shù)據(jù)倉庫中還需要包括來自外部數(shù)據(jù)源的數(shù)據(jù)、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)和歷史數(shù)據(jù)。所以用于分析的數(shù)據(jù)倉庫環(huán)境與操作型數(shù)據(jù)環(huán)境必須分開,以免相互影響、相互干擾。數(shù)據(jù)倉庫體系結(jié)構(gòu)的要求:不能妨礙操作型數(shù)據(jù)系統(tǒng),具有數(shù)據(jù)抽取和轉(zhuǎn)換功能,管理當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù),快速響應(yīng)復(fù)雜的查詢,并提供有效的分析工具。
能滿足這 些要求的數(shù)據(jù)倉庫一般具有以下特性:
①基于維模型;
②保留歷史數(shù)據(jù);
③包括詳細(xì)數(shù)據(jù)和概括性數(shù)據(jù);
④在保持一致性的前提下,將多個數(shù)據(jù)源的數(shù)據(jù)集成在一起;
⑤面向主題,如銷售、金融、保險等。
(2)數(shù)據(jù)集市(DMart一DataMart)
企業(yè)級數(shù)據(jù)倉庫中包含的是海量數(shù)據(jù)(TB數(shù)量級),信息涵蓋整個企業(yè),所以創(chuàng)建這樣一個數(shù)據(jù)倉庫往往需要花費大量的資金,以及大量的人力和物力,需要很長的開發(fā)周期,這樣勢必影響用戶對系統(tǒng)的興趣和信心。相對而言,數(shù)據(jù)集市是針對企業(yè)某個部門的,規(guī)模較小,開發(fā)周期較短,可以很快投人應(yīng)用,使用戶盡早獲益。
大型數(shù)據(jù)倉庫的建設(shè)往往從數(shù)據(jù)集市的建設(shè)開始,這些數(shù)據(jù)集市在數(shù)據(jù)倉庫建成之前就發(fā)揮作用了。但為了防止各部門的數(shù)據(jù)集市成為信息孤島,在開始建立數(shù)據(jù)集市前必須考慮數(shù)據(jù)集市的結(jié)構(gòu)和管理方法,一般采用與數(shù)據(jù)倉庫相同的規(guī)則和管理方法,使之成為未來數(shù)據(jù)倉庫的一部分。因此可以認(rèn)為數(shù)據(jù)集市是一種簡化的數(shù)據(jù)倉庫,是企業(yè)級數(shù)據(jù)倉庫的一個子集,面向某個特定的主題,主要為企業(yè)各部門的中層決策者提供服務(wù)。
數(shù)據(jù)集市具有以下特點:
①規(guī)模小,靈活;
②數(shù)據(jù)集市的粒度一般比數(shù)據(jù)倉庫小,因為其需求更明細(xì)、更具體;
③開發(fā)工作一般由業(yè)務(wù)部門來組織、設(shè)計、實施和維護(hù);
④能夠快速實現(xiàn),代價低,開發(fā)周期短,風(fēng)險小;
⑤有利于功能的擴展,數(shù)據(jù)集市可集成形成中心數(shù)據(jù)倉庫或分布式數(shù)據(jù)倉庫。
2 構(gòu)建OMart/D討體系方法
創(chuàng)建數(shù)據(jù)集市的方法主要有自頂向下和自底向上兩種方法,這兩種方法各有特色,各有利弊。理論上研究得較多的是自頂向下的方法,即由中心數(shù)據(jù)倉庫通過分發(fā)數(shù)據(jù)構(gòu)成非獨立的數(shù)據(jù)集市。
(1)自底向上構(gòu)建獨立數(shù)據(jù)集市
先開發(fā)各個部門的DMart,以遞增、進(jìn)化的方式逐步實現(xiàn)數(shù)據(jù)倉庫13]。這種方法的開發(fā)周期較短,在建好各部門數(shù)據(jù)集市的情況下,企業(yè)級的DW開發(fā)比較簡單。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來源于企業(yè)內(nèi)、外的異構(gòu)數(shù)據(jù)源,這種數(shù)據(jù)集市稱為獨立數(shù)據(jù)集市,如圖1所示。
這種方式的不足之處與處理方法:
①如果獨立數(shù)據(jù)集市的構(gòu)造和增殖不加控制,則不利于將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉庫中,這樣在將這些數(shù)據(jù)集市集成到數(shù)據(jù)倉庫時往往需要對它們進(jìn)行較大的修改。造成集成困難的主要原因有:商業(yè)規(guī)則不同、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)集市設(shè)計方案的表達(dá)方式不同,等等。為了解決數(shù)據(jù)集市集成困難的問題,在開發(fā)數(shù)據(jù)集市時,應(yīng)采用統(tǒng)一的數(shù)據(jù)倉庫信息模型,可采用共享元數(shù)據(jù)中心庫的方式,使企業(yè)主題域、通用維、度量、業(yè)務(wù)規(guī)則、數(shù)據(jù)的組織格式、數(shù)據(jù)源等在邏輯上統(tǒng)一,即事先制定一些必要的標(biāo)準(zhǔn)和規(guī)則,在設(shè)計數(shù)據(jù)集市時就遵守這些約定,以便日后可以方便地將數(shù)據(jù)集市集成到企業(yè)中心數(shù)據(jù)倉庫中。
②隨著數(shù)據(jù)集市的增多,用戶可能會訪問其他部門的數(shù)據(jù)集市進(jìn)行交叉查詢分析,而數(shù)據(jù)集市之間的連接必須依靠數(shù)據(jù)庫中間件來完成,這些連接的透明性差,不易管理,所以執(zhí)行多數(shù)據(jù)集市之間的交叉查詢分析效果比較差。
③匆忙開發(fā)的獨立型數(shù)據(jù)集市,其設(shè)計容易受操作型系統(tǒng)的影響,甚至匆忙開發(fā)的數(shù)據(jù)倉庫也會受操作型系統(tǒng)的影響,其結(jié)構(gòu)與OLTP系統(tǒng)類同,不能很好地反映用戶面向主題分析的需求。因此開發(fā)數(shù)據(jù)集市應(yīng)該和開發(fā)數(shù)據(jù)倉庫一樣,遵循相應(yīng)的一些原則。
(2)自頂向下方法構(gòu)建非獨立型數(shù)據(jù)集市構(gòu)建(DM art/I)W體系的另一種模型如圖2所示,就是先構(gòu)建企業(yè)級DW,再將數(shù)據(jù)分發(fā)到各DMart中。這種模型的每DMart的構(gòu)建比較簡單,數(shù)據(jù)可統(tǒng)一管理,但開發(fā)周期較長。這種方式建立的數(shù)據(jù)集市,其數(shù)據(jù)來源于全局?jǐn)?shù)據(jù)倉庫,稱為非獨立數(shù)據(jù)集市。
這種方式的優(yōu)點如下:
①這是收集、建模和實現(xiàn)最終用戶決策支持需求的嚴(yán)格而又普遍的方法,它將數(shù)據(jù)倉庫的設(shè)計方法應(yīng)用于數(shù)據(jù)集市的設(shè)計和實現(xiàn)中,技術(shù)上比較可靠;
②這種方法建立了一個面向全企業(yè)的數(shù)據(jù)倉庫,可使用戶對企業(yè)的業(yè)務(wù)、組織和發(fā)展有全面的了解;
③所有數(shù)據(jù)集市的數(shù)據(jù)均來自同一個中心數(shù)據(jù)倉庫,所以數(shù)據(jù)格式是統(tǒng)一的。
這種方法的缺點是:
①使用這種方法的開發(fā)周期長,開發(fā)費用高;
②功能調(diào)整不易,不能及時根據(jù)客戶反饋的意見進(jìn)行改進(jìn);
③由于初期效果不明顯,如果處理不當(dāng),很容易使用戶對新系統(tǒng)失去信心和耐心,從而導(dǎo)致系統(tǒng)的失敗。
(3)聯(lián)合方法構(gòu)建混合型數(shù)據(jù)集市
上面介紹的兩種方法各有利弊,因此人們希望有一種折中解決的方案,既能控制成本,縮短投資回報時間,又能解決后期集成問題,從而提出了混合型數(shù)據(jù)集市的開發(fā)方案。這種數(shù)據(jù)倉庫系統(tǒng)包含獨立數(shù)據(jù)集市、中心數(shù)據(jù)倉庫、非獨立數(shù)據(jù)集市氣混合型數(shù)據(jù)集市克服了自頂向下方法開發(fā)周期長、開發(fā)成本高,以及自底向上方法后期集成困難等問題,但是仍然存在數(shù)據(jù)重復(fù)存儲、數(shù)據(jù)冗余度大的問題。
3 DW/DMart體系結(jié)構(gòu)的改進(jìn)
本文提出一種新的方法建立DW/DMart體系結(jié)構(gòu)(如圖4所示),它既不同于自頂向下方法和自底向上方法,也有別于傳統(tǒng)意義的聯(lián)合方法;在開發(fā)獨立數(shù)據(jù)集市過程中采用和建立數(shù)據(jù)倉庫相同的標(biāo)準(zhǔn)和規(guī)則,這樣可使各數(shù)據(jù)集市的后期集成更加簡單;而整個DW/DMart)W系統(tǒng)建好后,使用同一數(shù)據(jù)加載機制同時向各部門數(shù)據(jù)集市和企業(yè)中心數(shù)據(jù)倉庫加載數(shù)據(jù):將當(dāng)前數(shù)據(jù)和輕度綜合數(shù)據(jù)加載到數(shù)據(jù)集市,便于部門級領(lǐng)導(dǎo)針對各部門經(jīng)營情況作出各部門的具體決策;將歷史數(shù)據(jù)和共享數(shù)據(jù)加載到中心數(shù)據(jù)倉庫,便于所有部門共享;并通過二次集成將各部門高度綜合的數(shù)據(jù)加載到中心數(shù)據(jù)倉庫,便于企業(yè)高層領(lǐng)導(dǎo)根據(jù)整個企業(yè)的總體經(jīng)營情況快速地做出全局性的決策。這種結(jié)構(gòu)既具有自底向上方法的優(yōu)點,有利于系統(tǒng)用原型法進(jìn)行開發(fā),縮短開發(fā)周期;又具有自頂向下方法的優(yōu)點,獨立數(shù)據(jù)集市和數(shù)據(jù)倉庫具有相同的數(shù)據(jù)格式和管理規(guī)范,有利于數(shù)據(jù)集市的集成和數(shù)據(jù)的管理;而且與聯(lián)合方法建成的混合型體系結(jié)構(gòu)不同,數(shù)據(jù)存儲結(jié)構(gòu)更合理,數(shù)據(jù)冗余度較小,且提供給各級決策者的數(shù)據(jù)更符合他們的決策需要。
下面對該體系結(jié)構(gòu)的設(shè)計思想進(jìn)行具體說明。
①由于開發(fā)基于數(shù)據(jù)倉庫的企業(yè)決策支持系統(tǒng)是一項復(fù)雜的系統(tǒng)工程,開發(fā)周期長,開發(fā)成本高;漫長的開發(fā)過程容易使用戶喪失對系統(tǒng)的興趣和耐心。為了降低開發(fā)難度、縮短開發(fā)周期、使系統(tǒng)盡快投人使用,使用戶盡快從系統(tǒng)獲利,本系統(tǒng)開發(fā)過程采用原型法,即先建立企業(yè)某部門(例如營銷部)的數(shù)據(jù)集市(DMart)做為一個原型,再以同樣的方法建立各部門的數(shù)據(jù)集市,最后將這些數(shù)據(jù)集市通過數(shù)據(jù)上傳的方法來構(gòu)造企業(yè)級的中心數(shù)據(jù)倉庫。由于數(shù)據(jù)集市是針對部門級決策的,結(jié)構(gòu)相對簡單,規(guī)模比數(shù)據(jù)倉庫小,只針對某一特定主題,所以開發(fā)周期短,見效快。
②對于細(xì)節(jié)數(shù)據(jù)和共享的數(shù)據(jù)并不存放在各部門的數(shù)據(jù)集市中,而是存放在企業(yè)的中心數(shù)據(jù)倉庫的歷史數(shù)據(jù)庫和共享數(shù)據(jù)庫中,對于超過一定年限的歷史數(shù)據(jù)則導(dǎo)出到大容量的低速存儲設(shè)備。各部門的數(shù)據(jù)集市中只存儲和本部門有關(guān)的當(dāng)前數(shù)據(jù)及輕度綜合數(shù)據(jù),并不長期保留歷史數(shù)據(jù),這樣既方便各部門領(lǐng)導(dǎo)進(jìn)行具體決策,又使各數(shù)據(jù)集市不需要太多的空間,使數(shù)據(jù)的存儲結(jié)構(gòu)更合理,管理和使用更方便。
③企業(yè)級決策者一般無暇過問各部門的具體事務(wù)和具體經(jīng)營情況,他們只關(guān)心跟整個企業(yè)發(fā)展有關(guān)的重大問題和企業(yè)的整體經(jīng)營情況,所以只需要將各部門的高度綜合數(shù)據(jù)上傳至企業(yè)的中心數(shù)據(jù)倉庫即可,不需要將各部門的輕度綜合數(shù)據(jù)都上傳至企業(yè)的中心數(shù)據(jù)倉庫。高度綜合的數(shù)據(jù)更有利于企業(yè)高層領(lǐng)導(dǎo)更快地作出一些重大的決策。
④數(shù)據(jù)倉庫和數(shù)據(jù)集市用相同的規(guī)范進(jìn)行管理,數(shù)據(jù)在整個數(shù)據(jù)倉庫系統(tǒng)中的格式是統(tǒng)一的,這樣就解決了數(shù)據(jù)格式不一致、數(shù)據(jù)集市集成困難以及多個數(shù)據(jù)集市交叉查詢困難等問題。(萬方數(shù)據(jù))
- 1網(wǎng)管員初級知識:無線WIFI網(wǎng)絡(luò)泄密如何解決
- 2在項目采購管理中成本降低的幾點認(rèn)識
- 3泛普OA軟件實施戰(zhàn)略,是企業(yè)實施信息化的基礎(chǔ)
- 4OA辦公系統(tǒng)二次開發(fā)擴展性強
- 5網(wǎng)站優(yōu)化之影響搜索引擎排名的不良因素總結(jié)2北京服裝進(jìn)銷存軟件免費版
- 6與企業(yè)利潤相背的幾個管理現(xiàn)象
- 7東莞長安涌頭村|道滘哪里可以學(xué)烤面筋的做法
- 8iPaaS是云計算應(yīng)用部署的必殺技?
- 9一套指導(dǎo)客戶有效起步OA的實用方法體系――泛普OA
- 102015國考申論備考之公文寫作系
- 11誠信服務(wù)筑基業(yè) 潤百科技助發(fā)展
- 12泛普軟件推出2015年新一代的OA系統(tǒng)的優(yōu)勢
- 13如何全面認(rèn)識管理要素?
- 14支付寶PC端轉(zhuǎn)賬下月起收費 專家:用來對抗微支付
- 15360發(fā)布安全警報:GSM漏洞可致短信被截獲
- 16細(xì)數(shù)六大瓶頸 中小企業(yè)信息化如何把握時機
- 173種人企業(yè)不能要
- 18新建高職院校如何加強OA系統(tǒng)使用的培訓(xùn)工作?
- 19江蘇假銀行調(diào)查:花500萬就能開 違法吸2億存款
- 20創(chuàng)新該被叫停的四大征兆
- 21泛普OA軟件使各種文檔實現(xiàn)電子化
- 22意大利重啟2010“洗錢案”調(diào)查 增287華人涉案
- 23網(wǎng)管員基礎(chǔ)知識:編寫智能自動批處理文件技巧
- 24中間件概念的不斷更新,OA已成為了一項事實標(biāo)準(zhǔn)
- 25假水屢被曝光 調(diào)查顯示對桶裝水有信心網(wǎng)友不足一成
- 26欠炒的李寧
- 27OA的大規(guī)模實施受到傳統(tǒng)軟件廠商形成的利益團(tuán)體的阻礙
- 283D打印是個天大的謊言 不可能顛覆制造業(yè)
- 29天碁科技實現(xiàn)全球首個TD-LTE端到端應(yīng)用演示
- 30我國連鎖超市迅猛發(fā)展之解
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓