監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)倉庫——商業(yè)智能的基石

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

來源:泛普軟件

1 數(shù)據(jù)倉庫的產(chǎn)生和發(fā)展

被稱為數(shù)據(jù)倉庫之父的W.H.Inmon在他1990年出版的《建立數(shù)據(jù)倉庫(第一版)》一書中第一次為數(shù)據(jù)倉庫給出了明確的定義,真正把數(shù)據(jù)倉庫上升到一個(gè)理論高度。他認(rèn)為數(shù)據(jù)倉庫的歷史是伴隨著信息處理領(lǐng)域的決策支持系統(tǒng)(DSS)處理的發(fā)展過程開始的,在這個(gè)發(fā)展過程中,隨著計(jì)算機(jī)技術(shù)(尤其是計(jì)算機(jī)存儲(chǔ)技術(shù))的發(fā)展和抽取處理程序的流行,一種更大規(guī)模的體系結(jié)構(gòu)逐漸勾勒出來。在這種體系結(jié)構(gòu)中,數(shù)據(jù)倉庫處于中心位置。

自數(shù)據(jù)倉庫產(chǎn)生至今,在企業(yè)的決策支持要求、企業(yè)的競(jìng)爭(zhēng)要求、企業(yè)的商業(yè)智能(BI)要求的巨大推動(dòng)下,作為決策支持基礎(chǔ)的數(shù)據(jù)倉庫的運(yùn)用經(jīng)歷了一個(gè)不可思議的快速增長(zhǎng)過程,數(shù)據(jù)倉庫本身,包括數(shù)據(jù)倉庫體系結(jié)構(gòu)、數(shù)據(jù)倉庫處理規(guī)模、數(shù)據(jù)倉庫性能等也經(jīng)歷了一個(gè)快速發(fā)展過程,數(shù)據(jù)倉庫的價(jià)值也產(chǎn)生了質(zhì)的變化。

不管企業(yè)是如何構(gòu)建數(shù)據(jù)倉庫的,數(shù)據(jù)倉庫通過在收集信息、決策分析、未來趨勢(shì)預(yù)測(cè)、制定戰(zhàn)術(shù)上、戰(zhàn)略上的商業(yè)策略等方面的支持力度體現(xiàn)自身的價(jià)值?,F(xiàn)在在業(yè)界,當(dāng)問到為什么需要數(shù)據(jù)倉庫以及數(shù)據(jù)倉庫的價(jià)值或重要性時(shí),回答幾乎都是一致的,那就是數(shù)據(jù)倉庫能為企業(yè)帶來戰(zhàn)略優(yōu)勢(shì),尤其是能支持全方位地了解客戶,但是在數(shù)據(jù)倉庫使用初期,情況卻不是這樣的。在過去的十年里,數(shù)據(jù)倉庫的價(jià)值得到了快速持續(xù)的增長(zhǎng)。

如圖1所示,最開始時(shí)數(shù)據(jù)倉庫只是用來制作一些靜態(tài)的報(bào)表,數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)倉庫中就是為了更好地控制數(shù)據(jù)以及提高數(shù)據(jù)查詢性能,以方便地出一些能夠提供簡(jiǎn)單信息的報(bào)表。顯然靜態(tài)報(bào)表不能滿足決策的需求,數(shù)據(jù)倉庫開始面向?qū)ο笤O(shè)計(jì),以產(chǎn)生智能性的信息,面向?qū)ο髷?shù)據(jù)倉庫的數(shù)據(jù)是面向主題組織的,從這樣的數(shù)據(jù)倉庫中可以很方便地獲取某一主題的信息,這些信息主要是面向企業(yè)或部門決策的某一方面,比如客戶。當(dāng)不止一個(gè)部門納入到數(shù)據(jù)倉庫的建設(shè)中時(shí),數(shù)據(jù)倉庫開始面向整個(gè)企業(yè)進(jìn)行決策支持,這時(shí)企業(yè)的整體利益是根本。當(dāng)數(shù)據(jù)倉庫利用于面向企業(yè)決策支持時(shí),在數(shù)據(jù)倉庫中加入人口統(tǒng)計(jì)學(xué)、行為分析等知識(shí)后就能夠獲取充分的信息對(duì)客戶有一個(gè)360度的了解,辨識(shí)出有價(jià)值的客戶,并且能為客戶提供他所需的,有效地進(jìn)行cross-sale和up-sale。這時(shí)企業(yè)的決策周期也大大地縮短了,從以前的2、3年一次,發(fā)展到現(xiàn)在一年2、3次。在分析決策支持活動(dòng)中,靜態(tài)報(bào)表被多維分析、數(shù)據(jù)挖掘代替,基于數(shù)據(jù)倉庫中的集成化的智能信息所做的決策影響整個(gè)企業(yè),提高整個(gè)企業(yè)的收入。隨著商業(yè)的全球化,更多的數(shù)據(jù)和信息納入到了數(shù)據(jù)倉庫,數(shù)據(jù)倉庫朝著增值戰(zhàn)略又邁進(jìn)了一步,企業(yè)運(yùn)營(yíng)策略重點(diǎn)轉(zhuǎn)移到:如何為已有的客戶提供更好的服務(wù)以及如何拓展客戶基礎(chǔ),包括公司的資源配置、企業(yè)價(jià)值鏈上所有的資源、新的銷售和營(yíng)銷渠道,而客戶資料(信息)已經(jīng)擴(kuò)展到心理特征、行為特征以及潛在競(jìng)爭(zhēng)對(duì)手,這時(shí)的數(shù)據(jù)倉庫面向企業(yè)的價(jià)值鏈提供個(gè)性化集成的智能化信息。以電信為例,數(shù)據(jù)倉庫在各個(gè)階段所能回答的問題如表1所示。

圖1 數(shù)據(jù)倉庫價(jià)值曲線

表1 數(shù)據(jù)倉庫在各個(gè)階段所能回答的問題

 

2 數(shù)據(jù)倉庫體系結(jié)構(gòu)

在數(shù)據(jù)倉庫研究領(lǐng)域非常強(qiáng)調(diào)數(shù)據(jù)倉庫是一個(gè)體系。其實(shí)我們可以從兩個(gè)角度去理解什么是數(shù)據(jù)倉庫:從一種狹義的特定角度來看,如果我們專注的是一個(gè)核心,那么可認(rèn)為數(shù)據(jù)倉庫是一個(gè)數(shù)據(jù)集合,W.H.Inmon的定義也是從這種角度出發(fā)歸納出來的;如果從廣義上從實(shí)踐上理解,我們應(yīng)該把它理解成一個(gè)體系結(jié)構(gòu),一個(gè)以所定義的數(shù)據(jù)集合為中心的、以決策支持為主導(dǎo)的、支持企業(yè)運(yùn)作的IT體系結(jié)構(gòu)。

2.1 數(shù)據(jù)倉庫的定義

數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)倉庫包含粒狀的企業(yè)數(shù)據(jù)。

(1)面向主題的:數(shù)據(jù)倉庫中的數(shù)據(jù)是按照商業(yè)問題或決策進(jìn)行組織的,通過這樣的數(shù)據(jù)組織,數(shù)據(jù)被有效地轉(zhuǎn)化成了信息,而決策分析人員也可以很方便地獲得決策分析所需要的信息。典型的主題領(lǐng)域一般包括客戶、產(chǎn)品、營(yíng)銷活動(dòng)、帳單、投訴、帳目等,在數(shù)據(jù)倉庫中主要主題領(lǐng)域是以一組相關(guān)的表來具體實(shí)現(xiàn)的。主題的確定是數(shù)據(jù)倉庫設(shè)計(jì)中一個(gè)很重要也是很復(fù)雜的內(nèi)容,主題的確定直接影響數(shù)據(jù)倉庫的可用性和價(jià)值。一般采用建立企業(yè)數(shù)據(jù)模型的方式確定分析主題,必須和相關(guān)的業(yè)務(wù)分析人員進(jìn)行反復(fù)溝通共同建立分析主題。

(2)集成的:在數(shù)據(jù)倉庫的所有特性之中,集成是最重要的特性。由于操作系統(tǒng)的獨(dú)立建設(shè),在設(shè)計(jì)時(shí)并沒有考慮和其他系統(tǒng)的相關(guān)性和一致性,所以當(dāng)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時(shí),要采用某種方法來消除應(yīng)用問題中的許多不一致性,即進(jìn)行集成。一般常見的一致性處理有:編碼的一致性、度量單位的一致性、描述或定義的一致性、格式或類型大小的一致性等。數(shù)據(jù)的集成和轉(zhuǎn)換(ETL)在數(shù)據(jù)倉庫實(shí)施中是最困難最復(fù)雜也是最耗時(shí)的。數(shù)據(jù)倉庫的數(shù)據(jù)源主要是企業(yè)的各個(gè)應(yīng)用系統(tǒng),在進(jìn)行數(shù)據(jù)集成和轉(zhuǎn)化之前必須定義記錄系統(tǒng),即必須確定哪些系統(tǒng)或系統(tǒng)中的哪些數(shù)據(jù)是符合要求的,對(duì)此,就必須理解所有的系統(tǒng)和系統(tǒng)中的數(shù)據(jù)。由于各個(gè)系統(tǒng)的建設(shè)為事務(wù)處理服務(wù)的,因此數(shù)據(jù)組織方式和數(shù)據(jù)表現(xiàn)形式與用于分析的數(shù)據(jù)組織方式和表現(xiàn)形式不同,而且形式多樣,為了處理數(shù)據(jù),必須根據(jù)數(shù)據(jù)形式確定規(guī)則,而規(guī)則是否全面和準(zhǔn)確直接影響數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。目前在ETL領(lǐng)域遇到的還有一個(gè)問題是ETL的耗時(shí)。當(dāng)為了支撐決策分析的數(shù)據(jù)越來越多,比如客戶的增長(zhǎng)和業(yè)務(wù)量的增長(zhǎng),需要處理的數(shù)據(jù)越來越多,處理數(shù)據(jù)的時(shí)間必然越來越長(zhǎng),而市場(chǎng)的競(jìng)爭(zhēng)又對(duì)決策支持的響應(yīng)時(shí)間要求越來越短,能否在一定的時(shí)間內(nèi)完成ETL成為數(shù)據(jù)倉庫價(jià)值的一個(gè)關(guān)鍵因素。調(diào)整數(shù)據(jù)倉庫體系結(jié)構(gòu)優(yōu)化數(shù)據(jù)倉庫性能,提高系統(tǒng)的運(yùn)行能力,增加硬件投資擴(kuò)容是一個(gè)辦法,但不是最終解決問題的方法。新一代業(yè)務(wù)支撐系統(tǒng)的興起將為ETL的簡(jiǎn)化提供很好的支持。

(3)非易失的:操作型系統(tǒng)中一般需要對(duì)數(shù)據(jù)記錄進(jìn)行逐個(gè)的增刪改操作,而在數(shù)據(jù)倉庫中與操作系統(tǒng)中的數(shù)據(jù)操作不一樣,在數(shù)據(jù)倉庫環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新,數(shù)據(jù)倉庫的數(shù)據(jù)通常是一次載入與訪問的,也就是說數(shù)據(jù)經(jīng)過集成化處理后一次載入數(shù)據(jù)倉庫的。對(duì)于數(shù)據(jù)的維護(hù),一般采用新增記錄。雖然在某些情況下可以采用更新的方式,但是這種情況極少可能。而這并不意味著數(shù)據(jù)倉庫中的數(shù)據(jù)是一直不變的。其實(shí)數(shù)據(jù)倉庫的數(shù)據(jù)也需要清理,只是這里的清理不是簡(jiǎn)單地將數(shù)據(jù)從數(shù)據(jù)倉庫中刪除,而是將數(shù)據(jù)倉庫的早期數(shù)據(jù)轉(zhuǎn)移到更便宜的存儲(chǔ)設(shè)備上,或者把早期的細(xì)節(jié)數(shù)據(jù)進(jìn)行綜合保留。清理數(shù)據(jù)倉庫還有一個(gè)重要的內(nèi)容就是對(duì)于休眠數(shù)據(jù)和臟數(shù)據(jù)的處理。休眠數(shù)據(jù)是指那些存在于數(shù)據(jù)倉庫中的、當(dāng)前并不使用、將來也很可能或者根本就不會(huì)使用的數(shù)據(jù)。臟數(shù)據(jù)是指那些錯(cuò)誤的數(shù)據(jù)。雖然我們說要確保數(shù)據(jù)的質(zhì)量,但是這兩種數(shù)據(jù)都不可避免地會(huì)存在于數(shù)據(jù)倉庫中。識(shí)別和處理這兩種數(shù)據(jù)是提高數(shù)據(jù)倉庫性能的一個(gè)方面,雖然處理起來不是那么容易。在數(shù)據(jù)倉庫構(gòu)建當(dāng)初,這個(gè)問題可能不是特別明顯,但是隨著數(shù)據(jù)倉庫的運(yùn)作,這將成為一個(gè)數(shù)據(jù)倉庫管理的重要內(nèi)容。數(shù)據(jù)倉庫中的數(shù)據(jù)維護(hù)策略是數(shù)據(jù)倉庫實(shí)施中的重要內(nèi)容,維護(hù)策略制定的合理性直接影響著整個(gè)數(shù)據(jù)倉庫的功能和性能。

(4)隨時(shí)間變化:操作型數(shù)據(jù)庫含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問時(shí)是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照。也就是說數(shù)據(jù)倉庫中按時(shí)間保留對(duì)應(yīng)的歷史數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)總是與時(shí)間相關(guān)的,在企業(yè)模型的基礎(chǔ)上建立數(shù)據(jù)倉庫模型的過程中一個(gè)重要的內(nèi)容就是去除純操作數(shù)據(jù)的同時(shí)加入時(shí)間元素。數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素。在數(shù)據(jù)倉庫中數(shù)據(jù)記錄觸發(fā)一般是“時(shí)間-發(fā)生”型的,比如某個(gè)時(shí)間開始進(jìn)行數(shù)據(jù)處理活動(dòng)。

(5)多重粒度:粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小例如清單級(jí)數(shù)據(jù);相反,細(xì)化程度越低,粒度級(jí)就越大,例如月匯總數(shù)據(jù)或應(yīng)用匯總數(shù)據(jù)。顯而易見,粒度與數(shù)據(jù)倉庫的性能和功能有著息息相關(guān)的關(guān)系,它深深地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型:

   ① 數(shù)據(jù)粒度和數(shù)據(jù)存儲(chǔ)量的矛盾:如果數(shù)據(jù)倉庫的空間很有限的話(數(shù)據(jù)量總是數(shù)據(jù)倉庫中的首要問題),用高粒度級(jí)表示數(shù)據(jù)將比用低粒度級(jí)表示數(shù)據(jù)的效率要高得多,在高粒度級(jí)上,數(shù)據(jù)進(jìn)行了很大的壓縮。

② 數(shù)據(jù)粒度和數(shù)據(jù)處理能力的矛盾:高粒度級(jí)不僅只需少得多的字節(jié)存放數(shù)據(jù),而且只需較少的索引項(xiàng),低粒度級(jí)則相反。小數(shù)據(jù)量的數(shù)據(jù)訪問效率比較高,而大數(shù)據(jù)量的數(shù)據(jù)訪問效率比較低,為了有效地訪問大量數(shù)據(jù),需要系統(tǒng)具有更大的數(shù)據(jù)處理能力。

③ 數(shù)據(jù)粒度和回答查詢的能力的矛盾:當(dāng)提高數(shù)據(jù)粒度級(jí)時(shí),數(shù)據(jù)所能回答查詢的能力就會(huì)隨之降低。換句話說,在一個(gè)很低的粒度級(jí)上你實(shí)際可以回答任何問題,但在高粒度級(jí)上,數(shù)據(jù)所能處理問題的數(shù)量是有限的。

因此,為了平衡性能和功能和費(fèi)用,一般選擇多重粒度。所謂多重粒度就是指在數(shù)據(jù)倉庫中既有粒度小的如清單級(jí)的數(shù)據(jù),又有粒度大的數(shù)據(jù),比如匯總數(shù)據(jù),匯總力度多大,決定于系統(tǒng)的處理能力和用戶的要求。數(shù)據(jù)倉庫中的數(shù)據(jù)是有粒度層次的(如圖2所示)。

圖2 數(shù)據(jù)倉庫數(shù)據(jù)層次結(jié)構(gòu)

 2.2 數(shù)據(jù)倉庫的用戶

    數(shù)據(jù)倉庫的用戶一般稱為DSS分析員,他首先是個(gè)商務(wù)人員,其次才是技術(shù)人員。DSS分析員的主要工作是定義和發(fā)現(xiàn)在企業(yè)決策中使用的信息。DSS分析員的態(tài)度對(duì)數(shù)據(jù)倉庫的開發(fā)方式和分析應(yīng)用系統(tǒng)怎樣使用被開發(fā)的數(shù)據(jù)倉庫有深遠(yuǎn)的影響。

    數(shù)據(jù)倉庫用戶群中有多種多樣的最終用戶,每類最終用戶都有自己獨(dú)特的特征和使用數(shù)據(jù)倉庫的需求。從使用方式出發(fā),數(shù)據(jù)倉庫用戶群可以分成兩大類:一類是信息使用者;一類是信息探索者。

    數(shù)據(jù)倉庫的用戶大多數(shù)屬于信息使用者,信息使用者以一種可預(yù)測(cè)的重復(fù)性的方式來使用數(shù)據(jù)倉庫,他們通常查看相同商業(yè)維度(客戶、業(yè)務(wù)、地域、終端)和指標(biāo)(時(shí)長(zhǎng)、話費(fèi))隨時(shí)間的發(fā)展趨勢(shì)、預(yù)測(cè)發(fā)展走向、觀察業(yè)務(wù)發(fā)展效果、監(jiān)測(cè)客戶狀況以支持銷售或營(yíng)銷決策,他們主要利用數(shù)據(jù)倉庫平臺(tái)進(jìn)行多維分析;而探索者有一個(gè)完全不可預(yù)測(cè)的、非重復(fù)性的數(shù)據(jù)使用模式,本質(zhì)上探索者是典型的數(shù)據(jù)挖掘者,他需要查看海量數(shù)據(jù),他并不能精確地知道什么必須分析,他需要查看沒有被預(yù)關(guān)聯(lián)的數(shù)據(jù)關(guān)系和數(shù)據(jù)集,探索者利用數(shù)據(jù)倉庫數(shù)據(jù)的廣度和深度來支持他們的探索性分析活動(dòng)。這兩類用戶對(duì)數(shù)據(jù)倉庫的性能要求是截然不一樣的,分清數(shù)據(jù)倉庫的用戶,具有針對(duì)性地進(jìn)行數(shù)據(jù)倉庫管理以提高數(shù)據(jù)倉庫的性能,減少運(yùn)作和維護(hù)的費(fèi)用是數(shù)據(jù)倉庫成功的一個(gè)關(guān)鍵因素。

    2.3 數(shù)據(jù)倉庫體系結(jié)構(gòu)

    如圖3所示,以數(shù)據(jù)倉庫為中心的,滿足企業(yè)決策支持、企業(yè)商業(yè)智能的數(shù)據(jù)倉庫體系結(jié)構(gòu)包括以下內(nèi)容。

圖3 數(shù)據(jù)倉庫體系結(jié)構(gòu)

    (1)數(shù)據(jù)源:數(shù)據(jù)源是數(shù)據(jù)倉庫數(shù)據(jù)的來源,主要包括存在于企業(yè)內(nèi)部的各個(gè)應(yīng)用系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),還包括來自于企業(yè)外的結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)。隨著決策分析的要求越來越精確,范圍越來越廣,許多外部數(shù)據(jù)(比如企業(yè)價(jià)值鏈上的各種非本企業(yè)數(shù)據(jù)或信息)逐漸納入到體系結(jié)構(gòu)中。

    (2)中心數(shù)據(jù)倉庫:中心數(shù)據(jù)倉庫是整個(gè)體系結(jié)構(gòu)的核心,來自于各個(gè)數(shù)據(jù)源的數(shù)據(jù)經(jīng)過ETL處理后裝載入數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中數(shù)據(jù)是按照主題的方式組織的,具有多重粒度性。數(shù)據(jù)倉庫中包括大量的能滿足各種回答能力的歷史細(xì)節(jié)數(shù)據(jù),同時(shí)也包括各種能滿足查詢性能要求的綜合性數(shù)據(jù)。數(shù)據(jù)量大是數(shù)據(jù)倉庫的最大特征,如何進(jìn)行大數(shù)據(jù)量的管理,達(dá)到性能和功能的平衡是數(shù)據(jù)倉庫相關(guān)技術(shù)要求的核心內(nèi)容;數(shù)據(jù)倉庫的另一個(gè)重要特征是它的數(shù)據(jù)不可更新性,數(shù)據(jù)倉庫的可行性,很大程度依賴于這個(gè)前提,由此,在空間設(shè)計(jì)上可以不用考慮寫操作帶來的空間預(yù)留,可以不用一直將鎖管理打開而有效地節(jié)省系統(tǒng)開銷,保證大數(shù)據(jù)量管理的實(shí)現(xiàn);另外,數(shù)據(jù)倉庫不具有快速反應(yīng)的特征,這是因?yàn)橐环矫鏀?shù)據(jù)倉庫的數(shù)據(jù)量非常大,在這樣大的數(shù)據(jù)量的數(shù)據(jù)操作中追求快速反應(yīng)是不現(xiàn)實(shí)的,另一方面數(shù)據(jù)倉庫的工作負(fù)載是不均衡的,有時(shí)很小,有時(shí)很大,在一個(gè)大數(shù)據(jù)量的查詢過程中,要求另一個(gè)查詢的快速是不現(xiàn)實(shí)的也是不科學(xué)的。

    (3)數(shù)據(jù)集市:所謂數(shù)據(jù)集市就是指基于某一特定部門的決策支持需要而組織的主題域的一個(gè)集合,它支持部門的定制化使用,是部門的數(shù)據(jù)體。當(dāng)越來越多的部門或用戶加入到數(shù)據(jù)倉庫的使用中時(shí),數(shù)據(jù)倉庫的性能受到很大的壓力,以致于一些訪問數(shù)據(jù)倉庫的要求和分析工作被推遲。為了解決這種矛盾,在數(shù)據(jù)倉庫平臺(tái)中引入數(shù)據(jù)集市,將部門所需要的數(shù)據(jù)從數(shù)據(jù)倉庫中復(fù)制到部門處理環(huán)境中,數(shù)據(jù)集市是平衡數(shù)據(jù)倉庫性能的一個(gè)重要組件。數(shù)據(jù)集市概念的提出和在現(xiàn)代數(shù)據(jù)倉庫體系中突出了數(shù)據(jù)集市的一個(gè)主要原因是為了調(diào)節(jié)大數(shù)據(jù)量管理和用戶數(shù)據(jù)訪問需求間的關(guān)系。對(duì)于一個(gè)數(shù)據(jù)規(guī)模非常大的數(shù)據(jù)倉庫結(jié)構(gòu),通過數(shù)據(jù)集市將部分商業(yè)智能應(yīng)用和數(shù)據(jù)倉庫隔離開來,使數(shù)據(jù)倉庫的結(jié)構(gòu)和組織更自由一些,使得數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中的處理可以更加靈活一些。在數(shù)據(jù)倉庫體系中加入數(shù)據(jù)集市的元素能夠更快速地反映用戶的要求,也可以更方便地滿足用戶的多樣性需求。數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個(gè)有效和自然的補(bǔ)充,數(shù)據(jù)集市延伸決策支持到部門級(jí)環(huán)境中。數(shù)據(jù)倉庫提供粒狀數(shù)據(jù),不同數(shù)據(jù)集市應(yīng)用不同的方法來解釋和構(gòu)造這種粒狀數(shù)據(jù)以滿足他們的需求。對(duì)數(shù)據(jù)集市來說,最適當(dāng)?shù)臄?shù)據(jù)源是數(shù)據(jù)倉庫。但是數(shù)據(jù)倉庫和數(shù)據(jù)集市又具有很大的差異性,不能以數(shù)據(jù)集市代替數(shù)據(jù)倉庫,因?yàn)閿?shù)據(jù)集市不能支持?jǐn)?shù)據(jù)挖掘,數(shù)據(jù)集市不能支持企業(yè)級(jí)的決策分析,數(shù)據(jù)集市不能滿足企業(yè)的商業(yè)智能化要求,不能夠集中體現(xiàn)出企業(yè)的整體運(yùn)營(yíng)策略。

    (4)數(shù)據(jù)訪問:為了充分發(fā)揮數(shù)據(jù)倉庫的作用,需要利用各種訪問方式找出它所包含的信息,并充分利用這些信息。用戶對(duì)數(shù)據(jù)倉庫的使用形式各種各樣,對(duì)于數(shù)據(jù)倉庫的使用要求也是各種各樣的,為了有效地運(yùn)用數(shù)據(jù)倉庫進(jìn)行決策支持,根據(jù)用戶的不同要求提供相應(yīng)的訪問工具和應(yīng)用是數(shù)據(jù)倉庫體系的一個(gè)重要內(nèi)容。目前數(shù)據(jù)訪問形式可以歸納為以下方面:

    ① OLAP:聯(lián)機(jī)分析處理(OLAP)是當(dāng)前信息處理領(lǐng)域比較流行的一種訪問技術(shù),一般支持多維性、下鉆、旋轉(zhuǎn)和多視圖模式等功能。用戶通過OLAP可以對(duì)數(shù)據(jù)進(jìn)行非常靈活的訪問,可以用多種方法對(duì)數(shù)據(jù)進(jìn)行切片、分割,動(dòng)態(tài)地考察匯總數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)的關(guān)系。

    ② 分析:采用數(shù)據(jù)庫查詢語言(例如SQL)直接訪問數(shù)據(jù)倉庫,并獲得分析結(jié)果。這是訪問數(shù)據(jù)倉庫最原始的方法,一般由數(shù)據(jù)庫專家采用。

    ③ 報(bào)表:通過預(yù)先制定好的報(bào)表為用戶提供分析。這種方式對(duì)數(shù)據(jù)的獲取比較受限制,一般運(yùn)用在一些常規(guī)的關(guān)鍵數(shù)據(jù)呈現(xiàn)上。

    ④ 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘也叫做數(shù)據(jù)庫中的數(shù)據(jù)發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘就是一個(gè)發(fā)現(xiàn)過程,它能夠幫助用戶理解有關(guān)數(shù)據(jù)的真正含義,并了解數(shù)據(jù)之間所存在的關(guān)系。數(shù)據(jù)挖掘能夠在信息內(nèi)容中揭示出相應(yīng)的模式和趨勢(shì)。

    ⑤ WEB訪問:最終用戶通過具有數(shù)據(jù)倉庫數(shù)據(jù)訪問能力的WEB應(yīng)用程序訪問數(shù)據(jù)倉庫。目前的技術(shù)已可以創(chuàng)建高級(jí)的交互式應(yīng)用程序,允許客戶端查詢數(shù)據(jù)倉庫和多維數(shù)據(jù)集中的數(shù)據(jù)。

    ⑥ EIS:高級(jí)管理人員信息系統(tǒng)(EIS)為高級(jí)管理人員制定相關(guān)決策提供支持。最典型的用途包括趨勢(shì)分析和發(fā)現(xiàn)、關(guān)鍵比例指示器度量和跟蹤、向下探察分析、問題監(jiān)控、競(jìng)爭(zhēng)分析等。

    ⑦ 操作型應(yīng)用系統(tǒng):這是一類比較特殊的對(duì)數(shù)據(jù)倉庫的訪問。這類系統(tǒng)一方面具有對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)訪問能力,一方面又將相關(guān)的數(shù)據(jù)“寫回”到數(shù)據(jù)倉庫中,例如CRM系統(tǒng)。

    (5)元數(shù)據(jù)管理:元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù),是對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)的描述。在數(shù)據(jù)倉庫體系中元數(shù)據(jù)扮演一個(gè)新的重要角色,這是因?yàn)槭褂谜呤荄SS人員,他不具有象IT人員那樣多的計(jì)算機(jī)或相關(guān)的知識(shí);另外數(shù)據(jù)倉庫的數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中經(jīng)過了集成、清洗等處理,所以操作型環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射是數(shù)據(jù)理解的關(guān)鍵。元數(shù)據(jù)的內(nèi)容一般包括程序員所應(yīng)知的數(shù)據(jù)結(jié)構(gòu)、DSS分析員所知的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)倉庫的源數(shù)據(jù)、數(shù)據(jù)加入數(shù)據(jù)倉庫時(shí)的轉(zhuǎn)換、數(shù)據(jù)模型、數(shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)系、抽取數(shù)據(jù)的歷史記錄等內(nèi)容。和元數(shù)據(jù)比較相近的一個(gè)重要概念是上下文,所謂上下文就是某種分析結(jié)果的前因后果,它非常重要,有時(shí)在將數(shù)據(jù)轉(zhuǎn)化成信息時(shí)起了很大的作用。

3 數(shù)據(jù)倉庫的實(shí)施

3.1 數(shù)據(jù)倉庫實(shí)施的特點(diǎn)

數(shù)據(jù)倉庫的實(shí)施一般是指如何組織數(shù)據(jù)并將數(shù)據(jù)從操作型環(huán)境中遷移到數(shù)據(jù)倉庫環(huán)境中,并在數(shù)據(jù)倉庫的基礎(chǔ)上建立適于用戶訪問數(shù)據(jù),進(jìn)行決策分析的應(yīng)用。數(shù)據(jù)倉庫的實(shí)施具有以下特點(diǎn):

(1)建立數(shù)據(jù)倉庫不是一蹴而就的:由于在數(shù)據(jù)倉庫載入第一個(gè)主題數(shù)據(jù)前,業(yè)務(wù)分析人員是不知道需要什么的,所以數(shù)據(jù)倉庫的實(shí)施具有一定的風(fēng)險(xiǎn)性,一次一步的方式有效地降低了風(fēng)險(xiǎn)。

(2)數(shù)據(jù)倉庫的建立要采用有序地反復(fù)的方式,即迭代的方式:在建立數(shù)據(jù)倉庫的過程中,不可避免地會(huì)出現(xiàn)新主題的增加,新數(shù)據(jù)的抽取等要求,尤其是現(xiàn)在市場(chǎng)變化這么快,一兩年后的要求也許和現(xiàn)在就有很大的差異,所以說數(shù)據(jù)倉庫的實(shí)施實(shí)際上是一個(gè)建立一個(gè)良性循環(huán)的迭代過程,成功的標(biāo)志在于是否建立了一個(gè)良性的迭代過程,是否持續(xù)地使用。

(3)數(shù)據(jù)倉庫成功的一個(gè)關(guān)鍵因素在于數(shù)據(jù)倉庫設(shè)計(jì)者和DSS分析人員之間的反饋循環(huán):數(shù)據(jù)倉庫載入數(shù)據(jù)后需要使用者積極地去使用和觀察數(shù)據(jù),然后反饋意見給設(shè)計(jì)人員進(jìn)行數(shù)據(jù)倉庫的修正完善。如果分析人員發(fā)現(xiàn)了問題又不及時(shí)反饋給設(shè)計(jì)人員,不能形成一個(gè)良性的循環(huán),數(shù)據(jù)倉庫成功的幾率是很低的。

3.2 數(shù)據(jù)倉庫實(shí)施的過程

數(shù)據(jù)倉庫的實(shí)施是從一個(gè)模型開始的。然后定義記錄系統(tǒng)即確定數(shù)據(jù)源,設(shè)計(jì)數(shù)據(jù)倉庫,設(shè)計(jì)接口程序,進(jìn)行ETL開發(fā)和應(yīng)用開發(fā),和DSS分析人員進(jìn)行循環(huán)反饋,如圖4所示。數(shù)據(jù)倉庫的實(shí)施包括以下3個(gè)部分。

圖4 數(shù)據(jù)倉庫實(shí)施的循環(huán)

(1)數(shù)據(jù)倉庫規(guī)劃:以企業(yè)的業(yè)務(wù)模型為基礎(chǔ)進(jìn)行企業(yè)決策相關(guān)的業(yè)務(wù)理解和探索,制定相應(yīng)的商業(yè)/分析數(shù)據(jù)模型,該模型描述了企業(yè)的信息需求(指出企業(yè)所需要的而不考慮企業(yè)所具有的),至少需要包括企業(yè)的主要主題、各個(gè)主題之間的關(guān)系以及對(duì)主題主鍵(組)和屬性(組)的盡可能全面的描述等內(nèi)容。根據(jù)該模型定義記錄系統(tǒng),即分析和確定由哪些生產(chǎn)應(yīng)用系統(tǒng)提供滿足要求的數(shù)據(jù)后,就可以建立數(shù)據(jù)倉庫的邏輯模型和進(jìn)行數(shù)據(jù)倉庫結(jié)構(gòu)設(shè)計(jì)了。

(2)數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)施:該部分包括知識(shí)探索、根據(jù)邏輯模型和性能要求進(jìn)行物理模型設(shè)計(jì)、制定數(shù)據(jù)存儲(chǔ)策略、根據(jù)記錄系統(tǒng)和數(shù)據(jù)倉庫模型進(jìn)行ETL開發(fā)和實(shí)施、進(jìn)行滿足用戶使用特征的應(yīng)用開發(fā)、包括數(shù)據(jù)倉庫數(shù)據(jù)和元數(shù)據(jù)的管理等內(nèi)容的數(shù)據(jù)倉庫管理以及數(shù)據(jù)倉庫性能的監(jiān)測(cè)等內(nèi)容。

(3)數(shù)據(jù)倉庫支持和完善:該部分包括根據(jù)數(shù)據(jù)倉庫的運(yùn)作情況并對(duì)數(shù)據(jù)倉庫的結(jié)構(gòu)和容量進(jìn)行相應(yīng)的調(diào)整,根據(jù)用戶的使用反饋對(duì)數(shù)據(jù)倉庫的邏輯模型、物理模型進(jìn)行審查,確定是否需要調(diào)整迭代,對(duì)數(shù)據(jù)倉庫進(jìn)行審計(jì),確定數(shù)據(jù)倉庫的價(jià)值等過程。

最后,值得一提的是,數(shù)據(jù)倉庫的實(shí)施是一個(gè)企業(yè)行為。在企業(yè)實(shí)施數(shù)據(jù)倉庫過程中,有一個(gè)問題擺在了決策者的面前,就是如何評(píng)價(jià)數(shù)據(jù)倉庫的投資收益(ROI),這個(gè)問題在國(guó)外的企業(yè)中是一個(gè)非常重要的問題。如果把數(shù)據(jù)倉庫作為一個(gè)項(xiàng)目來看的話,應(yīng)該如何正確計(jì)算ROI呢?這個(gè)問題難倒了很多人,包括很多專家。后來人們重新審視數(shù)據(jù)倉庫在企業(yè)運(yùn)營(yíng)中的作用時(shí),發(fā)現(xiàn)不應(yīng)該把數(shù)據(jù)倉庫僅僅作為一個(gè)項(xiàng)目來看。數(shù)據(jù)倉庫是企業(yè)的一個(gè)重要資產(chǎn),是企業(yè)運(yùn)營(yíng)的一個(gè)基礎(chǔ),應(yīng)該把數(shù)據(jù)倉庫的實(shí)施和完善作為企業(yè)的一項(xiàng)運(yùn)營(yíng)內(nèi)容/活動(dòng)來看,這時(shí)再去評(píng)價(jià)數(shù)據(jù)倉庫的ROI就容易理解了。

4 總 結(jié)

數(shù)據(jù)倉庫是為企業(yè)決策支持服務(wù)的,市場(chǎng)的快速變化、競(jìng)爭(zhēng)的日益激烈使得企業(yè)越來越急迫地需要數(shù)據(jù)和信息以快速應(yīng)對(duì)市場(chǎng)變化,以全面了解客戶,迫切地需要方便地獲取信息支持以能夠及時(shí)作出正確和有效的決策,建立新的銷售和營(yíng)銷渠道,實(shí)現(xiàn)商業(yè)智能。運(yùn)用數(shù)據(jù)倉庫體系建立包括市場(chǎng)經(jīng)營(yíng)分析系統(tǒng)(MAS)、客戶關(guān)系管理系統(tǒng)(CRM)、企業(yè)決策支持系統(tǒng)(EDSS)等在內(nèi)的企業(yè)商業(yè)智能系統(tǒng)以提升企業(yè)競(jìng)爭(zhēng)力、拓展企業(yè)新的發(fā)展空間正逐步成為各個(gè)運(yùn)營(yíng)商新的重點(diǎn)發(fā)展目標(biāo)。

 

發(fā)布:2007-04-24 12:12    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
福州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普福州OA快博其他應(yīng)用

福州OA軟件 福州OA新聞動(dòng)態(tài) 福州OA信息化 福州OA快博 福州OA行業(yè)資訊 福州軟件開發(fā)公司 福州門禁系統(tǒng) 福州物業(yè)管理軟件 福州倉庫管理軟件 福州餐飲管理軟件 福州網(wǎng)站建設(shè)公司