監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

數(shù)據(jù)倉庫技術(shù)及其實施的策略

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

一、數(shù)據(jù)倉庫技術(shù)

1、數(shù)據(jù)倉庫產(chǎn)生背景

應(yīng)用和技術(shù)的發(fā)展總是相互作用的,一方面,現(xiàn)代社會的廣泛電子化、數(shù)字化提供了前所未有的、有待加工和處理的原始數(shù)據(jù)。就一個企業(yè)而言,這些數(shù)據(jù)量大約五年就可增長一倍,這主要指企業(yè)日常運作中所產(chǎn)生的有助于企業(yè)決策的數(shù)據(jù),還不包括多種源于企業(yè)外部的各種有用數(shù)據(jù),如市場分析、研究報告、各種咨詢機構(gòu)提供的各種報告等等。另外,數(shù)據(jù)的形式也突破了傳統(tǒng)的數(shù)字和符號,包括了原始商業(yè)文檔、多種圖形、圖像數(shù)據(jù)等,故許多企業(yè)、部門并不是缺少數(shù)據(jù),而是常常被過分重復(fù)和不一致的數(shù)據(jù)所困擾,從而越來越難以有效管理和存取這些數(shù)據(jù),使之用于決策過程,這種局面自然導(dǎo)致一個強烈的要求,要求有一種系統(tǒng)能存取這些數(shù)據(jù),并將它轉(zhuǎn)換成一種可信賴的、有用的信息。

另一方面,現(xiàn)代企業(yè)經(jīng)常面臨各種挑戰(zhàn),如何最大限度地挖掘各種有用信息,使企業(yè)在激烈的市場競爭中立于不敗之地,并獲得最大的商業(yè)利潤,也為計算機信息處理技術(shù)提出了新的要求。例如,如何支持數(shù)據(jù)集成,因為在企業(yè)的發(fā)展過程中已建立了許多應(yīng)用系統(tǒng),如庫存管理、財務(wù)及人事管理等,積累了大量的數(shù)據(jù),而原有應(yīng)用通常都是針對某個部門單獨設(shè)計的,這樣,如何運用新的應(yīng)用,使這些應(yīng)用可以利用已有的數(shù)據(jù)。又如,企業(yè)除對日常業(yè)務(wù)數(shù)據(jù)進行增、刪、改等事務(wù)處理和簡單匯總外,管理者往往要綜合利用歷史和現(xiàn)有的各種數(shù)據(jù)進行綜合分析。

由此導(dǎo)致了數(shù)據(jù)倉庫技術(shù)的提出。數(shù)據(jù)倉庫是計算機應(yīng)用領(lǐng)域里的一個嶄新方向,已成為90年代信息系統(tǒng)體系結(jié)構(gòu)新的技術(shù)焦點,它是來自多個數(shù)據(jù)源的數(shù)據(jù)的拷貝和集成,從歷史的角度來組織和存儲數(shù)據(jù),同時保證關(guān)鍵任務(wù)數(shù)據(jù)的完整性和安全性,為企業(yè)發(fā)展提供有效的技術(shù)支持。

2、數(shù)據(jù)倉庫的概念及其主要特點

世界公認的數(shù)據(jù)倉庫概念創(chuàng)始人、美國著名信息工程學(xué)家W.H .In mon在他的《Building the Data W ar ehouse》一書中對數(shù)據(jù)倉庫給出了一個定義:數(shù)據(jù)倉庫(Data Warehouse)就是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。

由于Inmon本人在數(shù)據(jù)倉庫發(fā)展中的作用,他的上述描述相對地成了一個權(quán)威的定義。其它的有代表性的觀點還有:

Stanford大學(xué)的數(shù)據(jù)倉庫研究小組認為,數(shù)據(jù)倉庫是集成信息的存儲中心,這些信息可以用來查詢或分析。

Informix公司負責研究與開發(fā)副總裁Tim.Shelter認為,數(shù)據(jù)倉庫是把分布在企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集成到一起,存儲在一個單一的集成關(guān)系數(shù)據(jù)庫中。利用這些集成信息,可以方便用戶對信息的訪問,更可使決策人員對一段時間內(nèi)的歷史數(shù)據(jù)進行分析,研究事物的發(fā)展趨勢。

SAS軟件研究所的觀點,數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過合理、流暢、全面的信息管理達到有效的決策支持。

從上述幾種觀點同時可以看出:數(shù)據(jù)倉庫的主要功能是提供企業(yè)決策支持系統(tǒng)(Decision Support System)所需要的信息,它把企業(yè)日常運作中分散的、不一致的數(shù)據(jù)經(jīng)過歸納整理后轉(zhuǎn)換為集中的、統(tǒng)一的、可隨時取用的深層信息。

從上述幾種觀點同時也可以看出,數(shù)據(jù)倉庫的主要特點是:

(1)數(shù)據(jù)倉庫是面向主題的

數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的,而傳統(tǒng)數(shù)據(jù)庫是面向事務(wù)處理應(yīng)用進行數(shù)據(jù)組織的。主題是指一個分析領(lǐng)域,是在一個較高層次上對數(shù)據(jù)進行組織、歸類的標準。假如為保險公司建立數(shù)據(jù)倉庫,則所選主題可能是政策、保險金、索賠、客戶等,而按應(yīng)用組織的數(shù)據(jù)庫則可能是汽車保險、生命保險、財產(chǎn)保險等。面向主題的數(shù)據(jù)組織方式就是在較高層次上對分析對象的數(shù)據(jù)的一個完整的、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的關(guān)系,從而使得面向主題的數(shù)據(jù)組織可以獨立于數(shù)據(jù)的處理邏輯,方便了在多種環(huán)境上開發(fā)新的分析型應(yīng)用。同時,這種獨立性也是建設(shè)企業(yè)全局數(shù)據(jù)庫所要求的,故面向主題不僅適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織形式,也適用于建設(shè)企業(yè)級數(shù)據(jù)庫的數(shù)據(jù)組織方式。當然,同一主題的數(shù)據(jù)根據(jù)其時間、訪問頻率等可存放在不同的設(shè)備上,以優(yōu)化數(shù)據(jù)倉庫的整體性能。

(2)數(shù)據(jù)倉庫是集成的

不論數(shù)據(jù)來源何處,在進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成,統(tǒng)一與綜合,從而在進人數(shù)據(jù)倉庫之后都具有統(tǒng)一的數(shù)據(jù)屬性和編碼結(jié)構(gòu)等,即數(shù)據(jù)倉庫中的數(shù)據(jù)具有一致性的特點。

(3)數(shù)據(jù)倉庫是穩(wěn)定的

數(shù)據(jù)倉庫中保存的是大量的經(jīng)集成、加工過的綜合性歷史數(shù)據(jù),是供企業(yè)決策分析之用的,所涉及的數(shù)據(jù)操作主要是查詢,一般情況下并不輕易改動,只做定期刷新。

(4)數(shù)據(jù)倉庫是隨時間變化的

數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應(yīng)用來說的,即數(shù)據(jù)倉庫的用戶進行分析處理時不進行數(shù)據(jù)更新操作,但這并不等于說,數(shù)據(jù)在從集成到數(shù)據(jù)倉庫開始到最后被刪除的整個生命周期中都是永遠不變的。主要體現(xiàn)在:

1)隨著時間的變化,要不斷向數(shù)據(jù)倉庫中增加新的數(shù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉OLTP(聯(lián)機事務(wù)處理)數(shù)據(jù)中變化的數(shù)據(jù),追加到數(shù)據(jù)倉庫中。

2)隨著時間的變化,要不斷刪除數(shù)據(jù)倉庫中的老數(shù)據(jù)。數(shù)據(jù)倉庫中數(shù)據(jù)也有存儲期限,一旦超過這一期限,過期數(shù)據(jù)就要被刪除。一般操作型環(huán)境中數(shù)據(jù)的保存期限為60-90天,而在數(shù)據(jù)倉庫中為適應(yīng)趨勢分析,需保存更長的時間,如5-10年。

3)由于數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),而這些綜合數(shù)據(jù)中很多與時間有關(guān),故隨著時間的變化,這些數(shù)據(jù)也要不斷進行更新、綜合。

二、數(shù)據(jù)倉庫的體系結(jié)構(gòu)

體系結(jié)構(gòu)定義了一個應(yīng)用系統(tǒng)中每個組成部分的功能和責任。在數(shù)據(jù)倉庫技術(shù)中,數(shù)據(jù)和信息從不同的數(shù)據(jù)源提取出來,然后被轉(zhuǎn)換成公共的數(shù)據(jù)模型并且和倉庫中己有的數(shù)據(jù)集成在一起。當用戶向倉庫進行查詢時,需要的信息已經(jīng)準備好了,數(shù)據(jù)沖突、表達不一致等問題已經(jīng)得到了解決,從而使決策查詢更容易、更有效。故作為一個系統(tǒng),數(shù)據(jù)倉庫至少應(yīng)包括三個基本的功能:

1、數(shù)據(jù)獲?。贺撠煆耐獠繑?shù)據(jù)源抽取數(shù)據(jù),對數(shù)據(jù)進行檢驗和整理,并根據(jù)數(shù)據(jù)倉庫的設(shè)計要求和規(guī)則,對數(shù)據(jù)重新組織和加工,裝載到數(shù)據(jù)倉庫的目標數(shù)據(jù)庫中,并周期性地刷新數(shù)據(jù)倉庫以反映數(shù)據(jù)源的變化,并進行時間相關(guān)性處理。

2、數(shù)據(jù)存儲和管理:負責數(shù)據(jù)倉庫的內(nèi)部維護和管理,包括數(shù)據(jù)存儲的組織、數(shù)據(jù)的維護、數(shù)據(jù)的分發(fā)、數(shù)據(jù)倉庫的例行維護等。

3、信息訪問:負責提供分析人員和決策人員多方位、多角度訪問數(shù)據(jù)倉庫中數(shù)據(jù)的功能,并將結(jié)果以多種形式表現(xiàn)出來。數(shù)據(jù)倉庫的目標和作用最終都要通過該部分提供給用戶。該部分主要由桌面系統(tǒng)的各種工具組成,如查詢生成工具、多維分析工具、數(shù)據(jù)挖掘工具等。

雖然ORACLE、Sybase等廠商都提出了自己的數(shù)據(jù)倉庫結(jié)構(gòu),但嚴格來說,任何一個數(shù)據(jù)倉庫結(jié)構(gòu)都是從一個基本框架發(fā)展而來,實現(xiàn)時再根據(jù)分析處理的需要具體增加一些部件。在眾多高校和研究所對數(shù)據(jù)倉庫的研究中,Stanford大學(xué)的數(shù)據(jù)倉庫計劃(WHIPS)處于領(lǐng)先地位,他們提出的一個有普遍代表性的數(shù)據(jù)倉庫體系結(jié)構(gòu)如圖1所示。

圖1 數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)

◇ 信息源(Information Sources)是指為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的操作型數(shù)據(jù)庫系統(tǒng)以及外部數(shù)據(jù)。

◇ 監(jiān)視器(Monitor)負責自動監(jiān)測信息源中數(shù)據(jù)的變化并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù)。

◇ 集成器(Integrator)負責對從操作型數(shù)據(jù)庫中提取的數(shù)據(jù)進行轉(zhuǎn)換、計算、匯總等操作,再集成到數(shù)據(jù)倉庫中。

◇ 數(shù)據(jù)倉庫(Data Warehouse)存儲已經(jīng)按企業(yè)級視圖轉(zhuǎn)換的數(shù)據(jù),供分析處理用。根據(jù)不同的分析需求,倉庫中的數(shù)據(jù)按不同的匯總級別存儲。當然,數(shù)據(jù)倉庫中還應(yīng)有元數(shù)據(jù)(Mata Data),它記錄了數(shù)據(jù)的結(jié)構(gòu)和數(shù)據(jù)倉庫的任何變化,以支持數(shù)據(jù)倉庫的應(yīng)用開發(fā)。

◇ 客戶應(yīng)用(Client Application)供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進行訪問查詢,并以直觀的方式表示分析結(jié)果的工具。

三、數(shù)據(jù)倉庫的實施

一個企業(yè)要建立一個數(shù)據(jù)倉庫通常是基于下面的理由:

1、為了進行分析和決策,需要準確的相關(guān)信息。而數(shù)據(jù)倉庫的本質(zhì)就是它所包含的信息是每個人都認同的。

2、數(shù)據(jù)采集和更新的自動化。在許多組織里,數(shù)據(jù)被存儲在各種異構(gòu)系統(tǒng)中,數(shù)據(jù)倉庫會自動完成數(shù)據(jù)的采集和更新,并使數(shù)據(jù)符合一個單一的標準。

3、加載后的分析和報表功能。當聯(lián)機事務(wù)處理(OLTP)也用于處理分析和報表時,其效率將會降低。通過建立一個單一的數(shù)據(jù)倉庫,聯(lián)機事務(wù)可以不必中斷,因而其性能就不會因管理和分析查詢而降低。數(shù)據(jù)倉庫是一個解決問題的方案,而不是一個可以買到的現(xiàn)成產(chǎn)品,它是諸多學(xué)科相互結(jié)合、綜合應(yīng)用的一門技術(shù)。不同企業(yè)有不同的數(shù)據(jù)倉庫,最終用戶(End User)往往并不清楚他們的真正需求,轉(zhuǎn)而依賴于信息系統(tǒng)的人員來定義數(shù)據(jù)倉庫的應(yīng)用需求,而數(shù)據(jù)倉庫開發(fā)人員即信息系統(tǒng)(IS)人員只專注于計算機系統(tǒng)本身,缺乏對企業(yè)整個業(yè)務(wù)運作的業(yè)務(wù)知識,因此就需要雙方互相溝通,共同協(xié)商來開發(fā)數(shù)據(jù)倉庫。

一般來說,建立數(shù)據(jù)倉庫包括過程:

a.啟動項目:確定建立數(shù)據(jù)倉庫的目標,制定項目計劃。

b.建立技術(shù)環(huán)境:選擇實現(xiàn)數(shù)據(jù)倉庫所需要的軟硬件資源。

c.確定主題,進行倉庫結(jié)構(gòu)設(shè)計:因為數(shù)據(jù)倉庫是面向決策支持的,它具有數(shù)據(jù)量大但更新不頻繁等特點,所以必須對數(shù)據(jù)倉庫結(jié)構(gòu)進行精心設(shè)計,以免隨著倉庫中數(shù)據(jù)量快速增長,造成系統(tǒng)分析和查詢性能的急劇下降。

d.數(shù)據(jù)倉庫的物理庫設(shè)計:根據(jù)用戶需求,從某個主題出發(fā),對數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結(jié)構(gòu)進行設(shè)計。

e.數(shù)據(jù)抽取、清潔、轉(zhuǎn)換、匯總、裝載:根據(jù)數(shù)據(jù)倉庫的設(shè)計,從各種數(shù)據(jù)源中抽取數(shù)據(jù),并進行清理、轉(zhuǎn)換、綜合等處理,最后裝載到數(shù)據(jù)倉庫中去。

f.開發(fā)支持用戶決策的數(shù)據(jù)分析工具:建立數(shù)據(jù)倉庫的目的是為了實現(xiàn)決策支持,所以需要各種工具對數(shù)據(jù)倉庫進行訪問分析,如優(yōu)化查詢工具、統(tǒng)計分析工具、數(shù)據(jù)挖掘工具等,通過分析工具實現(xiàn)決策支持需要。

g.數(shù)據(jù)倉庫環(huán)境的管理:為了保證數(shù)據(jù)倉庫的正常運行,必須對數(shù)據(jù)倉庫進行管理。

隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展,出現(xiàn)了多種實施策略,但總結(jié)起來,有下面二種:

1.“自頂向下”策略(Top-Down)該策略首先建立一個企業(yè)范圍內(nèi)的數(shù)據(jù)倉庫,從理論上講,該全局數(shù)據(jù)倉庫包含了決策支持所需要的一致的數(shù)據(jù)。面向各個部門的決策支持所需要的數(shù)據(jù)從全局倉庫中提取,這部分數(shù)據(jù)構(gòu)成了該部門的數(shù)據(jù)集市(Data Marts)。

該策略的優(yōu)點是:(1)數(shù)據(jù)集市繼承了數(shù)據(jù)倉庫的優(yōu)點,從而更易于維護;(2)確保了數(shù)據(jù)的抽取、清潔、集成和使用數(shù)據(jù)方法的標準化;(3)允許組織從全局的角度看待其商業(yè)活動,把數(shù)據(jù)匯總至企業(yè)級。

其不足是:(1)建設(shè)周期長,短時間內(nèi)難見其效果,從而加大了項目支持壓力;(2)必須得到CEO或其他權(quán)威的高級管理層的支持才有機會成功;(3)各個部門都希望按自己的需要定制數(shù)據(jù)倉庫中的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是面向整個企業(yè)的所有部門的,所以必須在各部門間做好協(xié)調(diào)工作。

2.“自底向上”策略(Bottom-Up)該策略是先建立面向特定部門或特定商業(yè)問題的數(shù)據(jù)集市,然后在這些數(shù)據(jù)集市的基礎(chǔ)上建立全局數(shù)據(jù)倉庫,目前這種實施策略比較流行。

該策略的優(yōu)點是:(1)因為是面向特定部門,涉及的數(shù)據(jù)范圍小,能更快地實現(xiàn),因而也能很快得到回報;(2)因為投資風(fēng)險小、開發(fā)周期短,可以在該環(huán)境中逐步學(xué)習(xí)和培訓(xùn)。

其缺點是:(1)存在不能把數(shù)據(jù)集市集成進整個企業(yè)數(shù)據(jù)倉庫的潛在危險;(2)由于各部門可能會“封鎖”數(shù)據(jù),因而會影響到數(shù)據(jù)倉庫的成功實施。

總之,數(shù)據(jù)倉庫的實施是一個不斷循環(huán)、反饋而使系統(tǒng)不斷增長與完善的過程,在整個實施過程中自始至終都要求決策人員與開發(fā)者的共同參與和密切合作,從而保證數(shù)據(jù)倉庫項目的順利進行,進而在日益全球化的市場競爭中獲得更大的利潤。

四、結(jié)束語

目前,幾乎所有行業(yè)都面臨著激烈的競爭,正確及時地決策是企業(yè)生存與發(fā)展的重要環(huán)節(jié),越來越多的企業(yè)認識到,只有充分利用、挖掘其現(xiàn)有數(shù)據(jù),才能實現(xiàn)更大的效益。日常的業(yè)務(wù)應(yīng)用生成了大量的數(shù)據(jù),這些數(shù)據(jù)若用于決策支持則會帶來顯著的附加值,如果再加上行業(yè)報告、獨立的市場調(diào)查、評測結(jié)果和顧問評估等外來數(shù)據(jù),上述處理過程產(chǎn)生的效益可進一步提高。數(shù)據(jù)倉庫正是以匯總這些信息為基礎(chǔ),進而支持數(shù)據(jù)挖掘、多維數(shù)據(jù)分析(MDA)等當今尖端技術(shù)和傳統(tǒng)查詢及報表功能,這些對于企業(yè)在當今日趨激烈的競爭中保持領(lǐng)先是至關(guān)重要的。

由于人們對信息的需求永無止境,特別是INTERNET的迅猛發(fā)展,要求數(shù)據(jù)倉庫不僅僅能處理企業(yè)內(nèi)部結(jié)構(gòu)化的數(shù)據(jù),也應(yīng)能處理大量的外部的非結(jié)構(gòu)數(shù)據(jù)(如文本數(shù)據(jù)、多媒體數(shù)據(jù)等),同時還要能將處理結(jié)果以更直觀的可視化的方法展現(xiàn)給最終用戶,這也給數(shù)據(jù)倉庫的發(fā)展提出了新的挑戰(zhàn)。另外,如何將底層數(shù)據(jù)的變化及時傳播上去、如何加強對數(shù)據(jù)倉庫的管理等問題都是數(shù)據(jù)倉庫在發(fā)展中不可避免要遇到的問題,這將有待于進一步認真研究,加以解決。(萬方數(shù)據(jù))

 

發(fā)布:2007-04-27 15:49    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普泛普博客其他應(yīng)用

泛普OA商務(wù)合同 泛普OA需求調(diào)研 泛普OA實施方案 泛普OA項目啟動 泛普網(wǎng)絡(luò)硬件配置 泛普OA部署安裝 泛普流程模板表單 OA系統(tǒng)二次開發(fā) 泛普常見問題解決 泛普OA操作手冊 泛普軟件項目驗收 泛普培訓(xùn)推廣上線 泛普OA售后服務(wù) 泛普新聞 泛普期刊 泛普博客