當前位置:工程項目OA系統(tǒng) > 泛普各地 > 遼寧OA系統(tǒng) > 沈陽OA系統(tǒng) > 沈陽OA快博
如何建立和評估數(shù)據(jù)倉庫邏輯模型
介紹
邏輯模型指數(shù)據(jù)倉庫數(shù)據(jù)的邏輯表現(xiàn)形式。從最終應用的功能和性能的角度來看,數(shù)據(jù)倉庫的數(shù)據(jù)邏輯模型也許是整個項目最重要的方面,需要領(lǐng)域?qū)<业膮⑴c。從內(nèi)容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的確定。
邏輯模型建設(shè)方法
邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán),因為它能直接反映出業(yè)務部門的需求,同時對系統(tǒng)的物理實施有著重要的指導作用。目前較常用的兩種建模方法是所謂的第三范式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema)
第三范式
關(guān)系模式滿足以下特征:
1 每個屬性的值唯一,不具有多義性;
2. 每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分;
3. 每個非主屬性不能依賴于其他關(guān)系中的屬性,因為這樣的話,這種屬性應該歸到其他關(guān)系中去
星型模型
星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimens ion Table)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實 (Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù)。
第三范式和星型模式在數(shù)據(jù)倉庫中的應用
大多數(shù)人在設(shè)計中央數(shù)據(jù)倉庫的邏輯模型時,都按照第三范式來設(shè)計;而在進行物理實施時,則由于數(shù)據(jù)庫引擎的限制,不得不對邏輯模型進行不規(guī)范處理 (De-Normalize), 以提高系統(tǒng)的響應速度,這當然是以增加系統(tǒng)的復雜度、維護工作量、磁盤使用比率 (指原始數(shù)據(jù)與磁盤大小的比率)并降低系統(tǒng)執(zhí)行動態(tài)查詢能力為代價的。
那么,在中央數(shù)據(jù)倉庫中是否可以采用星型模式來進行模型設(shè)計呢?我們知道,星型模式中有一個事實表和一組維表,我們可以把事實看成是各個維交叉點上的值。
星型模式之所以速度快,在于針對各個維作了大量的預處理,如按照維進行預先的統(tǒng)計、分類、排序等。因此,在星型模式設(shè)計的數(shù)據(jù)倉庫中,作報表的速度雖然很快,但由于存在大量的預處理,其建模過程相對來說就比較慢。當業(yè)務問題發(fā)生變化,原來的維不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有維表的主鍵組成,這種維的變動將是非常復雜、非常耗時的。星型模式另一個顯著的缺點是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預先定義好的問題,如需要產(chǎn)生大量報表的場合;而不適合于動態(tài)查詢多、系統(tǒng)可擴展能力要求高或者數(shù)據(jù)量很大的場合。因此,星型模式在一些要求大量報表的部門數(shù)據(jù)集市中有較多的應用。
總之,上面討論了數(shù)據(jù)倉庫模型設(shè)計中常用的兩種方法。對于部門數(shù)據(jù)集市,當數(shù)據(jù)量不大、報表較固定時可以采用星型模式;對于企業(yè)級數(shù)據(jù)倉庫,考慮到系統(tǒng)的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。
邏輯模型的質(zhì)量標準
對邏輯模型的評估,就是對邏輯模型質(zhì)量的考察,什么是邏輯模型的質(zhì)量呢?從狹義的概念說,邏輯模型是否正確表達了業(yè)務規(guī)則,也就是準確,但是隨著人們對數(shù)據(jù)倉庫認識的加深,質(zhì)量的含義不斷延伸,現(xiàn)在對模型質(zhì)量要求不僅僅單純指單純的業(yè)務規(guī)則,還包括模型滿足用戶分析需求的程度,它是一個包含豐富內(nèi)涵、具有多維因素的綜合性概念。相應地邏輯模型質(zhì)量概念的認識也從狹義向廣義轉(zhuǎn)變,準確性已不再是衡量唯一標準。評估邏輯模型一般包括如下方面的標準
正確性
邏輯模型的建設(shè)方法是正確的,遵循了從上到下和從下到上相結(jié)合的方法,選擇了正確的模型表示方式,對實際業(yè)務采用正確的概化抽象。
準確性(精度)
指邏輯模型和實際業(yè)務即“真值”之間的差異程度。誤差越小,準確性就越高。這里,所謂的“真值”是可知的,盡管邏輯模型經(jīng)過了抽象,概化等方法總結(jié)共性,但是模型的具體化后,與“真值”是應當符合的??梢酝ㄟ^范圍誤差、計數(shù)誤差、不回答率、加工整理差錯、模型假設(shè)誤差等影響準確性的各個因素,測算統(tǒng)計估算值的變動系數(shù)、標準差、均方差、曲線配合吻合度、假設(shè)檢驗、偏差等,修正邏輯模型將其的誤差控制在一個可接受的置信區(qū)間內(nèi)。
適用性
指收集的信息是否有用,是否符合用戶的需求。它要求邏輯模型的粒度,分割方式符合用戶的分析需求。
可解釋性
是指在公布邏輯模型時,應同時公開邏輯模型的的補充解釋信息或稱為“元數(shù)據(jù)”,即關(guān)于模型數(shù)據(jù)的解釋說明。內(nèi)容包括所使用的建設(shè)方法,建設(shè)目標,以防止模型數(shù)據(jù)二義性導致錯誤解釋和使用。
完備性
目前的業(yè)務需求和所用的業(yè)務規(guī)則完全包含在邏輯模型中。模型中不存在沒有包含的需求業(yè)務對象(如實體,屬性,以及之間的關(guān)系)
一致性
模型中的各個對象命名方式統(tǒng)一,有明確的命名規(guī)范。而且模型中各個相關(guān)對象的粒度一致,業(yè)務邏輯模型對象的劃分標準應當統(tǒng)一。
擴展性
當新的業(yè)務產(chǎn)生時,僅僅是增加了相關(guān)邏輯模型對象的實例內(nèi)容,不影響目前的邏輯模型,模型這些分類能夠隨統(tǒng)計分析需求的不同進行相應的調(diào)整,無需改變數(shù)據(jù)庫結(jié)構(gòu),具有靈活的擴展性。僅在個別情況下,需要對邏輯模型的屬性或者實體本身增加,支持分步驟的實施。
可銜接性
邏輯模型來自擁有行業(yè)經(jīng)驗的概念模型,里面凝聚了許多成功的經(jīng)驗,而且從規(guī)劃上符合行業(yè)系統(tǒng)的長遠發(fā)展,因此邏輯模型應當從概念模型上相對平滑的過度過來。此外,物理模型應當來自與邏輯模型,邏輯模型的建設(shè)應當具有一定的可操作性,便于向物理模型的轉(zhuǎn)化。
邏輯模型中常犯的錯誤:
命名規(guī)范不統(tǒng)一
對于匯總數(shù)據(jù),低粒度數(shù)據(jù)或歷史數(shù)據(jù)采用已定義的命名規(guī)范。
粒度層次不統(tǒng)一
有的具體,有的過于抽象
不準確
業(yè)務關(guān)系表示錯
不全面:
一些屬性外鍵標識沒有主表
無用關(guān)聯(lián)關(guān)系多:
模型中各種對象所表示的內(nèi)容,應當與用戶的業(yè)務分析需求密切相關(guān)。
與行業(yè)通用模型移動的兼容性差:
與行業(yè)通用模型存在較大的差異,不利于系統(tǒng)的將來發(fā)展符合信息發(fā)展的趨勢。
總結(jié)
商業(yè)智能和數(shù)據(jù)倉庫系統(tǒng)的建設(shè)作為一個漸進、迭代的過程,其發(fā)展趨勢是從現(xiàn)有的初步應用如報表分析、數(shù)據(jù)集市,向深度和廣度復雜分析和數(shù)據(jù)挖掘技術(shù)應用發(fā)展,其依賴的數(shù)據(jù)存儲模型,包括邏輯模型和物理模型,也是一個不斷發(fā)展,不斷豐富完善的過程。
來源:CCW
- 1在線支付遇安全殺手 最終用戶成攻擊薄弱點
- 2四項下一代入侵檢測關(guān)鍵技術(shù)分析
- 3為什么要擔心無線安全性
- 4沈陽辦公自動化系統(tǒng)OA哪家公司的比較不錯?
- 5安全是VoIP部署的先決條件
- 6實施軟件能力成熟度CMM的新思路
- 7微軟新開發(fā)技術(shù)一瞥
- 8項目管理工具的特性
- 9IT項目經(jīng)理怎么樣進行項目跟蹤
- 10災難恢復的關(guān)鍵步驟
- 11網(wǎng)管系統(tǒng)對中間件的監(jiān)測和管理
- 12第四代分布式控制系統(tǒng)(DCS)
- 13中小連鎖零售企業(yè)信息化優(yōu)勢一念之間
- 14千兆防火墻技術(shù)名詞陷阱
- 15虛擬化簡化管理
- 162005年存儲領(lǐng)域暴雨來臨前片刻的寧靜
- 17用ASP和IIS設(shè)置目錄安全
- 18百兆無線三分趨一統(tǒng)
- 19虛擬存儲 實在收益
- 20RFID技術(shù)的發(fā)展歷史和標準現(xiàn)狀
- 21無線網(wǎng)狀網(wǎng)滲透至行業(yè)企業(yè)
- 22搞不清防線被突破的原因
- 23時段分析模塊的設(shè)計
- 24三類數(shù)據(jù)恢復方法:災難恢復、高可用性以及遠程存儲
- 25流媒體服務器架設(shè)簡明攻略
- 26如何用.NET簡化創(chuàng)建報表
- 27協(xié)作區(qū)在泛普OA軟件的應用
- 28一種實現(xiàn)無線網(wǎng)絡安全的混合方式
- 29VPLS技術(shù)及應用綜述
- 30無線技術(shù)又出新花樣
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓