監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

對數(shù)據(jù)倉庫探討

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

業(yè)務(wù)知識遠遠重于技術(shù)-當(dāng)今數(shù)據(jù)倉庫真正實施的是一些國家機構(gòu)或些國有企業(yè)。真正估算數(shù)據(jù)倉庫的效益是一件十分困難的事情,因此,對于多數(shù)私有企業(yè)來說, 不明確的軟件投資往往存在很大的風(fēng)險,這就決定了數(shù)據(jù)倉庫的運用對于目前來說它的范圍對于私人企業(yè)這一塊是來是比較狹隘的。

而對于是否該上數(shù)據(jù)倉庫時,按數(shù)據(jù)質(zhì)量這一層面來說,往往是一些銷售系統(tǒng),一些產(chǎn)品軟件的數(shù)據(jù)質(zhì)量比較高,而對于一些大型定制系統(tǒng),系統(tǒng)本身可能就不是一 個完整可靠的系統(tǒng),可能存在著很多潛在的錯誤,因此,在此基礎(chǔ)上要做好數(shù)據(jù)倉庫,是一個十分艱巨的任務(wù),而在現(xiàn)實環(huán)境中,往往上數(shù)據(jù)倉庫的就是建立在此基 礎(chǔ)上的。存在既是道理。那么我們來分析數(shù)據(jù)倉庫中存在的各種困難及如何把不成功因素降為最小。

(本人按自己所在項目及一些心得體會在此進行探討,在此談?wù)摰臄?shù)據(jù)倉庫主要針對本人經(jīng)歷項目-省級集中稅務(wù)數(shù)據(jù)倉庫)

首先:是否該上數(shù)據(jù)倉庫

對于這個問題,作為公司方來說,這個問題幾乎就等于問賣東西的人我該不該買這東西。而對于甲方來說,他們上不上數(shù)據(jù)倉庫無非是想在工作中多得到些有用的信 息(不排除其中有很多是面子工程),多些原系統(tǒng)中無法滿足的查詢、分析及一些能為決策提供的多方面宏觀數(shù)據(jù)。因此,在項目競標(biāo)中,公司必然會說出客戶需求 上數(shù)據(jù)倉庫項目的N個理由及好處。項目競標(biāo)成功,那么售前人員的工作算是取的了成功,而他們所許下的很多承諾也不是他們所要做的,我做為一個項目開發(fā)及實 施人員,關(guān)注的是后者,不管怎樣,項目競標(biāo)的成功才有我們要做的事。所以,上不上數(shù)據(jù)倉庫已不是我們關(guān)注的,我們專注的是,最大努力做好它。

其次:數(shù)據(jù)需求編寫階段

客戶方經(jīng)過前期競標(biāo)時公司方的講解及數(shù)據(jù)倉庫的一些初步了解后,此時可能在客戶方的頭腦中會有一種,數(shù)據(jù)倉庫就是無所不能的東西,只要自己能想到的,那么 就能實現(xiàn)它。這是一個比較危險的暗號,在他們編寫需求的時候,很有可能天馬行空,閉門造車,想出很多不切實際、過細過雜的需求。需求是一項目成敗的關(guān)鍵因 素,主要問題有已下幾點:

(1),需求該由誰來撰寫,現(xiàn)實中多數(shù)情況下是客戶方,

個人認為快速可行的方案是由公司方提出較核心的大部分需求,當(dāng)然提出此需求必須在了解源數(shù)據(jù)的結(jié)構(gòu),確保需求實施中有取數(shù)的來源及取數(shù)的準(zhǔn)確性,因此此步 驟的技術(shù)含量相當(dāng)高,且對于繁雜的業(yè)務(wù)系統(tǒng)的分析也不可能是一時半伙就能解決的。公司方必須經(jīng)過調(diào)查或其它實施中經(jīng)驗的總結(jié),確保此部分需求為相對核心、 有實施意義及可實施的。而且此需求并非一成不變的,隨著對業(yè)務(wù)的發(fā)展及自身認識的加深,以及各個項目中經(jīng)驗及教訓(xùn),必須對其進行部分的取舍,以適應(yīng)市場及 現(xiàn)狀的要求。而為兼顧地方的特有的需求,由業(yè)務(wù)方提出部分需求,然后由公司及業(yè)務(wù)方共同討論對其進行取舍,我們必須認識到,并非所有需求都能在未實施之前 確定它是否可實施,很多需求由于各種原因,只有在實施過程中才發(fā)現(xiàn)是不可行的、有問題的需求。

這種由公司方提出絕大部分客戶方西方結(jié)合自身特點提出小部分需求的方法,可以最大可能地保證需求的快速構(gòu)建及實施過程的相對暢通(公司方提出的需求一般是 以公司實施為前提,一般為可行的方案,當(dāng)然源業(yè)務(wù)系統(tǒng)與數(shù)據(jù)倉庫都為本公司開發(fā)更容易實現(xiàn))。當(dāng)需求編寫完成后,也并不意味著需求的定型,在以后開發(fā)的過 程中,可能是個不斷修改不斷完善的過程。

再次,項目開發(fā)階段

"由客戶方提出源系統(tǒng)數(shù)據(jù)詳細清單,通過與客戶方的溝通定義目標(biāo)區(qū)數(shù)據(jù)模型,定制出源到目標(biāo)的MAPPING清單, 然后ETL人員根據(jù)此清單進行數(shù)據(jù)抽取,報表開發(fā)人員通過數(shù)據(jù)模型進行語義層設(shè)計、報表展現(xiàn)" ,仿佛一個開發(fā)過程十分的清晰簡單,但現(xiàn)在中,困難可謂是無所不在,源系統(tǒng)數(shù)據(jù)理解、模型的定義、ETL的程序設(shè)計等各方面都可能出現(xiàn)潛在的、必然的、意 想不到的困難。

以下簡單列出些常見的問題

1),對源系統(tǒng)的數(shù)據(jù)理解,在項目中,可能存在客戶方很難給出源系統(tǒng)的詳細清單,特別是對于業(yè)務(wù)繁多的大系統(tǒng)而言,可能源系統(tǒng)表有幾百個之多,而且關(guān)系復(fù)雜,這將給mapping制定帶來巨大的困難。

2),數(shù)據(jù)抽取困難

一般情況下,數(shù)據(jù)的抽取都有時間的限制,當(dāng)數(shù)據(jù)量過大且模塊加工繁雜時,必然存在很大的難度。除此之外,以下因素也是經(jīng)常存在。

(1),表記錄變化無相應(yīng)的系統(tǒng)時間戳,此問題在系統(tǒng)中一般都存在。(Oracle解決辦法,物化視圖、CDC等)
(2),數(shù)據(jù)來源復(fù)雜,存在多個業(yè)務(wù)系統(tǒng)及外部數(shù)據(jù)的集中。
(3),抽取工具不成熟及自己使用的不熟練(主觀及客觀因素)。
(4),業(yè)務(wù)系統(tǒng)的不斷變更增大數(shù)據(jù)倉庫抽取的難度,etl抽取程序可能要有N個版本。
3), 怎樣說服客戶數(shù)據(jù)倉庫的正確性--對于一大型數(shù)據(jù)倉庫的實施運行的檢查,如果證明數(shù)據(jù)倉庫的準(zhǔn)確性在某些模塊是個十分困難的事情,主要原因有以下幾點:

(1),在其它業(yè)務(wù)系統(tǒng)中沒有相應(yīng)的指標(biāo)進行對比。
(2),原始數(shù)據(jù)中垃圾數(shù)據(jù)的存在且難于判定。
數(shù)據(jù)倉庫中存在最多的是各維度對比及各方面分析,對于一些數(shù)據(jù)存在維度錯誤及關(guān)系錯誤而難于確定修復(fù)策略,當(dāng)然此時數(shù)據(jù)倉庫的建立也能發(fā)現(xiàn)源業(yè)務(wù)系統(tǒng)的不足及促進源系統(tǒng)的不斷完善。
(3),業(yè)務(wù)規(guī)則與原始數(shù)據(jù)業(yè)務(wù)系統(tǒng)難于對應(yīng)。
例如 A業(yè)務(wù)及B業(yè)務(wù)是有聯(lián)系的,但可能在原業(yè)務(wù)系統(tǒng)中沒有此類需求,因此AB找不到對應(yīng)的關(guān)系,而在數(shù)據(jù)倉庫中AB的聯(lián)系自然就無法體現(xiàn)了。,

特別對于稅務(wù)數(shù)據(jù)倉庫來說,主題多,業(yè)務(wù)廣,涉及面廣,因此對于成千上萬的業(yè)務(wù)關(guān)系中,怎樣抽取有效的、核心的、有決策意義、多數(shù)人所關(guān)心的需求成為一個很大的難點。

對于數(shù)據(jù)抽取,給幾點建議

一,必須先構(gòu)建數(shù)據(jù)平臺,對于一個長期的數(shù)據(jù)倉庫項目,必須構(gòu)建完整的數(shù)據(jù)平臺,這個中轉(zhuǎn)在前期可能要花費些時間,但對于后期是很有必要的,我想以數(shù)據(jù)為驅(qū)動相對業(yè)務(wù)驅(qū)動來說,實踐更容易快捷。

二,在項目未開始階段,公司必須有足夠的技術(shù)積累,最大程度地不讓技術(shù)成為一個開發(fā)及實施的拌腳石,選擇自己熟練的技術(shù)出發(fā),若客戶的硬性規(guī)定,那在開發(fā)的前期盡最大努力掌握它吧。

稅務(wù)數(shù)據(jù)倉庫實施簡易步驟:最后,項目的運行實踐

數(shù)據(jù)倉庫的開發(fā)不同于一般的業(yè)務(wù)系統(tǒng)開發(fā),特別是測試驗收,開發(fā)環(huán)境和生產(chǎn)環(huán)境對于數(shù)據(jù)倉庫項目來說可能存大很大的區(qū)別,數(shù)據(jù)倉庫的運行是一個不斷向前的 過程,數(shù)據(jù)倉庫的初始化及增量是密不可分的,但其中的測試遠比任何業(yè)務(wù)系統(tǒng)難,原因有,抽取時間一般過長、網(wǎng)絡(luò)因素、數(shù)據(jù)抽取失敗的預(yù)防及處理,容錯性等 這些都必須考慮,而且,數(shù)據(jù)倉庫程序的發(fā)布也可能是多方面的,(可能有存儲過程,etl工具mapping程序的遷移),應(yīng)盡可能的把程序發(fā)布作為一統(tǒng)一 過程(過多的步驟出差的概率自然會高),程序版本的控制等。

看到這里,我在此十分感謝,浪費了您很多寶貴時間,上面我可能提出了很多數(shù)據(jù)倉庫中出現(xiàn)的問題,而沒有討論它的解決之道,我想,任何問題解決方法不可能是 絕對的,在此也希望大家共同探討,數(shù)據(jù)倉庫難在哪里,主要是數(shù)據(jù)倉庫是要收拾別人的攤子。攤子實在是太爛的話,我想,再牛的人也不可能上出好的數(shù)據(jù)倉庫項 目。

BTW:數(shù)據(jù)倉庫之路多的是教訓(xùn),吾將上下而求索…(techtarget)

發(fā)布:2007-04-22 09:58    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普南昌OA信息化其他應(yīng)用

南昌OA軟件 南昌OA新聞動態(tài) 南昌OA信息化 南昌OA快博 南昌OA行業(yè)資訊 南昌軟件開發(fā)公司 南昌門禁系統(tǒng) 南昌物業(yè)管理軟件 南昌倉庫管理軟件 南昌餐飲管理軟件 南昌網(wǎng)站建設(shè)公司