當(dāng)前位置:工程項目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA信息化
對數(shù)據(jù)倉庫探討
業(yè)務(wù)知識遠遠重于技術(shù)-當(dāng)今數(shù)據(jù)倉庫真正實施的是一些國家機構(gòu)或些國有企業(yè)。真正估算數(shù)據(jù)倉庫的效益是一件十分困難的事情,因此,對于多數(shù)私有企業(yè)來說, 不明確的軟件投資往往存在很大的風(fēng)險,這就決定了數(shù)據(jù)倉庫的運用對于目前來說它的范圍對于私人企業(yè)這一塊是來是比較狹隘的。
而對于是否該上數(shù)據(jù)倉庫時,按數(shù)據(jù)質(zhì)量這一層面來說,往往是一些銷售系統(tǒng),一些產(chǎn)品軟件的數(shù)據(jù)質(zhì)量比較高,而對于一些大型定制系統(tǒng),系統(tǒng)本身可能就不是一 個完整可靠的系統(tǒng),可能存在著很多潛在的錯誤,因此,在此基礎(chǔ)上要做好數(shù)據(jù)倉庫,是一個十分艱巨的任務(wù),而在現(xiàn)實環(huán)境中,往往上數(shù)據(jù)倉庫的就是建立在此基 礎(chǔ)上的。存在既是道理。那么我們來分析數(shù)據(jù)倉庫中存在的各種困難及如何把不成功因素降為最小。
(本人按自己所在項目及一些心得體會在此進行探討,在此談?wù)摰臄?shù)據(jù)倉庫主要針對本人經(jīng)歷項目-省級集中稅務(wù)數(shù)據(jù)倉庫)
首先:是否該上數(shù)據(jù)倉庫
對于這個問題,作為公司方來說,這個問題幾乎就等于問賣東西的人我該不該買這東西。而對于甲方來說,他們上不上數(shù)據(jù)倉庫無非是想在工作中多得到些有用的信 息(不排除其中有很多是面子工程),多些原系統(tǒng)中無法滿足的查詢、分析及一些能為決策提供的多方面宏觀數(shù)據(jù)。因此,在項目競標(biāo)中,公司必然會說出客戶需求 上數(shù)據(jù)倉庫項目的N個理由及好處。項目競標(biāo)成功,那么售前人員的工作算是取的了成功,而他們所許下的很多承諾也不是他們所要做的,我做為一個項目開發(fā)及實 施人員,關(guān)注的是后者,不管怎樣,項目競標(biāo)的成功才有我們要做的事。所以,上不上數(shù)據(jù)倉庫已不是我們關(guān)注的,我們專注的是,最大努力做好它。
其次:數(shù)據(jù)需求編寫階段
客戶方經(jīng)過前期競標(biāo)時公司方的講解及數(shù)據(jù)倉庫的一些初步了解后,此時可能在客戶方的頭腦中會有一種,數(shù)據(jù)倉庫就是無所不能的東西,只要自己能想到的,那么 就能實現(xiàn)它。這是一個比較危險的暗號,在他們編寫需求的時候,很有可能天馬行空,閉門造車,想出很多不切實際、過細過雜的需求。需求是一項目成敗的關(guān)鍵因 素,主要問題有已下幾點:
(1),需求該由誰來撰寫,現(xiàn)實中多數(shù)情況下是客戶方,
個人認為快速可行的方案是由公司方提出較核心的大部分需求,當(dāng)然提出此需求必須在了解源數(shù)據(jù)的結(jié)構(gòu),確保需求實施中有取數(shù)的來源及取數(shù)的準(zhǔn)確性,因此此步 驟的技術(shù)含量相當(dāng)高,且對于繁雜的業(yè)務(wù)系統(tǒng)的分析也不可能是一時半伙就能解決的。公司方必須經(jīng)過調(diào)查或其它實施中經(jīng)驗的總結(jié),確保此部分需求為相對核心、 有實施意義及可實施的。而且此需求并非一成不變的,隨著對業(yè)務(wù)的發(fā)展及自身認識的加深,以及各個項目中經(jīng)驗及教訓(xùn),必須對其進行部分的取舍,以適應(yīng)市場及 現(xiàn)狀的要求。而為兼顧地方的特有的需求,由業(yè)務(wù)方提出部分需求,然后由公司及業(yè)務(wù)方共同討論對其進行取舍,我們必須認識到,并非所有需求都能在未實施之前 確定它是否可實施,很多需求由于各種原因,只有在實施過程中才發(fā)現(xiàn)是不可行的、有問題的需求。
這種由公司方提出絕大部分客戶方西方結(jié)合自身特點提出小部分需求的方法,可以最大可能地保證需求的快速構(gòu)建及實施過程的相對暢通(公司方提出的需求一般是 以公司實施為前提,一般為可行的方案,當(dāng)然源業(yè)務(wù)系統(tǒng)與數(shù)據(jù)倉庫都為本公司開發(fā)更容易實現(xiàn))。當(dāng)需求編寫完成后,也并不意味著需求的定型,在以后開發(fā)的過 程中,可能是個不斷修改不斷完善的過程。
再次,項目開發(fā)階段
"由客戶方提出源系統(tǒng)數(shù)據(jù)詳細清單,通過與客戶方的溝通定義目標(biāo)區(qū)數(shù)據(jù)模型,定制出源到目標(biāo)的MAPPING清單, 然后ETL人員根據(jù)此清單進行數(shù)據(jù)抽取,報表開發(fā)人員通過數(shù)據(jù)模型進行語義層設(shè)計、報表展現(xiàn)" ,仿佛一個開發(fā)過程十分的清晰簡單,但現(xiàn)在中,困難可謂是無所不在,源系統(tǒng)數(shù)據(jù)理解、模型的定義、ETL的程序設(shè)計等各方面都可能出現(xiàn)潛在的、必然的、意 想不到的困難。
以下簡單列出些常見的問題
1),對源系統(tǒng)的數(shù)據(jù)理解,在項目中,可能存在客戶方很難給出源系統(tǒng)的詳細清單,特別是對于業(yè)務(wù)繁多的大系統(tǒng)而言,可能源系統(tǒng)表有幾百個之多,而且關(guān)系復(fù)雜,這將給mapping制定帶來巨大的困難。
2),數(shù)據(jù)抽取困難
一般情況下,數(shù)據(jù)的抽取都有時間的限制,當(dāng)數(shù)據(jù)量過大且模塊加工繁雜時,必然存在很大的難度。除此之外,以下因素也是經(jīng)常存在。
(1),表記錄變化無相應(yīng)的系統(tǒng)時間戳,此問題在系統(tǒng)中一般都存在。(Oracle解決辦法,物化視圖、CDC等)
(2),數(shù)據(jù)來源復(fù)雜,存在多個業(yè)務(wù)系統(tǒng)及外部數(shù)據(jù)的集中。
(3),抽取工具不成熟及自己使用的不熟練(主觀及客觀因素)。
(4),業(yè)務(wù)系統(tǒng)的不斷變更增大數(shù)據(jù)倉庫抽取的難度,etl抽取程序可能要有N個版本。
3), 怎樣說服客戶數(shù)據(jù)倉庫的正確性--對于一大型數(shù)據(jù)倉庫的實施運行的檢查,如果證明數(shù)據(jù)倉庫的準(zhǔn)確性在某些模塊是個十分困難的事情,主要原因有以下幾點:
(1),在其它業(yè)務(wù)系統(tǒng)中沒有相應(yīng)的指標(biāo)進行對比。
(2),原始數(shù)據(jù)中垃圾數(shù)據(jù)的存在且難于判定。
數(shù)據(jù)倉庫中存在最多的是各維度對比及各方面分析,對于一些數(shù)據(jù)存在維度錯誤及關(guān)系錯誤而難于確定修復(fù)策略,當(dāng)然此時數(shù)據(jù)倉庫的建立也能發(fā)現(xiàn)源業(yè)務(wù)系統(tǒng)的不足及促進源系統(tǒng)的不斷完善。
(3),業(yè)務(wù)規(guī)則與原始數(shù)據(jù)業(yè)務(wù)系統(tǒng)難于對應(yīng)。
例如 A業(yè)務(wù)及B業(yè)務(wù)是有聯(lián)系的,但可能在原業(yè)務(wù)系統(tǒng)中沒有此類需求,因此AB找不到對應(yīng)的關(guān)系,而在數(shù)據(jù)倉庫中AB的聯(lián)系自然就無法體現(xiàn)了。,
特別對于稅務(wù)數(shù)據(jù)倉庫來說,主題多,業(yè)務(wù)廣,涉及面廣,因此對于成千上萬的業(yè)務(wù)關(guān)系中,怎樣抽取有效的、核心的、有決策意義、多數(shù)人所關(guān)心的需求成為一個很大的難點。
對于數(shù)據(jù)抽取,給幾點建議
一,必須先構(gòu)建數(shù)據(jù)平臺,對于一個長期的數(shù)據(jù)倉庫項目,必須構(gòu)建完整的數(shù)據(jù)平臺,這個中轉(zhuǎn)在前期可能要花費些時間,但對于后期是很有必要的,我想以數(shù)據(jù)為驅(qū)動相對業(yè)務(wù)驅(qū)動來說,實踐更容易快捷。
二,在項目未開始階段,公司必須有足夠的技術(shù)積累,最大程度地不讓技術(shù)成為一個開發(fā)及實施的拌腳石,選擇自己熟練的技術(shù)出發(fā),若客戶的硬性規(guī)定,那在開發(fā)的前期盡最大努力掌握它吧。
稅務(wù)數(shù)據(jù)倉庫實施簡易步驟:最后,項目的運行實踐
數(shù)據(jù)倉庫的開發(fā)不同于一般的業(yè)務(wù)系統(tǒng)開發(fā),特別是測試驗收,開發(fā)環(huán)境和生產(chǎn)環(huán)境對于數(shù)據(jù)倉庫項目來說可能存大很大的區(qū)別,數(shù)據(jù)倉庫的運行是一個不斷向前的 過程,數(shù)據(jù)倉庫的初始化及增量是密不可分的,但其中的測試遠比任何業(yè)務(wù)系統(tǒng)難,原因有,抽取時間一般過長、網(wǎng)絡(luò)因素、數(shù)據(jù)抽取失敗的預(yù)防及處理,容錯性等 這些都必須考慮,而且,數(shù)據(jù)倉庫程序的發(fā)布也可能是多方面的,(可能有存儲過程,etl工具mapping程序的遷移),應(yīng)盡可能的把程序發(fā)布作為一統(tǒng)一 過程(過多的步驟出差的概率自然會高),程序版本的控制等。
看到這里,我在此十分感謝,浪費了您很多寶貴時間,上面我可能提出了很多數(shù)據(jù)倉庫中出現(xiàn)的問題,而沒有討論它的解決之道,我想,任何問題解決方法不可能是 絕對的,在此也希望大家共同探討,數(shù)據(jù)倉庫難在哪里,主要是數(shù)據(jù)倉庫是要收拾別人的攤子。攤子實在是太爛的話,我想,再牛的人也不可能上出好的數(shù)據(jù)倉庫項 目。
BTW:數(shù)據(jù)倉庫之路多的是教訓(xùn),吾將上下而求索…(techtarget)
- 1不同的人對OA的認識是不同的
- 2為什么網(wǎng)絡(luò)只發(fā)不收?
- 3信息安全省錢之道
- 4未來數(shù)年內(nèi)就會實現(xiàn)應(yīng)用的十大新穎技術(shù)
- 5四招保障企業(yè)數(shù)據(jù)安全
- 6間諜軟件的攻擊手段
- 7OA系統(tǒng)常見問題不行別珍惜
- 8下一代安全設(shè)備硬件平臺
- 9Java中如何正確使用字體編碼
- 10整合也可是IT簡單任務(wù)
- 11OA系統(tǒng)如何塑造差異化品牌?
- 12網(wǎng)絡(luò)技術(shù)8大趨勢
- 13在線考試OA軟件——考試軟件主要賣點:
- 1430秒清除Windows系統(tǒng)所有垃圾
- 15打造知識創(chuàng)新型組織
- 16手機智能化有所為 OA辦公系統(tǒng)價值延伸
- 17協(xié)同OA2014的狂奔與駐守
- 18什么是高效安全遠程連接
- 19Windows偽優(yōu)化技巧
- 20OA選型幾點建議
- 21小專題:7場技術(shù)對決
- 22路由器的五代家譜
- 236款千兆防火墻產(chǎn)品橫向比較評測
- 24OA軟件怎樣才好用
- 25哪一種加密方式會更好呢?
- 26OA信息化必須是“一把手工程”
- 27OA辦公系統(tǒng)選型哪個更能打動CIO
- 28在安全領(lǐng)域發(fā)展的最佳路線是什么?
- 29移動OA助推企業(yè)進入發(fā)展“快車道”
- 30什么驅(qū)動信息系統(tǒng)
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓