當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 江西OA系統(tǒng) > 南昌OA系統(tǒng) > 南昌OA信息化
“臟數(shù)據(jù)”的轉(zhuǎn)換與清洗
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
文章來(lái)源:泛普軟件 目前,基于數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能應(yīng)用已經(jīng)成為國(guó)內(nèi)許多企業(yè)的IT規(guī)劃項(xiàng)目,并受到企業(yè)管理層的關(guān)注。作為商業(yè)智能的基礎(chǔ),數(shù)據(jù)質(zhì)量的好壞是影響商業(yè)智能應(yīng)用效果的關(guān)鍵,但由于企業(yè)的信息化經(jīng)過(guò)長(zhǎng)期的積累和發(fā)展,數(shù)據(jù)質(zhì)量參差不齊,臟數(shù)據(jù)的存在阻礙了商業(yè)智能應(yīng)用的進(jìn)程,下面將重點(diǎn)談?wù)勅绾巫屌K數(shù)據(jù)改頭換面。 數(shù)據(jù)的“往事” 臟數(shù)據(jù)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。 臟數(shù)據(jù)的存在主要是由于源系統(tǒng)的設(shè)計(jì)不夠嚴(yán)密造成的。主要表現(xiàn)為:數(shù)據(jù)格式錯(cuò)誤,數(shù)據(jù)不一致,數(shù)據(jù)重復(fù)、錯(cuò)誤,業(yè)務(wù)邏輯的不合理,違反業(yè)務(wù)規(guī)則等。例如,未經(jīng)驗(yàn)證的身份證號(hào)碼、未經(jīng)驗(yàn)證的日期字段等,還有賬戶開(kāi)戶日期晚于用戶銷戶日期、交易處理的操作員號(hào)不存在、性別超過(guò)取值范圍等。此外,也有因?yàn)樵聪到y(tǒng)基于性能的考慮,放棄了外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。 目前,大多數(shù)的銀行業(yè)務(wù)系統(tǒng)的輸入界面是采用COBOL語(yǔ)言或C語(yǔ)言開(kāi)發(fā)的,界面處理功能不是很強(qiáng),一些要素被設(shè)計(jì)成“輸入”而不是“選擇”,如企業(yè)客戶的信用等級(jí)被設(shè)計(jì)成輸入,輸入的正確與否完全由操作員的理解決定,這也是臟數(shù)據(jù)產(chǎn)生的原因之一。例如,如果被設(shè)計(jì)成“選擇”就不會(huì)出現(xiàn)把AAA輸成“1”或其他了?! ? 轉(zhuǎn)換與清洗的實(shí)例 下面以銀行業(yè)務(wù)系統(tǒng)的客戶的惟一標(biāo)識(shí)—客戶號(hào)為例來(lái)講解如何轉(zhuǎn)換與清洗數(shù)據(jù)。 客戶信息的處理是整個(gè)數(shù)據(jù)抽取、轉(zhuǎn)換、清洗和裝載(ETL)工作中最復(fù)雜的部分。目前業(yè)務(wù)系統(tǒng)中常見(jiàn)的客戶信息處理的難點(diǎn)主要有以下兩個(gè)方面。 客戶的惟一標(biāo)識(shí)混亂 銀行的客戶號(hào)一般由證件類型與證件號(hào)組成,這里就有一個(gè)問(wèn)題,如果客戶有多種證件怎么辦?或者說(shuō)某個(gè)客戶辦了移民,有了新的身份,系統(tǒng)中怎樣體現(xiàn)出他是同一個(gè)客戶?這些問(wèn)題,除了少部分是由于發(fā)證機(jī)關(guān)造成的(如身份證重號(hào)),大部分是由于操作人員的操作不規(guī)范造成的。主要表現(xiàn)在以下三個(gè)方面。 A、客戶身份證號(hào)問(wèn)題 最常見(jiàn)的問(wèn)題是客戶的身份證從15位更換為18位。首先操作人員只要能輸入新的客戶號(hào),就認(rèn)為是一個(gè)新的客戶;其次,即使操作員知道客戶的身份證升位了,但在銀行的客戶信息中,客戶號(hào)是惟一標(biāo)識(shí),如果對(duì)惟一標(biāo)識(shí)進(jìn)行更新,作為增量反映到目標(biāo)系統(tǒng)中,但沒(méi)有記錄原客戶號(hào),對(duì)于目標(biāo)系統(tǒng)來(lái)說(shuō)就是一條新記錄,而刪除原有的客戶信息在實(shí)際操作中可能是不允許或做不到的,因?yàn)樵谶@個(gè)客戶號(hào)上可能還掛了許多賬戶,即便物理刪除了這條客戶記錄,也不可能作為增量數(shù)據(jù)傳輸?shù)椒治鱿到y(tǒng),因?yàn)檫@條數(shù)據(jù)確實(shí)已經(jīng)不存在了。 所以在實(shí)際的業(yè)務(wù)操作中只是簡(jiǎn)單地增加一條客戶信息,新開(kāi)的賬戶就掛在新的客戶信息上,這樣業(yè)務(wù)系統(tǒng)中就登記了兩條客戶信息。 在ETL處理時(shí),對(duì)上面這種情況一般都直接轉(zhuǎn)換為18位,但在首次全量處理時(shí),必須通過(guò)比較姓名來(lái)真實(shí)證明兩條記錄是同一個(gè)客戶。增量處理時(shí)需要同樣的處理。這樣做需要更多的系統(tǒng)時(shí)間。 第二個(gè)客戶身份證號(hào)問(wèn)題是15位身份證號(hào)中有字母。如數(shù)字“0”被誤寫為字母“O”。 第三個(gè)客戶身份證號(hào)問(wèn)題是長(zhǎng)度不為15位與18位。 第四個(gè)客戶身份證號(hào)問(wèn)題是同一身份證多個(gè)客戶號(hào)。 身份證號(hào)問(wèn)題在ETL時(shí)要生成異常客戶信息記錄文件,再交由業(yè)務(wù)部門處理,如把原15位身份證上掛接的賬戶重新掛接到18位上,刪除15位的客戶信息,刪除錯(cuò)誤的客戶信息,重新錄入正確的客戶信息,并進(jìn)行賬戶掛接。 B、多種證件問(wèn)題 多種證件也會(huì)導(dǎo)致一名客戶有多個(gè)客戶號(hào),技術(shù)上沒(méi)有能力來(lái)發(fā)現(xiàn),只有依靠業(yè)務(wù)人員來(lái)收集、更新維護(hù)信息。如果通過(guò)建新表來(lái)保存這種關(guān)系,將增加數(shù)據(jù)處理、查詢的難度。 C、其他問(wèn)題。有些賬戶上沒(méi)有客戶信息或虛編了客戶號(hào),比如1999年11月以前開(kāi)設(shè)的賬戶,沒(méi)有客戶可以掛接,于是隨意設(shè)了客戶號(hào),在匯總統(tǒng)計(jì)時(shí)要注意區(qū)分這種情況。 多數(shù)據(jù)源導(dǎo)致多客戶信息 由于客觀原因,銀行可能有許多分散獨(dú)立的業(yè)務(wù)系統(tǒng),沒(méi)有做到完全的集中,這些系統(tǒng)中都有客戶信息。 多數(shù)據(jù)源導(dǎo)致多客戶信息,同一客戶在不同系統(tǒng)中有不同的數(shù)據(jù)描述,或者詳細(xì)程度不同,在一些系統(tǒng)中甚至可能沒(méi)有明確的客戶代碼與客戶信息。在處理時(shí),主要根據(jù)客戶信息的詳細(xì)程度與更新時(shí)間來(lái)考慮,并確定一個(gè)信息修改的原則。 首先我們把來(lái)自最大的數(shù)據(jù)源——核心業(yè)務(wù)系統(tǒng)的客戶信息作為基礎(chǔ),這些信息數(shù)據(jù)量大,雖然有很全面的數(shù)據(jù)結(jié)構(gòu),但大部分的字段內(nèi)容為空,而來(lái)自個(gè)人信貸系統(tǒng)、銀行卡系統(tǒng)等的客戶信息數(shù)據(jù)量相對(duì)較少,有詳細(xì)的內(nèi)容,正常情況下客戶記錄應(yīng)該是核心業(yè)務(wù)系統(tǒng)的一個(gè)子集。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)應(yīng)該綜合所有系統(tǒng)的客戶信息,客戶記錄數(shù)應(yīng)該是并集,客戶記錄字段應(yīng)該是一些重要字段的并集。 然后確定不同數(shù)據(jù)源有公共字段的修改順序。首先按信息的修改時(shí)間來(lái)判斷,但最新的信息修改不一定有最全面的信息,如在柜面開(kāi)戶,核心系統(tǒng)僅錄入了身份證與姓名,沒(méi)有錄入地址等其他公共字段信息,而個(gè)人信貸系統(tǒng)或卡系統(tǒng)雖然建立的時(shí)間比較早,但有較全面的信息,不能用核心系統(tǒng)信息直接更新。所以公共字段的修改原則是在源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的字段不為空的情況下,以最新的信息為準(zhǔn)。但這樣做要耗費(fèi)大量的系統(tǒng)資源,特別是在做全量數(shù)據(jù)初始化時(shí),好在客戶信息變化的頻率不是很高,在實(shí)際全量數(shù)據(jù)初始化時(shí)往往是確定一個(gè)順序,例如,以核心業(yè)務(wù)系統(tǒng)信息為基礎(chǔ),銀行卡信息覆蓋核心業(yè)務(wù)系統(tǒng)信息,然后再用貸款信息覆蓋。 增量處理時(shí)一種折衷的方法是,在目標(biāo)系統(tǒng)中記錄客戶信息的來(lái)源系統(tǒng),如果來(lái)自貸款系統(tǒng),則不能用其他系統(tǒng)的增量信息更新,只能用貸款系統(tǒng)的增量信息更新,而貸款系統(tǒng)的信息可以修改來(lái)自其他系統(tǒng)的信息。 實(shí)施經(jīng)驗(yàn):轉(zhuǎn)換與清洗的時(shí)機(jī) 一般來(lái)說(shuō),轉(zhuǎn)換與清洗發(fā)生在數(shù)據(jù)抽取之后,一些轉(zhuǎn)換與清洗可以在抽取的同時(shí)去做。對(duì)于一些相對(duì)不繁忙的業(yè)務(wù)系統(tǒng),如個(gè)人信貸系統(tǒng),由于不是24小時(shí)運(yùn)行,在每天完成正常的數(shù)據(jù)處理后,仍有很多時(shí)間空閑,在數(shù)據(jù)卸載時(shí)可以進(jìn)行轉(zhuǎn)換與清洗,這樣做能夠減少數(shù)據(jù)倉(cāng)庫(kù)的負(fù)載量。需要注意的是,不能對(duì)源系統(tǒng)進(jìn)行清洗,因?yàn)樵聪到y(tǒng)數(shù)據(jù)正確性的標(biāo)準(zhǔn)可能與目標(biāo)系統(tǒng)不一樣,對(duì)源系統(tǒng)的數(shù)據(jù)進(jìn)行任何的修改與刪除都是不允許的。當(dāng)然源系統(tǒng)清理自身錯(cuò)誤的數(shù)據(jù)對(duì)加快數(shù)據(jù)抽取會(huì)有好處。 數(shù)據(jù)清洗的六個(gè)步驟 數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的權(quán)威W.H.Inmon博士把數(shù)據(jù)清洗的過(guò)程分為六個(gè)步驟: 步驟一:元素化(將非標(biāo)準(zhǔn)的數(shù)據(jù)統(tǒng)一格式化成數(shù)據(jù)元素)。 步驟二:標(biāo)準(zhǔn)化(將元素標(biāo)準(zhǔn)化,根據(jù)數(shù)據(jù)字典消除不一致的縮寫等)。 步驟三:校驗(yàn)(對(duì)標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),即在內(nèi)容上修改錯(cuò)誤)。 步驟四:匹配(在其他記錄中尋找相似的記錄,發(fā)現(xiàn)重復(fù)異常)。 步驟五:消除重復(fù)記錄(根據(jù)匹配結(jié)果進(jìn)行處理,可以刪除部分記錄或者把多個(gè)記錄合并為一個(gè)更完整信息的記錄)。 步驟六:檔案化(將結(jié)果寫入元數(shù)據(jù)存儲(chǔ)中心。這樣可以更好地進(jìn)行后續(xù)的清理過(guò)程,使得用戶容易理解數(shù)據(jù)庫(kù)以及更好地進(jìn)行切片、切塊等操作)。(ccw)- 1EJB 3.0的三大類型
- 2分布式SOA取代EAI
- 3OA系統(tǒng)軟件四大生態(tài)陣營(yíng)透視
- 4市政府協(xié)同辦公系統(tǒng)原則上不再發(fā)紙質(zhì)公文
- 5郵件系統(tǒng)改進(jìn)方法淺談
- 6網(wǎng)絡(luò)改造重視什么
- 7中小企業(yè)常用的無(wú)線路由器設(shè)置名詞
- 8泛普軟件:云計(jì)算是如何幫助大數(shù)據(jù)實(shí)現(xiàn)經(jīng)濟(jì)效益
- 9OA辦公系統(tǒng)選型:易用、實(shí)用方好實(shí)施
- 10怎樣為WLAN選擇最佳EAP
- 11企業(yè)CIO進(jìn)行OA選型的注意事項(xiàng)
- 12如何改善無(wú)線連接質(zhì)量
- 13移動(dòng)OA助企業(yè)加速布局市場(chǎng)
- 14小專題:7場(chǎng)技術(shù)對(duì)決
- 15遠(yuǎn)離間諜軟件
- 16OA權(quán)限管控 張弛有度
- 17信息安全重兵守城卻無(wú)人看庫(kù)
- 18安全的數(shù)據(jù)隔離與交換系統(tǒng)
- 19幾種流行的數(shù)據(jù)庫(kù)系統(tǒng)
- 20解讀寬帶路由器的兩個(gè)煩惱
- 21挖出存儲(chǔ)網(wǎng)絡(luò)的瓶頸
- 22最好的OA系統(tǒng) 必須能黏住用戶
- 23整合也可是IT簡(jiǎn)單任務(wù)
- 24用EJB 3.0簡(jiǎn)化企業(yè)Java開(kāi)發(fā)
- 25無(wú)線網(wǎng)典型故障排除
- 26用好的OA軟件 節(jié)約企業(yè)資源
- 27數(shù)據(jù)挖掘技術(shù)特寫
- 28教育行業(yè)OA軟件應(yīng)用前景獨(dú)好
- 29降低IM風(fēng)險(xiǎn)的10大定律
- 30春來(lái)選OA 專家有話說(shuō)
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓