監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購(gòu)買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

“臟數(shù)據(jù)”的轉(zhuǎn)換與清洗

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來(lái)源:泛普軟件 目前,基于數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能應(yīng)用已經(jīng)成為國(guó)內(nèi)許多企業(yè)的IT規(guī)劃項(xiàng)目,并受到企業(yè)管理層的關(guān)注。作為商業(yè)智能的基礎(chǔ),數(shù)據(jù)質(zhì)量的好壞是影響商業(yè)智能應(yīng)用效果的關(guān)鍵,但由于企業(yè)的信息化經(jīng)過(guò)長(zhǎng)期的積累和發(fā)展,數(shù)據(jù)質(zhì)量參差不齊,臟數(shù)據(jù)的存在阻礙了商業(yè)智能應(yīng)用的進(jìn)程,下面將重點(diǎn)談?wù)勅绾巫屌K數(shù)據(jù)改頭換面。   數(shù)據(jù)的“往事”   臟數(shù)據(jù)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。   臟數(shù)據(jù)的存在主要是由于源系統(tǒng)的設(shè)計(jì)不夠嚴(yán)密造成的。主要表現(xiàn)為:數(shù)據(jù)格式錯(cuò)誤,數(shù)據(jù)不一致,數(shù)據(jù)重復(fù)、錯(cuò)誤,業(yè)務(wù)邏輯的不合理,違反業(yè)務(wù)規(guī)則等。例如,未經(jīng)驗(yàn)證的身份證號(hào)碼、未經(jīng)驗(yàn)證的日期字段等,還有賬戶開(kāi)戶日期晚于用戶銷戶日期、交易處理的操作員號(hào)不存在、性別超過(guò)取值范圍等。此外,也有因?yàn)樵聪到y(tǒng)基于性能的考慮,放棄了外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。   目前,大多數(shù)的銀行業(yè)務(wù)系統(tǒng)的輸入界面是采用COBOL語(yǔ)言或C語(yǔ)言開(kāi)發(fā)的,界面處理功能不是很強(qiáng),一些要素被設(shè)計(jì)成“輸入”而不是“選擇”,如企業(yè)客戶的信用等級(jí)被設(shè)計(jì)成輸入,輸入的正確與否完全由操作員的理解決定,這也是臟數(shù)據(jù)產(chǎn)生的原因之一。例如,如果被設(shè)計(jì)成“選擇”就不會(huì)出現(xiàn)把AAA輸成“1”或其他了?! ?  轉(zhuǎn)換與清洗的實(shí)例   下面以銀行業(yè)務(wù)系統(tǒng)的客戶的惟一標(biāo)識(shí)—客戶號(hào)為例來(lái)講解如何轉(zhuǎn)換與清洗數(shù)據(jù)。   客戶信息的處理是整個(gè)數(shù)據(jù)抽取、轉(zhuǎn)換、清洗和裝載(ETL)工作中最復(fù)雜的部分。目前業(yè)務(wù)系統(tǒng)中常見(jiàn)的客戶信息處理的難點(diǎn)主要有以下兩個(gè)方面。   客戶的惟一標(biāo)識(shí)混亂   銀行的客戶號(hào)一般由證件類型與證件號(hào)組成,這里就有一個(gè)問(wèn)題,如果客戶有多種證件怎么辦?或者說(shuō)某個(gè)客戶辦了移民,有了新的身份,系統(tǒng)中怎樣體現(xiàn)出他是同一個(gè)客戶?這些問(wèn)題,除了少部分是由于發(fā)證機(jī)關(guān)造成的(如身份證重號(hào)),大部分是由于操作人員的操作不規(guī)范造成的。主要表現(xiàn)在以下三個(gè)方面。   A、客戶身份證號(hào)問(wèn)題   最常見(jiàn)的問(wèn)題是客戶的身份證從15位更換為18位。首先操作人員只要能輸入新的客戶號(hào),就認(rèn)為是一個(gè)新的客戶;其次,即使操作員知道客戶的身份證升位了,但在銀行的客戶信息中,客戶號(hào)是惟一標(biāo)識(shí),如果對(duì)惟一標(biāo)識(shí)進(jìn)行更新,作為增量反映到目標(biāo)系統(tǒng)中,但沒(méi)有記錄原客戶號(hào),對(duì)于目標(biāo)系統(tǒng)來(lái)說(shuō)就是一條新記錄,而刪除原有的客戶信息在實(shí)際操作中可能是不允許或做不到的,因?yàn)樵谶@個(gè)客戶號(hào)上可能還掛了許多賬戶,即便物理刪除了這條客戶記錄,也不可能作為增量數(shù)據(jù)傳輸?shù)椒治鱿到y(tǒng),因?yàn)檫@條數(shù)據(jù)確實(shí)已經(jīng)不存在了。   所以在實(shí)際的業(yè)務(wù)操作中只是簡(jiǎn)單地增加一條客戶信息,新開(kāi)的賬戶就掛在新的客戶信息上,這樣業(yè)務(wù)系統(tǒng)中就登記了兩條客戶信息。   在ETL處理時(shí),對(duì)上面這種情況一般都直接轉(zhuǎn)換為18位,但在首次全量處理時(shí),必須通過(guò)比較姓名來(lái)真實(shí)證明兩條記錄是同一個(gè)客戶。增量處理時(shí)需要同樣的處理。這樣做需要更多的系統(tǒng)時(shí)間。   第二個(gè)客戶身份證號(hào)問(wèn)題是15位身份證號(hào)中有字母。如數(shù)字“0”被誤寫為字母“O”。   第三個(gè)客戶身份證號(hào)問(wèn)題是長(zhǎng)度不為15位與18位。   第四個(gè)客戶身份證號(hào)問(wèn)題是同一身份證多個(gè)客戶號(hào)。   身份證號(hào)問(wèn)題在ETL時(shí)要生成異常客戶信息記錄文件,再交由業(yè)務(wù)部門處理,如把原15位身份證上掛接的賬戶重新掛接到18位上,刪除15位的客戶信息,刪除錯(cuò)誤的客戶信息,重新錄入正確的客戶信息,并進(jìn)行賬戶掛接。   B、多種證件問(wèn)題   多種證件也會(huì)導(dǎo)致一名客戶有多個(gè)客戶號(hào),技術(shù)上沒(méi)有能力來(lái)發(fā)現(xiàn),只有依靠業(yè)務(wù)人員來(lái)收集、更新維護(hù)信息。如果通過(guò)建新表來(lái)保存這種關(guān)系,將增加數(shù)據(jù)處理、查詢的難度。   C、其他問(wèn)題。有些賬戶上沒(méi)有客戶信息或虛編了客戶號(hào),比如1999年11月以前開(kāi)設(shè)的賬戶,沒(méi)有客戶可以掛接,于是隨意設(shè)了客戶號(hào),在匯總統(tǒng)計(jì)時(shí)要注意區(qū)分這種情況。   多數(shù)據(jù)源導(dǎo)致多客戶信息   由于客觀原因,銀行可能有許多分散獨(dú)立的業(yè)務(wù)系統(tǒng),沒(méi)有做到完全的集中,這些系統(tǒng)中都有客戶信息。   多數(shù)據(jù)源導(dǎo)致多客戶信息,同一客戶在不同系統(tǒng)中有不同的數(shù)據(jù)描述,或者詳細(xì)程度不同,在一些系統(tǒng)中甚至可能沒(méi)有明確的客戶代碼與客戶信息。在處理時(shí),主要根據(jù)客戶信息的詳細(xì)程度與更新時(shí)間來(lái)考慮,并確定一個(gè)信息修改的原則。   首先我們把來(lái)自最大的數(shù)據(jù)源——核心業(yè)務(wù)系統(tǒng)的客戶信息作為基礎(chǔ),這些信息數(shù)據(jù)量大,雖然有很全面的數(shù)據(jù)結(jié)構(gòu),但大部分的字段內(nèi)容為空,而來(lái)自個(gè)人信貸系統(tǒng)、銀行卡系統(tǒng)等的客戶信息數(shù)據(jù)量相對(duì)較少,有詳細(xì)的內(nèi)容,正常情況下客戶記錄應(yīng)該是核心業(yè)務(wù)系統(tǒng)的一個(gè)子集。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)應(yīng)該綜合所有系統(tǒng)的客戶信息,客戶記錄數(shù)應(yīng)該是并集,客戶記錄字段應(yīng)該是一些重要字段的并集。   然后確定不同數(shù)據(jù)源有公共字段的修改順序。首先按信息的修改時(shí)間來(lái)判斷,但最新的信息修改不一定有最全面的信息,如在柜面開(kāi)戶,核心系統(tǒng)僅錄入了身份證與姓名,沒(méi)有錄入地址等其他公共字段信息,而個(gè)人信貸系統(tǒng)或卡系統(tǒng)雖然建立的時(shí)間比較早,但有較全面的信息,不能用核心系統(tǒng)信息直接更新。所以公共字段的修改原則是在源數(shù)據(jù)與目標(biāo)數(shù)據(jù)的字段不為空的情況下,以最新的信息為準(zhǔn)。但這樣做要耗費(fèi)大量的系統(tǒng)資源,特別是在做全量數(shù)據(jù)初始化時(shí),好在客戶信息變化的頻率不是很高,在實(shí)際全量數(shù)據(jù)初始化時(shí)往往是確定一個(gè)順序,例如,以核心業(yè)務(wù)系統(tǒng)信息為基礎(chǔ),銀行卡信息覆蓋核心業(yè)務(wù)系統(tǒng)信息,然后再用貸款信息覆蓋。   增量處理時(shí)一種折衷的方法是,在目標(biāo)系統(tǒng)中記錄客戶信息的來(lái)源系統(tǒng),如果來(lái)自貸款系統(tǒng),則不能用其他系統(tǒng)的增量信息更新,只能用貸款系統(tǒng)的增量信息更新,而貸款系統(tǒng)的信息可以修改來(lái)自其他系統(tǒng)的信息。   實(shí)施經(jīng)驗(yàn):轉(zhuǎn)換與清洗的時(shí)機(jī)   一般來(lái)說(shuō),轉(zhuǎn)換與清洗發(fā)生在數(shù)據(jù)抽取之后,一些轉(zhuǎn)換與清洗可以在抽取的同時(shí)去做。對(duì)于一些相對(duì)不繁忙的業(yè)務(wù)系統(tǒng),如個(gè)人信貸系統(tǒng),由于不是24小時(shí)運(yùn)行,在每天完成正常的數(shù)據(jù)處理后,仍有很多時(shí)間空閑,在數(shù)據(jù)卸載時(shí)可以進(jìn)行轉(zhuǎn)換與清洗,這樣做能夠減少數(shù)據(jù)倉(cāng)庫(kù)的負(fù)載量。需要注意的是,不能對(duì)源系統(tǒng)進(jìn)行清洗,因?yàn)樵聪到y(tǒng)數(shù)據(jù)正確性的標(biāo)準(zhǔn)可能與目標(biāo)系統(tǒng)不一樣,對(duì)源系統(tǒng)的數(shù)據(jù)進(jìn)行任何的修改與刪除都是不允許的。當(dāng)然源系統(tǒng)清理自身錯(cuò)誤的數(shù)據(jù)對(duì)加快數(shù)據(jù)抽取會(huì)有好處。   數(shù)據(jù)清洗的六個(gè)步驟   數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的權(quán)威W.H.Inmon博士把數(shù)據(jù)清洗的過(guò)程分為六個(gè)步驟: 步驟一:元素化(將非標(biāo)準(zhǔn)的數(shù)據(jù)統(tǒng)一格式化成數(shù)據(jù)元素)。 步驟二:標(biāo)準(zhǔn)化(將元素標(biāo)準(zhǔn)化,根據(jù)數(shù)據(jù)字典消除不一致的縮寫等)。 步驟三:校驗(yàn)(對(duì)標(biāo)準(zhǔn)化的元素進(jìn)行一致性校驗(yàn),即在內(nèi)容上修改錯(cuò)誤)。 步驟四:匹配(在其他記錄中尋找相似的記錄,發(fā)現(xiàn)重復(fù)異常)。 步驟五:消除重復(fù)記錄(根據(jù)匹配結(jié)果進(jìn)行處理,可以刪除部分記錄或者把多個(gè)記錄合并為一個(gè)更完整信息的記錄)。 步驟六:檔案化(將結(jié)果寫入元數(shù)據(jù)存儲(chǔ)中心。這樣可以更好地進(jìn)行后續(xù)的清理過(guò)程,使得用戶容易理解數(shù)據(jù)庫(kù)以及更好地進(jìn)行切片、切塊等操作)。(ccw)  
發(fā)布:2007-04-22 10:00    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普南昌OA信息化其他應(yīng)用

南昌OA軟件 南昌OA新聞動(dòng)態(tài) 南昌OA信息化 南昌OA快博 南昌OA行業(yè)資訊 南昌軟件開(kāi)發(fā)公司 南昌門禁系統(tǒng) 南昌物業(yè)管理軟件 南昌倉(cāng)庫(kù)管理軟件 南昌餐飲管理軟件 南昌網(wǎng)站建設(shè)公司