當前位置:工程項目OA系統(tǒng) > 泛普各地 > 福建OA系統(tǒng) > 福州OA系統(tǒng) > 福州OA快博
粗糙集理論在商業(yè)數(shù)據挖掘中之應用
數(shù)據挖掘被稱為數(shù)據庫中的知識發(fā)現(xiàn)(Knowledge Discover Database,KDD)。在商業(yè)智能研究中,對業(yè)務數(shù)據密集型的大容量商業(yè)銷售數(shù)據的知識挖掘,國內外均有成功案例,但受數(shù)據不完備的影響,許多數(shù)據挖掘技術在企業(yè)中無法取得實際應用。波蘭學者Z.Pawlak提出的粗糙集(Rough Set)理論,近年來在知識發(fā)現(xiàn)等領域受到廣泛關注。面對當前國內企業(yè)商業(yè)數(shù)據普遍不完備的難題,本文改進相關算法,通過粗糙集數(shù)據挖掘系統(tǒng)對各種商業(yè)數(shù)據進行數(shù)據預處理,消去冗余屬性,抽取決策規(guī)則。
1 基于粗糙集理論的商業(yè)數(shù)據挖掘
CRISP-DM(Cross-Industry Standard Process for Data Mining)項目的實施步驟包括:商業(yè)理解、數(shù)據理解、數(shù)據準備、建模、評估和發(fā)布。具體到商業(yè),基于CRIS-DM模型的數(shù)據挖掘處理可以細分為7個步驟:目標確定、確認數(shù)據源、數(shù)據收集、數(shù)據篩選、數(shù)據預處理、挖掘分析和結果評價。
一個完整的基于粗糙集理論的商業(yè)數(shù)據挖掘過程包括3個概念層:
(1)數(shù)據準備層包括目標確定、確認數(shù)據源、數(shù)據收集、數(shù)據篩選,目的是從數(shù)據源中抽取出正確可靠的統(tǒng)一格式的數(shù)據。
(2)數(shù)據預處理層包括連續(xù)屬性值離散化、數(shù)據過濾、數(shù)據完備化,目的是將數(shù)據源里提取的數(shù)據轉化為完備信息系統(tǒng)表。
(3)挖掘評價層是整個挖掘過程的核心層,包括屬性約簡、規(guī)則提取和結果評價。
2 關鍵環(huán)節(jié)算法設計
1)算法1:連續(xù)屬性離散化算法
運用粗糙集理論,必須對商業(yè)業(yè)務數(shù)據庫中存在的大量連續(xù)屬性進行離散化,而常規(guī)離散化方法易于導致決策表相容性的降低,使提取規(guī)則的能力下降。謝宏等的《基于信息熵的粗糙集連續(xù)屬性離散化算法》提出基于信息熵的粗糙集連續(xù)屬性離散化算法,能保持決策表相容性,但該算法對訓練數(shù)據具有過度適應性,實際應用效果不理想。本文對此算法作相應改進,增設用戶控制闕值,以避免過多斷點。
P為已選的斷點集合,L為P所劃分的等價類集合,B為候選斷點的集合,決策表信息熵H的初值為H(U)?;谛畔⒌盏拇植诩x散化算法如下:
其中XU為子集,其實例個數(shù)為︱X︱。
輸入:U(Ai,d);Pi={φ}(決策屬性d,連續(xù)屬性Ai,Ai的對應斷點集合Pi);用戶控制網值t
輸出:Pi
step 1:Pi={φ};L={U};H=H(U);
step 2:對 每一個c∈B,計算H(c,L);
step 3:若 H≤min{H(c,L)},則結束;
step 4:選擇使H(c,L)最小的斷點Cmin加到P中;
若P中斷點個數(shù)≥t2,則結束,否則H=H(c,L);B=B-{c};
step 5:對所有X∈L,若Cmin把X劃分為X1和X2,則用X1和X2替換L中的X;
step 6:如果L中各個等價類中的實例都具有相同的決策,則結束;否則轉到step2。
2)算法2:數(shù)據完備化算法
在目前的商業(yè)數(shù)據挖掘中,面臨比較突出的難題就是信息的不完備性。王國胤的《Rough集理論與知識獲取》給出一種基于Rough集理論中數(shù)據不可分辨關系的ROUSTIDA算法,張振華、劉文齊的《一種基于粗糙集理論不完備數(shù)據的改進算法》則以決策規(guī)則獨立為基本思想,對條件屬性和決策屬J性區(qū)別對待,給出了一種ROUSTIDA改進算法,朱小飛的《一種基于量化容差關系的不完備數(shù)據分析方法》提出的VTRIDA算法,在具有缺失值的對象容差類中,找出與該對象最相似且補缺能力較強的對象進行缺失值補充,從而提高決策規(guī)則的支持度。本文采用《一種基于量化容差關系的不完備數(shù)據分析方法》中的VTRIDA算法。
MASi為對象xi的缺失屬性集、MOS為信息系統(tǒng)S的缺失對象集。
輸入:不完備信息系統(tǒng)S0=<U0,A,V,f0>
輸出:完備信息系統(tǒng)Sr=<Ur,A,V,fr>
step 1:計算初始擴充的量化容差關系矩陣T0,MASi0和MOS0;令r=0。
step 2:①產生Sr+1。如果xi無缺失值,則使對象xir+1與對象xi的屬性值均相同:ak(xir+1)=ak(xir),k=1,2,…,m;否則根據擴充的量化容差關系矩陣Tr,找到一個與xi最相似的xj,用其中的屬性值對xi中的缺失屬性值進行補齊。②如果Sr+1=Sr,結束循環(huán),轉step3;否則先計算Tr+1,MASir+1和MOSr+1;然后r=r+1;最后轉step2。
Step 3:如果還有缺失值,則選用其它代價較大的算法(例如直接刪除缺失數(shù)據對象)。
3)算法3:屬性約簡算法
屬性約簡是在保持決策信息系統(tǒng)的分類和決策能力不變的前提下,根據屬性之間的依賴關系γ、屬性重要度SGF等,找出一個最佳約簡集,刪除不相關或不重要的屬性。
輸入:具有條件屬性集C和決策屬性集D的相容決策信息系統(tǒng)S。
輸出:最佳約簡集
step 1:計算決策信息系統(tǒng)S的核心集CORE;
step 2:REDU=CORE;C'=C-REDU;
step 3:計算γ(REDU,D)和γ(C,D);
step 4:if γ(REDU,D)≠γ(C,D)then選擇屬性α∈C',使
SGF(α,REDU,D)=max(SGF(αi,REDU,D))αi∈C',(i=1,2,…,m);
REDUR=REDU∩{α},C'=C'{α};計算新的γ(REDU,D),else轉step5。
step 5:︱REDU︱→N;
step 6:for(I=0 to N-1){if(αi不屬于CORE)REDU=REDU-{αi};計算γ(REDU,D);if(γ(REDU,D)≠γ(C,D)REDU=REDU∩{αi})}
4)算法4:規(guī)則提取算法
輸入:最佳約簡集S(C,D),其中C是條件屬性集,D是決策屬性集。
輸出:決策規(guī)則集T
step 1:T={φ},n=︱S︱
step 2:for(I=0,I<n,I++){S中每個條件屬性的屬性值對,形成規(guī)則前件(IF部分)的一個合取項Ci;每個決策屬性的屬性值對,形成規(guī)則后件(THEN部分)的一個合取項從Di ti=if Ci then Di}
step 3:簡 化、合并決策規(guī)則集T
- 1更新?lián)Q代 誰來終結傳統(tǒng)通用型福州OA?
- 2對于商業(yè)智能的前生今世之思考和分析
- 3福州OA的成長煩惱:熱概念遭遇冷需求
- 4影響福州OA實施成敗的幾項關鍵因素
- 5面向客戶服務的整合業(yè)務流程管理模型研究
- 6福州OA的項目驗收切莫敷衍了事
- 7計世資訊:PaaS加速SaaS的發(fā)展
- 8解析企業(yè)SOA架構實施的失敗之謎
- 9中間件已成信息系統(tǒng)綜合集成的利器
- 10企業(yè)個性化福州OA實施的探索研究
- 11對于2009年SOA行業(yè)的七個趨勢預測
- 12企業(yè)信息化建設成功之路 先IRP后福州OA
- 13商務流程模型結合SOA消除業(yè)務部門間隔閡
- 14CIO要認清典型信息系統(tǒng)的實用、實效側重點
- 15企業(yè)實現(xiàn)知識管理的十大難點和解決方法
- 16企業(yè)實施信息化我們到底想要什么
- 17福州OA實施烏云壓頂 巧借WBS重見天日
- 18輕量級帶來高效益 敏捷福州OA打破IT預算天花板
- 19是方法論還是技術 對于SOA本質的探討
- 20CIO該如何選購企業(yè)軟件
- 21OA治理經驗需要隨時間推移而逐步積累
- 22福州OA軟件實現(xiàn)組織管理是怎樣實現(xiàn)的?
- 23經濟低迷預算削減如何降低福州OA運維成本
- 24Gartner公布五種新興的SOA設計模式
- 25杜絕信息孤島出現(xiàn) 整合高級時期到來
- 26企業(yè)信息化系統(tǒng)選型及實施成功要素
- 27SaaS模式難入中小企業(yè)之門嗎?
- 28企業(yè)的100%SaaS化仍待時機成熟
- 29OA系統(tǒng)加強對敏感數(shù)據、密級數(shù)據的嚴密隔離和控制
- 30企業(yè)應該如何規(guī)劃和實施知識管理系統(tǒng)
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓