監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產品資料
X 關閉

粗糙集理論在商業(yè)數(shù)據挖掘中之應用

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件 粗糙集理論的概念

數(shù)據挖掘被稱為數(shù)據庫中的知識發(fā)現(xiàn)(Knowledge Discover Database,KDD)。在商業(yè)智能研究中,對業(yè)務數(shù)據密集型的大容量商業(yè)銷售數(shù)據的知識挖掘,國內外均有成功案例,但受數(shù)據不完備的影響,許多數(shù)據挖掘技術在企業(yè)中無法取得實際應用。波蘭學者Z.Pawlak提出的粗糙集(Rough Set)理論,近年來在知識發(fā)現(xiàn)等領域受到廣泛關注。面對當前國內企業(yè)商業(yè)數(shù)據普遍不完備的難題,本文改進相關算法,通過粗糙集數(shù)據挖掘系統(tǒng)對各種商業(yè)數(shù)據進行數(shù)據預處理,消去冗余屬性,抽取決策規(guī)則。

1 基于粗糙集理論的商業(yè)數(shù)據挖掘

CRISP-DM(Cross-Industry Standard Process for Data Mining)項目的實施步驟包括:商業(yè)理解、數(shù)據理解、數(shù)據準備、建模、評估和發(fā)布。具體到商業(yè),基于CRIS-DM模型的數(shù)據挖掘處理可以細分為7個步驟:目標確定、確認數(shù)據源、數(shù)據收集、數(shù)據篩選、數(shù)據預處理、挖掘分析和結果評價。

一個完整的基于粗糙集理論的商業(yè)數(shù)據挖掘過程包括3個概念層:

(1)數(shù)據準備層包括目標確定、確認數(shù)據源、數(shù)據收集、數(shù)據篩選,目的是從數(shù)據源中抽取出正確可靠的統(tǒng)一格式的數(shù)據。

(2)數(shù)據預處理層包括連續(xù)屬性值離散化、數(shù)據過濾、數(shù)據完備化,目的是將數(shù)據源里提取的數(shù)據轉化為完備信息系統(tǒng)表。

(3)挖掘評價層是整個挖掘過程的核心層,包括屬性約簡、規(guī)則提取和結果評價。

2 關鍵環(huán)節(jié)算法設計

1)算法1:連續(xù)屬性離散化算法

運用粗糙集理論,必須對商業(yè)業(yè)務數(shù)據庫中存在的大量連續(xù)屬性進行離散化,而常規(guī)離散化方法易于導致決策表相容性的降低,使提取規(guī)則的能力下降。謝宏等的《基于信息熵的粗糙集連續(xù)屬性離散化算法》提出基于信息熵的粗糙集連續(xù)屬性離散化算法,能保持決策表相容性,但該算法對訓練數(shù)據具有過度適應性,實際應用效果不理想。本文對此算法作相應改進,增設用戶控制闕值,以避免過多斷點。

P為已選的斷點集合,L為P所劃分的等價類集合,B為候選斷點的集合,決策表信息熵H的初值為H(U)?;谛畔⒌盏拇植诩x散化算法如下:

 其中XU為子集,其實例個數(shù)為︱X︱。

輸入:U(Ai,d);Pi={φ}(決策屬性d,連續(xù)屬性Ai,Ai的對應斷點集合Pi);用戶控制網值t

輸出:Pi

step 1:Pi={φ};L={U};H=H(U);

step 2:對 每一個c∈B,計算H(c,L);

step 3:若 H≤min{H(c,L)},則結束;

step 4:選擇使H(c,L)最小的斷點Cmin加到P中;

若P中斷點個數(shù)≥t2,則結束,否則H=H(c,L);B=B-{c};

step 5:對所有X∈L,若Cmin把X劃分為X1和X2,則用X1和X2替換L中的X;

step 6:如果L中各個等價類中的實例都具有相同的決策,則結束;否則轉到step2。

2)算法2:數(shù)據完備化算法

在目前的商業(yè)數(shù)據挖掘中,面臨比較突出的難題就是信息的不完備性。王國胤的《Rough集理論與知識獲取》給出一種基于Rough集理論中數(shù)據不可分辨關系的ROUSTIDA算法,張振華、劉文齊的《一種基于粗糙集理論不完備數(shù)據的改進算法》則以決策規(guī)則獨立為基本思想,對條件屬性和決策屬J性區(qū)別對待,給出了一種ROUSTIDA改進算法,朱小飛的《一種基于量化容差關系的不完備數(shù)據分析方法》提出的VTRIDA算法,在具有缺失值的對象容差類中,找出與該對象最相似且補缺能力較強的對象進行缺失值補充,從而提高決策規(guī)則的支持度。本文采用《一種基于量化容差關系的不完備數(shù)據分析方法》中的VTRIDA算法。

MASi為對象xi的缺失屬性集、MOS為信息系統(tǒng)S的缺失對象集。

輸入:不完備信息系統(tǒng)S0=<U0,A,V,f0>

輸出:完備信息系統(tǒng)Sr=<Ur,A,V,fr>

step 1:計算初始擴充的量化容差關系矩陣T0,MASi0和MOS0;令r=0。

step 2:①產生Sr+1。如果xi無缺失值,則使對象xir+1與對象xi的屬性值均相同:ak(xir+1)=ak(xir),k=1,2,…,m;否則根據擴充的量化容差關系矩陣Tr,找到一個與xi最相似的xj,用其中的屬性值對xi中的缺失屬性值進行補齊。②如果Sr+1=Sr,結束循環(huán),轉step3;否則先計算Tr+1,MASir+1和MOSr+1;然后r=r+1;最后轉step2。

Step 3:如果還有缺失值,則選用其它代價較大的算法(例如直接刪除缺失數(shù)據對象)。

3)算法3:屬性約簡算法

屬性約簡是在保持決策信息系統(tǒng)的分類和決策能力不變的前提下,根據屬性之間的依賴關系γ、屬性重要度SGF等,找出一個最佳約簡集,刪除不相關或不重要的屬性。

輸入:具有條件屬性集C和決策屬性集D的相容決策信息系統(tǒng)S。

輸出:最佳約簡集

step 1:計算決策信息系統(tǒng)S的核心集CORE;

step 2:REDU=CORE;C'=C-REDU;

step 3:計算γ(REDU,D)和γ(C,D);

step 4:if γ(REDU,D)≠γ(C,D)then選擇屬性α∈C',使

SGF(α,REDU,D)=max(SGF(αi,REDU,D))αi∈C',(i=1,2,…,m);

REDUR=REDU∩{α},C'=C'{α};計算新的γ(REDU,D),else轉step5。

step 5:︱REDU︱→N;

step 6:for(I=0 to N-1){if(αi不屬于CORE)REDU=REDU-{αi};計算γ(REDU,D);if(γ(REDU,D)≠γ(C,D)REDU=REDU∩{αi})}

4)算法4:規(guī)則提取算法

輸入:最佳約簡集S(C,D),其中C是條件屬性集,D是決策屬性集。

輸出:決策規(guī)則集T

step 1:T={φ},n=︱S︱

step 2:for(I=0,I<n,I++){S中每個條件屬性的屬性值對,形成規(guī)則前件(IF部分)的一個合取項Ci;每個決策屬性的屬性值對,形成規(guī)則后件(THEN部分)的一個合取項從Di ti=if Ci then Di}

step 3:簡 化、合并決策規(guī)則集T

發(fā)布:2007-04-24 12:07    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
福州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普福州OA快博其他應用

福州OA軟件 福州OA新聞動態(tài) 福州OA信息化 福州OA快博 福州OA行業(yè)資訊 福州軟件開發(fā)公司 福州門禁系統(tǒng) 福州物業(yè)管理軟件 福州倉庫管理軟件 福州餐飲管理軟件 福州網站建設公司