監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

選擇合適的數(shù)據(jù)挖掘算法

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

在JDM中,算法是可以選擇的,大多數(shù)數(shù)據(jù)挖掘工具為每個(gè)挖掘函數(shù)提供了默認(rèn)或者預(yù)選擇的算法。

如果JDM沒有自動(dòng)選擇算法,或者數(shù)據(jù)挖掘人員想控制算法設(shè)置,就可以顯式選擇算法、指定設(shè)置。數(shù)據(jù)挖掘?qū)iT知識(shí)、對(duì)可用算法的了解,以及往往確定哪種算法最適合解決問題的嘗試,這些都有助于選擇合適的算法及設(shè)置。

決策樹算法

決策樹算法是最流行的算法之一,因?yàn)楹苋菀桌斫馑侨绾芜M(jìn)行預(yù)測(cè)的。決策樹生成的規(guī)則不但可以解釋如何進(jìn)行預(yù)測(cè)、為何要預(yù)測(cè),還有助于對(duì)一個(gè)群體進(jìn)行劃分,即顯示哪幾組實(shí)例會(huì)得出某個(gè)結(jié)果。決策樹廣泛用于分類,有些實(shí)現(xiàn)的決策樹還支持回歸方法。

決策樹算法會(huì)分析一組約束的經(jīng)驗(yàn),即數(shù)據(jù)集。然后,確定提哪些問題才能得出正確答案,即對(duì)每個(gè)實(shí)例進(jìn)行正確分類。

在本例中,我們假定輸入數(shù)據(jù)集只有三個(gè)活動(dòng)屬性來自前面介紹的CUSTOMERS數(shù)據(jù)集:年齡、資本收益和平均儲(chǔ)蓄賬戶余額,共有10個(gè)客戶實(shí)例。每個(gè)實(shí)例都有已知目標(biāo)值,如圖1所示。注意:10名客戶中有5名流失,因而隨機(jī)選擇的客戶會(huì)流失的可能性為50%。使用該數(shù)據(jù)集中的屬性細(xì)節(jié),決策樹算法就可以學(xué)習(xí)數(shù)據(jù)模式、構(gòu)建一棵樹。

在決策樹中,每次節(jié)點(diǎn)分離基于劃分或分離數(shù)據(jù)的屬性條件。在本例中,節(jié)點(diǎn)1代表數(shù)據(jù)集中的所有10個(gè)客戶。算法可以從這10個(gè)客戶實(shí)例中知道:年齡大于36歲的客戶可能會(huì)流失。所以節(jié)點(diǎn)1根據(jù)客戶年齡,把數(shù)據(jù)分離成節(jié)點(diǎn)2和節(jié)點(diǎn)3。節(jié)點(diǎn)3根據(jù)客戶的儲(chǔ)蓄賬戶余額,把數(shù)據(jù)進(jìn)一步分成節(jié)點(diǎn)4和節(jié)點(diǎn)5。

每個(gè)樹節(jié)點(diǎn)都有相關(guān)規(guī)則,以一定的置信度和支持度來預(yù)測(cè)目標(biāo)值。置信度度量的是該樹節(jié)點(diǎn)會(huì)正確預(yù)測(cè)目標(biāo)值的可能性。置信度是節(jié)點(diǎn)中正確預(yù)測(cè)的實(shí)例與分配給該節(jié)點(diǎn)的實(shí)例總數(shù)之比。支持度度量的是從構(gòu)造數(shù)據(jù)集中分配了多少實(shí)例給該節(jié)點(diǎn)。支持度可以表示為節(jié)點(diǎn)中實(shí)例數(shù)量與構(gòu)造數(shù)據(jù)集中實(shí)例總數(shù)之比。表1列出了樹節(jié)點(diǎn)的細(xì)節(jié)。

算法設(shè)置讓用戶可以在構(gòu)造過程中對(duì)算法進(jìn)行更精確的控制,從而獲得更準(zhǔn)確的結(jié)果。如果允許對(duì)構(gòu)造數(shù)據(jù)進(jìn)行過擬合(overfit),決策樹模型在構(gòu)造數(shù)據(jù)方面能做到極其準(zhǔn)確,讓算法甚至可以使用針對(duì)單個(gè)實(shí)例的規(guī)則來構(gòu)造更深的樹。因而,過擬合模型為構(gòu)造數(shù)據(jù)提供了很好的準(zhǔn)確性,但不是非常適用于新數(shù)據(jù),導(dǎo)致預(yù)測(cè)準(zhǔn)確性降低。

為了避免過擬合,用戶可以運(yùn)用停止標(biāo)準(zhǔn)和剪枝技術(shù)。許多算法通常對(duì)構(gòu)造數(shù)據(jù)進(jìn)行迭代處理,學(xué)習(xí)數(shù)據(jù)中存在的模式,或者進(jìn)行更細(xì)微的區(qū)分。有些算法實(shí)際上可以讓這種迭代無限進(jìn)行下去。因此,算法往往提供停止標(biāo)準(zhǔn),告訴算法何時(shí)停止構(gòu)造模型。剪枝是指剪去不太重要的樹節(jié)點(diǎn),譬如支持度不夠的樹節(jié)點(diǎn)。

樸素貝葉斯

樸素貝葉斯基于貝葉斯定理,假定預(yù)測(cè)變量屬性就目標(biāo)屬性而言在條件上彼此獨(dú)立。這種假定大大減少了預(yù)測(cè)目標(biāo)值所需的計(jì)算數(shù)量,因而樸素貝葉斯算法適用于處理大量數(shù)據(jù)。

樸素貝葉斯算法涉及計(jì)算目標(biāo)和預(yù)測(cè)屬性值每對(duì)組合的概率。為了控制這類組合的數(shù)量,有連續(xù)值或者大量不同值的屬性通常進(jìn)行分箱處理。在本例中,為了簡(jiǎn)化樸素貝葉斯算法的描述,考慮來自CUSTOMERS(表2)數(shù)據(jù)集的兩個(gè)屬性: 年齡和儲(chǔ)蓄余額。這些屬性經(jīng)過分箱處理有兩個(gè)分箱值,可以進(jìn)一步簡(jiǎn)化這方面的討論。就年齡而言,bin-1含有小于或等于35的值,而bin-2含有大于35的值。就儲(chǔ)蓄余額而言,bin-1含有小于或等于2萬美元的值,而bin-2含有大于2萬美元的值。在JDM中,樸素貝葉斯算法使用構(gòu)造數(shù)據(jù)集中的實(shí)例,算出特定屬性值的目標(biāo)值的概率。在本例中,我們的二進(jìn)制目標(biāo)有兩個(gè)屬性,它們有兩個(gè)分箱值。

在JDM中,樸素貝葉斯算法有兩個(gè)設(shè)置: 單例閾值(singleton threshold)和兩兩閾值(pairwise threshold),可用于定義應(yīng)當(dāng)忽視哪些預(yù)測(cè)變量屬性值或者預(yù)測(cè)變量-目標(biāo)值對(duì)。

支持向量機(jī)

支持向量機(jī)(SVM)算法是最流行、比較新的監(jiān)督算法之一。事實(shí)證明,SVM可以為復(fù)雜的分類問題(如基因表達(dá)分析)帶來高度準(zhǔn)確的結(jié)果。在這類問題中,已知實(shí)例數(shù)量少,但屬性數(shù)量相當(dāng)大。SVM在解決傳統(tǒng)的數(shù)據(jù)挖掘問題方面日益得到認(rèn)可,成為了替代神經(jīng)網(wǎng)絡(luò)的一種優(yōu)先算法。

SVM可以選擇核函數(shù)。核函數(shù)可把數(shù)據(jù)轉(zhuǎn)變成高維向量空間,并且尋找這類空間中的關(guān)系。數(shù)據(jù)挖掘領(lǐng)域引入了許多核函數(shù)。JDM包括kLinear、kGaussian、超正切函數(shù)、多項(xiàng)式函數(shù)和S形函數(shù)。(CCW)

發(fā)布:2007-04-22 09:22    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
西安OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普西安OA快博其他應(yīng)用

西安OA軟件 西安OA新聞動(dòng)態(tài) 西安OA信息化 西安OA快博 西安OA行業(yè)資訊 西安軟件開發(fā)公司 西安門禁系統(tǒng) 西安物業(yè)管理軟件 西安倉庫管理軟件 西安餐飲管理軟件 西安網(wǎng)站建設(shè)公司