當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 陜西OA系統(tǒng) > 西安OA系統(tǒng) > 西安OA快博
選擇合適的數(shù)據(jù)挖掘算法
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
文章來(lái)源:泛普軟件在JDM中,算法是可以選擇的,大多數(shù)數(shù)據(jù)挖掘工具為每個(gè)挖掘函數(shù)提供了默認(rèn)或者預(yù)選擇的算法。
如果JDM沒(méi)有自動(dòng)選擇算法,或者數(shù)據(jù)挖掘人員想控制算法設(shè)置,就可以顯式選擇算法、指定設(shè)置。數(shù)據(jù)挖掘?qū)iT知識(shí)、對(duì)可用算法的了解,以及往往確定哪種算法最適合解決問(wèn)題的嘗試,這些都有助于選擇合適的算法及設(shè)置。
決策樹(shù)算法
決策樹(shù)算法是最流行的算法之一,因?yàn)楹苋菀桌斫馑侨绾芜M(jìn)行預(yù)測(cè)的。決策樹(shù)生成的規(guī)則不但可以解釋如何進(jìn)行預(yù)測(cè)、為何要預(yù)測(cè),還有助于對(duì)一個(gè)群體進(jìn)行劃分,即顯示哪幾組實(shí)例會(huì)得出某個(gè)結(jié)果。決策樹(shù)廣泛用于分類,有些實(shí)現(xiàn)的決策樹(shù)還支持回歸方法。
決策樹(shù)算法會(huì)分析一組約束的經(jīng)驗(yàn),即數(shù)據(jù)集。然后,確定提哪些問(wèn)題才能得出正確答案,即對(duì)每個(gè)實(shí)例進(jìn)行正確分類。
在本例中,我們假定輸入數(shù)據(jù)集只有三個(gè)活動(dòng)屬性來(lái)自前面介紹的CUSTOMERS數(shù)據(jù)集:年齡、資本收益和平均儲(chǔ)蓄賬戶余額,共有10個(gè)客戶實(shí)例。每個(gè)實(shí)例都有已知目標(biāo)值,如圖1所示。注意:10名客戶中有5名流失,因而隨機(jī)選擇的客戶會(huì)流失的可能性為50%。使用該數(shù)據(jù)集中的屬性細(xì)節(jié),決策樹(shù)算法就可以學(xué)習(xí)數(shù)據(jù)模式、構(gòu)建一棵樹(shù)。
在決策樹(shù)中,每次節(jié)點(diǎn)分離基于劃分或分離數(shù)據(jù)的屬性條件。在本例中,節(jié)點(diǎn)1代表數(shù)據(jù)集中的所有10個(gè)客戶。算法可以從這10個(gè)客戶實(shí)例中知道:年齡大于36歲的客戶可能會(huì)流失。所以節(jié)點(diǎn)1根據(jù)客戶年齡,把數(shù)據(jù)分離成節(jié)點(diǎn)2和節(jié)點(diǎn)3。節(jié)點(diǎn)3根據(jù)客戶的儲(chǔ)蓄賬戶余額,把數(shù)據(jù)進(jìn)一步分成節(jié)點(diǎn)4和節(jié)點(diǎn)5。
每個(gè)樹(shù)節(jié)點(diǎn)都有相關(guān)規(guī)則,以一定的置信度和支持度來(lái)預(yù)測(cè)目標(biāo)值。置信度度量的是該樹(shù)節(jié)點(diǎn)會(huì)正確預(yù)測(cè)目標(biāo)值的可能性。置信度是節(jié)點(diǎn)中正確預(yù)測(cè)的實(shí)例與分配給該節(jié)點(diǎn)的實(shí)例總數(shù)之比。支持度度量的是從構(gòu)造數(shù)據(jù)集中分配了多少實(shí)例給該節(jié)點(diǎn)。支持度可以表示為節(jié)點(diǎn)中實(shí)例數(shù)量與構(gòu)造數(shù)據(jù)集中實(shí)例總數(shù)之比。表1列出了樹(shù)節(jié)點(diǎn)的細(xì)節(jié)。
算法設(shè)置讓用戶可以在構(gòu)造過(guò)程中對(duì)算法進(jìn)行更精確的控制,從而獲得更準(zhǔn)確的結(jié)果。如果允許對(duì)構(gòu)造數(shù)據(jù)進(jìn)行過(guò)擬合(overfit),決策樹(shù)模型在構(gòu)造數(shù)據(jù)方面能做到極其準(zhǔn)確,讓算法甚至可以使用針對(duì)單個(gè)實(shí)例的規(guī)則來(lái)構(gòu)造更深的樹(shù)。因而,過(guò)擬合模型為構(gòu)造數(shù)據(jù)提供了很好的準(zhǔn)確性,但不是非常適用于新數(shù)據(jù),導(dǎo)致預(yù)測(cè)準(zhǔn)確性降低。
為了避免過(guò)擬合,用戶可以運(yùn)用停止標(biāo)準(zhǔn)和剪枝技術(shù)。許多算法通常對(duì)構(gòu)造數(shù)據(jù)進(jìn)行迭代處理,學(xué)習(xí)數(shù)據(jù)中存在的模式,或者進(jìn)行更細(xì)微的區(qū)分。有些算法實(shí)際上可以讓這種迭代無(wú)限進(jìn)行下去。因此,算法往往提供停止標(biāo)準(zhǔn),告訴算法何時(shí)停止構(gòu)造模型。剪枝是指剪去不太重要的樹(shù)節(jié)點(diǎn),譬如支持度不夠的樹(shù)節(jié)點(diǎn)。
樸素貝葉斯
樸素貝葉斯基于貝葉斯定理,假定預(yù)測(cè)變量屬性就目標(biāo)屬性而言在條件上彼此獨(dú)立。這種假定大大減少了預(yù)測(cè)目標(biāo)值所需的計(jì)算數(shù)量,因而樸素貝葉斯算法適用于處理大量數(shù)據(jù)。
樸素貝葉斯算法涉及計(jì)算目標(biāo)和預(yù)測(cè)屬性值每對(duì)組合的概率。為了控制這類組合的數(shù)量,有連續(xù)值或者大量不同值的屬性通常進(jìn)行分箱處理。在本例中,為了簡(jiǎn)化樸素貝葉斯算法的描述,考慮來(lái)自CUSTOMERS(表2)數(shù)據(jù)集的兩個(gè)屬性: 年齡和儲(chǔ)蓄余額。這些屬性經(jīng)過(guò)分箱處理有兩個(gè)分箱值,可以進(jìn)一步簡(jiǎn)化這方面的討論。就年齡而言,bin-1含有小于或等于35的值,而bin-2含有大于35的值。就儲(chǔ)蓄余額而言,bin-1含有小于或等于2萬(wàn)美元的值,而bin-2含有大于2萬(wàn)美元的值。在JDM中,樸素貝葉斯算法使用構(gòu)造數(shù)據(jù)集中的實(shí)例,算出特定屬性值的目標(biāo)值的概率。在本例中,我們的二進(jìn)制目標(biāo)有兩個(gè)屬性,它們有兩個(gè)分箱值。
在JDM中,樸素貝葉斯算法有兩個(gè)設(shè)置: 單例閾值(singleton threshold)和兩兩閾值(pairwise threshold),可用于定義應(yīng)當(dāng)忽視哪些預(yù)測(cè)變量屬性值或者預(yù)測(cè)變量-目標(biāo)值對(duì)。
支持向量機(jī)
支持向量機(jī)(SVM)算法是最流行、比較新的監(jiān)督算法之一。事實(shí)證明,SVM可以為復(fù)雜的分類問(wèn)題(如基因表達(dá)分析)帶來(lái)高度準(zhǔn)確的結(jié)果。在這類問(wèn)題中,已知實(shí)例數(shù)量少,但屬性數(shù)量相當(dāng)大。SVM在解決傳統(tǒng)的數(shù)據(jù)挖掘問(wèn)題方面日益得到認(rèn)可,成為了替代神經(jīng)網(wǎng)絡(luò)的一種優(yōu)先算法。
SVM可以選擇核函數(shù)。核函數(shù)可把數(shù)據(jù)轉(zhuǎn)變成高維向量空間,并且尋找這類空間中的關(guān)系。數(shù)據(jù)挖掘領(lǐng)域引入了許多核函數(shù)。JDM包括kLinear、kGaussian、超正切函數(shù)、多項(xiàng)式函數(shù)和S形函數(shù)。(CCW)
- 1重慶OA快博
- 2貴陽(yáng)OA快博
- 3廣州OA快博
- 4深圳OA快博
- 5長(zhǎng)沙OA快博
- 6廈門OA快博
- 7濟(jì)南OA快博
- 8太原OA快博
- 9上海OA快博
- 10沈陽(yáng)OA快博
- 11長(zhǎng)春OA快博
- 12哈爾濱OA快博
- 1西安OA辦公自動(dòng)化軟件,哪一家服務(wù)最好
- 2網(wǎng)站如何防范“上傳漏洞”入侵
- 3成都轎車闖黃燈罰6分:無(wú)近距離跟車 時(shí)速30km
- 4OA辦公自動(dòng)化軟件的資源管理有什么作用?
- 5OA系統(tǒng)辦公管理系統(tǒng)的項(xiàng)目協(xié)作管理功能好用嗎?
- 6提供災(zāi)難恢復(fù)保護(hù)的遠(yuǎn)程復(fù)制
- 7SOA的十大技術(shù)理論體系
- 817家無(wú)證網(wǎng)站盜播《十二生肖》 有關(guān)部門正處理
- 9CIO必須了解的全球最急需的10項(xiàng)IT技術(shù)
- 10公安部:將整改信號(hào)燈設(shè)置以及使用不規(guī)范
- 11男子飯店挑選活魚(yú)當(dāng)面做記號(hào) 上桌后仍舊被掉包
- 12湄公河慘案二審?fù)徑Y(jié)束 主犯糯康否認(rèn)控罪
- 13辦公自動(dòng)化軟件的客戶服務(wù)管理怎么樣呢?
- 14HTTP過(guò)濾將對(duì)安全市場(chǎng)產(chǎn)生深遠(yuǎn)影響
- 15計(jì)世獨(dú)家:六大技術(shù)將科幻變?yōu)楝F(xiàn)實(shí)
- 16云計(jì)算:微軟和Google的云端游戲
- 17VoIP叫板企業(yè)通信
- 18OA軟件可以通過(guò)選擇日期查看其他周的車輛使用情況
- 19媒體稱上萬(wàn)名緬甸難民逃至中緬邊境避難(圖)
- 20數(shù)據(jù)中心的五維度評(píng)估法
- 21心馳向往。太陽(yáng)谷
- 22聯(lián)合國(guó)安理會(huì)譴責(zé)朝鮮發(fā)射衛(wèi)星
- 23定位技術(shù)增強(qiáng)無(wú)線網(wǎng)絡(luò)安全
- 24三大主流ETL工具選型
- 25安全中的信譽(yù)技術(shù)
- 26Facebook月活躍用戶超10億 壟斷127國(guó)社交服務(wù)
- 27打造更安全Linux系統(tǒng)
- 28至今無(wú)法解決的三種系統(tǒng)漏洞
- 29應(yīng)用三層交換降低組網(wǎng)成本
- 30數(shù)字證書(shū)安全嗎?
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓