監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價(jià)格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

如何評(píng)估和應(yīng)用監(jiān)督模型

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

在生產(chǎn)系統(tǒng)中使用監(jiān)督模型進(jìn)行預(yù)測(cè)之前,評(píng)估監(jiān)督模型的質(zhì)量很重要。用戶可以選擇針對(duì)問題的最佳模型,并用它來預(yù)測(cè)應(yīng)用數(shù)據(jù)集的目標(biāo)值。

為了測(cè)試監(jiān)督模型,將歷史數(shù)據(jù)分成兩個(gè)數(shù)據(jù)集,一個(gè)用于構(gòu)造模型,另一個(gè)用于測(cè)試模型。測(cè)試數(shù)據(jù)集實(shí)例通常不用于構(gòu)造模型,目的是為了真正評(píng)估模型的預(yù)測(cè)正確性。JDM為分類模型支持四種流行的測(cè)試度量: 預(yù)測(cè)準(zhǔn)確率、模糊矩陣、受試者工作特征(ROC)和提升率。這些度量的計(jì)算方式是通過比較預(yù)測(cè)目標(biāo)值和實(shí)際目標(biāo)值。這里探討在ABCBank客戶流失問題這一環(huán)境下的這些測(cè)試度量。

評(píng)估分類模型的質(zhì)量

在客戶流失問題中,假定測(cè)試數(shù)據(jù)集有1000個(gè)實(shí)例,分類模型正確預(yù)測(cè)了910個(gè)實(shí)例、錯(cuò)誤預(yù)測(cè)了90個(gè)實(shí)例。那么模型預(yù)測(cè)該數(shù)據(jù)集的準(zhǔn)確率為910/1000 = 0.91,即91%。

假設(shè)在910個(gè)正確的預(yù)測(cè)中,750個(gè)客戶是非流失客戶,剩余160個(gè)是流失客戶。在90個(gè)錯(cuò)誤的預(yù)測(cè)中,60個(gè)被預(yù)測(cè)為流失客戶,而實(shí)際上是非流失客戶;30個(gè)被預(yù)測(cè)為非流失客戶,而實(shí)際上是流失客戶。為此,我們使用名為模糊矩陣的方法。模糊矩陣是一張二維的N×N表,表明了分類模型對(duì)特定測(cè)試數(shù)據(jù)進(jìn)行的正確預(yù)測(cè)和不正確預(yù)測(cè)的數(shù)量,其中N代表目標(biāo)屬性值的數(shù)量。之所以被稱為模糊矩陣,因?yàn)樗赋隽四P驮诤翁幾兊媚:?,即做出不正確的預(yù)測(cè)。

雖然在本例中模糊矩陣度量的是目標(biāo)值的錯(cuò)誤分類,但錯(cuò)誤否定的成本是錯(cuò)誤肯定的三倍。為了從業(yè)務(wù)角度評(píng)估模型質(zhì)量,除了準(zhǔn)確率外,我們還需要度量成本。如果指定了成本矩陣,考慮成本值來度量性能、選擇成本值最小的模型很重要。

受試者工作特征(ROC)是比較分類模型質(zhì)量的另一個(gè)方法。ROC圖把錯(cuò)誤肯定率放在X軸上、把真肯定率放在Y軸上,如圖1所示。其中,錯(cuò)誤肯定率是錯(cuò)誤肯定數(shù)量與實(shí)際否定總數(shù)之比。同樣,真肯定率是真肯定數(shù)量與實(shí)際肯定總數(shù)之比。

想繪制ROC圖,測(cè)試任務(wù)就要確定在不同概率閾值下,錯(cuò)誤肯定和真肯定的比率。超過概率閾值預(yù)測(cè)的肯定目標(biāo)值的概率就被認(rèn)為是肯定預(yù)測(cè)。不同的概率閾值導(dǎo)致出現(xiàn)不同的錯(cuò)誤肯定率和真肯定率。如圖1(a)所示。

圖1(b)顯示了兩個(gè)分類模型在不同概率閾值下繪制的ROC曲線。如果錯(cuò)誤肯定率不同,這些模型的性能也不同。ROC曲線下方面積越大,模型性能一般越高。

提升率和累積增益也是評(píng)估分類模型效果的常用度量。提升率是使用分類模型獲得的結(jié)果與使用隨機(jī)選擇獲得的結(jié)果之比。累積增益是由模型通過數(shù)據(jù)分位數(shù)(quantile)決定的肯定響應(yīng)比例。實(shí)例通常分成10個(gè)或者100個(gè)分位數(shù),可以根據(jù)這些分位數(shù)得出提升率和累積增益,如表1所示。提升圖和累積增益圖往往用做評(píng)估性能模型的直觀教具。了解累積提升和累積增益的計(jì)算方式有助于了解累積提升和累積增益圖,如圖2所示。



獲得預(yù)測(cè)結(jié)果

使用測(cè)試數(shù)據(jù)評(píng)估了模型性能后,用戶可以選擇針對(duì)問題的最佳模型,并用它來預(yù)測(cè)應(yīng)用數(shù)據(jù)集的目標(biāo)值。有些算法可能在最終模型中使用輸入屬性的一個(gè)子集。這個(gè)屬性子集稱為模型特征(model signature),它可以從模型中獲取,確定應(yīng)用模型需要哪些屬性。

本文利用簡單的決策樹模型來演示模型應(yīng)用操作。該模型有三個(gè)輸入屬性:年齡、資本收益和平均儲(chǔ)蓄余額,如上文B23版表2所示。模型只用了其中的兩個(gè)屬性:年齡和平均儲(chǔ)蓄余額,如圖3所示。這兩個(gè)屬性構(gòu)成了模型特征。因而,要使用這個(gè)模型,該模型的應(yīng)用數(shù)據(jù)集只需要包含有年齡和平均儲(chǔ)蓄余額兩個(gè)屬性值的實(shí)例。要了解應(yīng)用過程,不妨考慮有兩個(gè)客戶實(shí)例:客戶Jones和Smith的應(yīng)用數(shù)據(jù)集,如表2所示。



分類應(yīng)用操作可以使用各種內(nèi)容來生成預(yù)測(cè)結(jié)果,譬如預(yù)測(cè)類別、概率、成本。在JDM中,可通過各種形式顯示應(yīng)用預(yù)測(cè)結(jié)果,譬如頂層預(yù)測(cè)細(xì)節(jié)、頂節(jié)點(diǎn)或底節(jié)點(diǎn)預(yù)測(cè)等。預(yù)測(cè)結(jié)果的選擇取決于問題需求以及用戶想看到的信息類型。在本例中,我們生成了頂層預(yù)測(cè)值及對(duì)應(yīng)的概率和成本,以確認(rèn)流失客戶。

即使將模型應(yīng)用到數(shù)據(jù)集上很常見,但如果客戶屬性發(fā)生變化,預(yù)測(cè)和概率可能會(huì)隨之變化。譬如說,如果客戶打電話給銀行要求把大筆資金從儲(chǔ)蓄賬戶轉(zhuǎn)到另一家銀行,呼叫中心的應(yīng)用系統(tǒng)就會(huì)顯示預(yù)先計(jì)算的預(yù)測(cè),表明該客戶可能會(huì)流失。這基于客戶的前一個(gè)賬戶余額。如果轉(zhuǎn)賬,這可能會(huì)改變模型對(duì)該客戶的預(yù)測(cè)。因此,根據(jù)最新數(shù)據(jù)實(shí)時(shí)重新評(píng)估客戶很有用。這可以使用JDM的單記錄應(yīng)用功能就可以實(shí)現(xiàn),旨在提供實(shí)時(shí)響應(yīng)機(jī)制。 (ccw)

發(fā)布:2007-04-22 09:22    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
西安OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普西安OA快博其他應(yīng)用

西安OA軟件 西安OA新聞動(dòng)態(tài) 西安OA信息化 西安OA快博 西安OA行業(yè)資訊 西安軟件開發(fā)公司 西安門禁系統(tǒng) 西安物業(yè)管理軟件 西安倉庫管理軟件 西安餐飲管理軟件 西安網(wǎng)站建設(shè)公司