監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

關(guān)于DM的幾點(diǎn)體會

申請免費(fèi)試用、咨詢電話:400-8352-114

來源:泛普軟件

1、挖掘工具主要分商業(yè)數(shù)據(jù)產(chǎn)品和集成數(shù)據(jù)挖掘產(chǎn)品兩類:商業(yè)數(shù)據(jù)挖掘產(chǎn)品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005屬于集成了挖掘模型類的,挖掘算法與SQL數(shù)據(jù)庫產(chǎn)品密不可分,你甚至可以把自己實(shí)現(xiàn)的數(shù)據(jù)挖掘算法跟SQL進(jìn)行集成,Oracle也類似,DB2的BI功能沒怎么用,不是很清楚。

2、數(shù)據(jù)挖掘過程的重點(diǎn)絕對是數(shù)據(jù)預(yù)處理,一般認(rèn)為預(yù)處理工作會占60%-80%時間不等,為什么預(yù)處理會如此重要,大家都知道garbage in garbage out的道理,這在整個BI領(lǐng)域都是成立的。商業(yè)智能-既然提到智能層面,那就不只是展現(xiàn),還要做分析和預(yù)測(不過現(xiàn)階段很多BI項(xiàng)目確實(shí)只是在做展現(xiàn),最多加點(diǎn)多維分析)。BI概念提出之初就是輔助戰(zhàn)略決策的產(chǎn)物,當(dāng)然向操作型BI發(fā)展的趨勢這里不做過多介紹,經(jīng)驗(yàn)告訴我們戰(zhàn)略決策是基于歷史和別人現(xiàn)成經(jīng)驗(yàn)的,怎樣從歷史數(shù)據(jù)的展現(xiàn)和分析過程中得到有用知識,不管你是通過報表或多維分析得到企業(yè)各領(lǐng)域指標(biāo)相關(guān)性,還是通過挖掘模型的實(shí)施來根據(jù)歷史數(shù)據(jù)預(yù)測企業(yè)未來發(fā)展,這一切都是基于企業(yè)歷史數(shù)據(jù)的。沒有數(shù)據(jù)質(zhì)量基礎(chǔ)的保證,展現(xiàn)得多華麗的走勢圖表都是垃圾。

(1)如果是基于數(shù)據(jù)倉庫或者數(shù)據(jù)集市的挖掘,那么可直接在倉庫或者數(shù)據(jù)集市中建立挖掘模型源輸入(也可叫臨時寬表,這個表是根據(jù)挖掘業(yè)務(wù)需求對其他維度表屬性的一個綜合提取,合適的時間窗口在這里是個要考慮的關(guān)鍵因素);如果是沒有倉庫或集市這一數(shù)據(jù)基礎(chǔ),那么就需要一個針對挖掘業(yè)務(wù)需求字段屬性的簡單ETL過程了。

(2)上面只是挖掘源數(shù)據(jù)的建立,接下來才進(jìn)入數(shù)據(jù)預(yù)處理的核心階段,由于源數(shù)據(jù)(臨時寬表)里面很多數(shù)據(jù)是有偏差的,比如空值,錯誤值,異常值等...這就需要根據(jù)每個業(yè)務(wù)字段屬性的規(guī)范標(biāo)準(zhǔn)來進(jìn)行處理,這步是一個繁雜的工程,數(shù)據(jù)預(yù)處理技術(shù)各式各樣,比較有代表性的有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約、離散化和概念分層等等;而且針對不同字段數(shù)據(jù)特征,不同的數(shù)據(jù)處理技術(shù)往往會導(dǎo)致挖掘的結(jié)果差異。雖然商業(yè)數(shù)據(jù)挖掘產(chǎn)品都提供了常用的數(shù)據(jù)預(yù)處理技術(shù),但要用好,除了需要一些統(tǒng)計(jì)學(xué),數(shù)據(jù)分布等知識外,對該字段對應(yīng)的業(yè)務(wù)理解和挖掘過程的數(shù)據(jù)預(yù)處理方法差異的經(jīng)驗(yàn)積累才是關(guān)鍵因素。就拿屬性歸約來將,很多挖掘產(chǎn)品有因子分析工具,貌似可以自動對所有屬性字段做一個挖掘相關(guān)重要性因素從大大小的排序,但這也不能全信,畢竟工具是死的,它只能從數(shù)據(jù)本身的數(shù)理特征去理解和自動分析,例如有些業(yè)務(wù)字段可能數(shù)據(jù)分布的特征不符合因子分析的重要性條件,但對該數(shù)據(jù)挖掘模型貢獻(xiàn)確是很大的。這樣的情況雖說不多,卻是值得注意的地方。

3、經(jīng)過上面兩步,挖掘模型數(shù)據(jù)輸入算是初步建立起來了。接下來需要對所應(yīng)用的挖掘模型有個初步理解,有朋友贊成挖掘模型是“黑匣子”的觀點(diǎn),有朋友贊成需要對挖掘模型的專業(yè)理解。我保持中庸的觀點(diǎn):如果不是做算法研究的朋友,只是做挖掘模型應(yīng)用,卻需要對挖掘模型算法有專業(yè)理解是不現(xiàn)實(shí)的,畢竟公司講的效益和效率,不像是在實(shí)驗(yàn)室,有的是時間讓你查資料,折騰進(jìn)而對模型有個深入全面的理解;但完全黑匣子也是不妥的,一個對該挖掘模型完全不理解的人,指望能利用該模型挖掘出有用知識是不可能的。一是他不可能對挖掘結(jié)果有很好的理解;二是參數(shù)的調(diào)整是最大障礙,挖掘過程本來就是迭代過程,對算法完全不了解的參數(shù)設(shè)置亂設(shè)一通就指望得出較優(yōu)模型更是天方夜潭。個人認(rèn)為對挖掘模型大致原理是有必要了解的,再就是每個參數(shù)的范圍及所代表的意義和對模型所起作用也是需要了解的。

4、數(shù)據(jù)規(guī)模也是個關(guān)鍵因素,訓(xùn)練數(shù)據(jù),測試數(shù)據(jù),驗(yàn)證數(shù)據(jù)?訓(xùn)練數(shù)據(jù)是選連續(xù)五個月加起來10萬條記錄,還是選連續(xù)三個月加起來6萬條記錄;測試數(shù)據(jù)是選兩個月加起來2萬條記錄還是只選一個月?如果一個月數(shù)據(jù)就有幾十萬條記錄,那么采取那種方式抽取幾萬條記錄,是隨機(jī)取還是寫個簡單選擇算法?10萬條記錄挖掘模型跑了一晚上才出來結(jié)果,用5萬條記錄跑出來效果跟用10萬條記錄的差異大不大?抽取幾千條記錄完全可以用統(tǒng)計(jì)模型實(shí)現(xiàn),為什么還要抽取上萬記錄用復(fù)雜的挖掘模型呢?這些因素很難說有個統(tǒng)一標(biāo)準(zhǔn),相信很多人還是相信自己的經(jīng)驗(yàn)多一點(diǎn),像我等菜鳥們也只能指望經(jīng)驗(yàn)豐富的老鳥們多出幾本數(shù)據(jù)挖掘指南了。

5、不管是需求分析還是挖掘模型的評估及應(yīng)用,和業(yè)務(wù)人員和決策者們的充分溝通交流是完全必要的。閉們造車的數(shù)據(jù)挖掘模型是脆弱的...(AMT)

發(fā)布:2007-04-23 10:42    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
鄭州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普鄭州OA快博其他應(yīng)用

鄭州OA軟件 鄭州OA新聞動態(tài) 鄭州OA信息化 鄭州OA快博 鄭州OA行業(yè)資訊 鄭州軟件開發(fā)公司 鄭州監(jiān)控公司 鄭州倉庫管理軟件 鄭州餐飲管理軟件 鄭州物業(yè)管理軟件 鄭州網(wǎng)站建設(shè)公司 鄭州門禁系統(tǒng)