關于DM的幾點體會

來源：泛普軟件

1、挖掘工具主要分商業(yè)數據產品和集成數據挖掘產品兩類：商業(yè)數據挖掘產品具有代表性的SPSS Clementine，SAS Enterprise Miner,IBM Intelligent Miner；SQL Server2005屬于集成了挖掘模型類的，挖掘算法與SQL數據庫產品密不可分，你甚至可以把自己實現的數據挖掘算法跟SQL進行集成，Oracle也類似，DB2的BI功能沒怎么用，不是很清楚。

2、數據挖掘過程的重點絕對是數據預處理，一般認為預處理工作會占60%-80%時間不等，為什么預處理會如此重要，大家都知道garbage in garbage out的道理，這在整個BI領域都是成立的。商業(yè)智能-既然提到智能層面，那就不只是展現，還要做分析和預測（不過現階段很多BI項目確實只是在做展現，最多加點多維分析）。BI概念提出之初就是輔助戰(zhàn)略決策的產物，當然向操作型BI發(fā)展的趨勢這里不做過多介紹，經驗告訴我們戰(zhàn)略決策是基于歷史和別人現成經驗的，怎樣從歷史數據的展現和分析過程中得到有用知識，不管你是通過報表或多維分析得到企業(yè)各領域指標相關性，還是通過挖掘模型的實施來根據歷史數據預測企業(yè)未來發(fā)展，這一切都是基于企業(yè)歷史數據的。沒有數據質量基礎的保證，展現得多華麗的走勢圖表都是垃圾。

（1）如果是基于數據倉庫或者數據集市的挖掘，那么可直接在倉庫或者數據集市中建立挖掘模型源輸入（也可叫臨時寬表，這個表是根據挖掘業(yè)務需求對其他維度表屬性的一個綜合提取，合適的時間窗口在這里是個要考慮的關鍵因素）；如果是沒有倉庫或集市這一數據基礎，那么就需要一個針對挖掘業(yè)務需求字段屬性的簡單ETL過程了。

（2）上面只是挖掘源數據的建立，接下來才進入數據預處理的核心階段，由于源數據（臨時寬表）里面很多數據是有偏差的，比如空值，錯誤值，異常值等...這就需要根據每個業(yè)務字段屬性的規(guī)范標準來進行處理，這步是一個繁雜的工程，數據預處理技術各式各樣，比較有代表性的有數據清理、數據集成、數據變換、數據歸約、離散化和概念分層等等；而且針對不同字段數據特征，不同的數據處理技術往往會導致挖掘的結果差異。雖然商業(yè)數據挖掘產品都提供了常用的數據預處理技術，但要用好，除了需要一些統(tǒng)計學，數據分布等知識外，對該字段對應的業(yè)務理解和挖掘過程的數據預處理方法差異的經驗積累才是關鍵因素。就拿屬性歸約來將，很多挖掘產品有因子分析工具，貌似可以自動對所有屬性字段做一個挖掘相關重要性因素從大大小的排序，但這也不能全信，畢竟工具是死的，它只能從數據本身的數理特征去理解和自動分析，例如有些業(yè)務字段可能數據分布的特征不符合因子分析的重要性條件，但對該數據挖掘模型貢獻確是很大的。這樣的情況雖說不多，卻是值得注意的地方。

3、經過上面兩步，挖掘模型數據輸入算是初步建立起來了。接下來需要對所應用的挖掘模型有個初步理解，有朋友贊成挖掘模型是“黑匣子”的觀點，有朋友贊成需要對挖掘模型的專業(yè)理解。我保持中庸的觀點：如果不是做算法研究的朋友，只是做挖掘模型應用，卻需要對挖掘模型算法有專業(yè)理解是不現實的，畢竟公司講的效益和效率，不像是在實驗室，有的是時間讓你查資料，折騰進而對模型有個深入全面的理解；但完全黑匣子也是不妥的，一個對該挖掘模型完全不理解的人，指望能利用該模型挖掘出有用知識是不可能的。一是他不可能對挖掘結果有很好的理解；二是參數的調整是最大障礙，挖掘過程本來就是迭代過程，對算法完全不了解的參數設置亂設一通就指望得出較優(yōu)模型更是天方夜潭。個人認為對挖掘模型大致原理是有必要了解的，再就是每個參數的范圍及所代表的意義和對模型所起作用也是需要了解的。

4、數據規(guī)模也是個關鍵因素，訓練數據，測試數據，驗證數據？訓練數據是選連續(xù)五個月加起來10萬條記錄，還是選連續(xù)三個月加起來6萬條記錄；測試數據是選兩個月加起來2萬條記錄還是只選一個月？如果一個月數據就有幾十萬條記錄，那么采取那種方式抽取幾萬條記錄，是隨機取還是寫個簡單選擇算法？10萬條記錄挖掘模型跑了一晚上才出來結果，用5萬條記錄跑出來效果跟用10萬條記錄的差異大不大？抽取幾千條記錄完全可以用統(tǒng)計模型實現，為什么還要抽取上萬記錄用復雜的挖掘模型呢？這些因素很難說有個統(tǒng)一標準，相信很多人還是相信自己的經驗多一點，像我等菜鳥們也只能指望經驗豐富的老鳥們多出幾本數據挖掘指南了。

5、不管是需求分析還是挖掘模型的評估及應用，和業(yè)務人員和決策者們的充分溝通交流是完全必要的。閉們造車的數據挖掘模型是脆弱的...(AMT)

發(fā)布：2007-04-23 10:42 編輯：泛普軟件 · xiaona [打印此頁] [關閉]

相關欄目：

上一篇：從＂失敗產品博物館＂看＂需求管理＂

下一篇：IT項目失敗的告警信號

鄭州OA系統(tǒng)

聯系方式

成都公司：成都市成華區(qū)建設南路160號1層9號

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢：400-8352-114

加微信，免費獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

關于DM的幾點體會

泛普鄭州OA快博其他應用