數據挖掘的認識誤區(qū)
對于普通人來說,數據挖掘可能是一個神秘的過程。沒有經驗的企業(yè)實施數據挖掘項目時,錯誤的認識往往成為項目成功開展的重要障礙。因此及時矯正這些錯誤的認識也成為項目實施前一個重要的任務。
數據挖掘的所有內容是關于算法
一談到算法就會想到通過歷史數據建立模型,數據挖掘算法是創(chuàng)建挖掘模型的機制,對產生的最終挖掘輸出結果有很大的決定性。隨著數據挖掘新技術的層出不窮和商業(yè)數據挖掘產品的成熟與完善。對同一商業(yè)問題,通常在產品中有多種算法可供選擇,而為特定的任務選擇正確的算法很有挑戰(zhàn)性。
您可以使用不同的算法來執(zhí)行同樣的業(yè)務任務,每個算法會生成不同的結果。而且算法可以進行復合使用,在一個數據挖掘解決方案中可以使用一些算法來探析數據,而使用其他算法基于該數據預測特定結果。例如,可以使用聚類分析算法來識別模式,將數據細分成多少有點相似的組,然后使用分組結果來創(chuàng)建更好的決策數模型。
也可以在一個解決方案中使用多個算法來執(zhí)行不同的任務,例如,使用回歸樹算法來獲取財務預測信息,使用基于規(guī)則的算法來執(zhí)行市場籃子分析。
由此看出在數據挖掘項目中,在明確挖掘目標和了解各種算法特點后,如何正確選擇使用算法,得到期望的結果才是關鍵環(huán)節(jié)。
在數據挖掘項目實施的過程中,業(yè)界有一個公認的方法論CRISP-DM(Cross Industry Standard Process for Data Ming,跨行業(yè)數據挖掘標準流程),從名稱上可以看到,此模型的定義比較通用,能夠應用于不同的行業(yè)解決業(yè)務問題。
CRISP-DM流程模型包括了六個步驟,涵蓋了數據挖掘的整個過程,它們是:商業(yè)理解、數據理解、數據準備、建立模型、模型評估、模型部署。
在這六個步驟中,應用數據挖掘算法的過程主要集中在建立模型階段,很顯然算法不是數據挖掘的所有內容。建模所使用的數據準備得如何,很大程度上決定了數據挖掘項目的成敗。
因此,在一個成功的數據挖掘項目中,60%-80%的時間都是集中在商業(yè)理解、數據理解、數據準備階段。此外,在數據挖掘項目中,特別強調數據挖掘算法和實際業(yè)務的緊密結合,否則數據挖掘很可能會出現“垃圾進,垃圾出”(garbage in garbage out)的現象。
數據挖掘項目中,檢驗模型的唯一標準是預測精確度
模型的預測精確度是檢驗模型好壞的一個重要指標,但不是唯一指標。一個良好的數據挖掘模型,在投入實際應用前,需要經過多方面的評估,從而確定它完全地達到了商業(yè)目標。評估數據挖掘模型優(yōu)劣的指標有許多,比如精確度、LIFT、ROC、Gain圖等。
精確度是最基本和最簡單的指標。但是要讓用戶接受一個模型的結果,僅靠這些評估指標卻是不夠的,還需要從模型結果的可用性上進一步闡述,即數據挖掘模型到底能帶來什么業(yè)務上的價值。這實際上也就是數據挖掘模型的可解釋性。在實際數據挖掘項目中,模型的可解釋性往往比評估指標更為重要。
在對模型進行評估時,既要參照評估標準,同時也要考慮到商業(yè)目標和商業(yè)成功的標準。片面的追求預測正確率就會忽視了數據挖掘的初衷。我們不是為了建立一個完美的數學模型而進行挖掘,而是為了解決實際商業(yè)問題。所以挖掘產生結果的可解釋性與實用性,才是最根本的標準。例如在解決客戶流失問題中,預測模型捕捉越多的流失客戶,不一定就代表能夠協助挽留較多的客戶。關鍵在于預測結果對挽留營銷活動的制定有多大的幫助。
數據挖掘一定需要數據倉庫
從定義上講,數據挖掘(Data Mining),又稱為數據庫中的知識發(fā)現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或“挖掘”知識。
良好的數據源是數據挖掘成功的重要保證,所以說數據挖掘需要有自己的數據集市,因為通常數據倉庫主要是為決策支持系統而建立的,數據在ETL過程中會有可能損失一些對數據挖掘有用的信息。
特別是在數據規(guī)約階段,針對數據集進行匹配,發(fā)現重復異常,根據匹配結果進行處理,刪除部分記錄或者將多個記錄合并為一個更完整信息的記錄的過程,對數據挖掘來講很可能是隱含信息丟失的過程。重復的記錄對決策支持系統可能沒有用處,但對數據挖掘來講可能是挖掘出隱含模式的重要來源。
數據挖掘應由技術專家來完成
數據挖掘作為利用企業(yè)大量數據發(fā)現規(guī)律規(guī)則并在企業(yè)經營活動中應用從而產生商業(yè)價值的一個商業(yè)應用過程,是由多方面的要素構成的。
其中,非常重要的一部分就是要有高素質的數據挖掘人員,這些人員包括:了解數據的人,例如數據庫管理員,對數據的存儲位置非常清楚;了解業(yè)務的人,能夠及時提出問題,并協助分析員把商業(yè)問題轉化稱為數據挖掘問題,理解數據挖掘結果,并能夠把數據挖掘結果轉化為企業(yè)的實際商業(yè)行動創(chuàng)造價值;分析人員,需要了解數據挖掘的算法和功能,熟練使用相關數據挖掘軟件產品,能夠和業(yè)務人員一起把商業(yè)問題轉化為數據挖掘問題并解決數據挖掘問題。
因此,成功的數據挖掘項目是由業(yè)務專家和技術專家共同完成的。優(yōu)秀的數據挖掘工具應該有利于業(yè)務專家也參與到數據挖掘項目中。只有將業(yè)務知識融入到數據挖掘項目中,才能使數據挖掘的結果真正為商業(yè)應用服務。
需要海量的數據
在數據挖掘過程中,最初設定的商業(yè)目標很容易淹沒在海量數據中,在項目進行中,應始終明確需解決的商業(yè)問題,確保項目結果的最終完成。如果你只是在沒有項目計劃的情況下簡單的開始分析一堆數據,將會很容易迷失在數據里而且浪費時間。
不要讓項目被大量數據單純驅動,集中精力在商業(yè)目標上。你可能不需要使用系統中的所有數據,僅僅使用和項目相關的數據就可以了。
確保數據挖掘項目的成功實施
糾正了認識的誤區(qū),那我們接下來該如何實施呢?前文提到的CRISP-DM方法論是一個很好的方法。
以終為始
為了能在項目終結時得到期望的ROI,你應該在項目啟動前已經確定了如何評估最終的結果的標準(例如:使用什么樣的商業(yè)考核指標,它們是被如何計算或派生的)。
設定期望值
確保項目投資者明白數據挖掘不是解決商業(yè)問題的魔術棒。數據挖掘是借助計算機技術輔助解決商業(yè)問題的一種方法。就像任何商業(yè)問題,投資者需要首先提出可解決的問題,然后找尋方案。
例如你計劃為公司市場部做客戶細分,那么應該與市場部的同事一起明確什么樣的結果是最終希望得到的,例如:“我們使用產品信息和人口統計數據,所以希望得到基于客戶的收入、年齡等信息的細分,這樣能顯示不同層次客戶對產品的喜好”。
限定最初的項目范圍
以現實可行的目標和日程表為開始,當你獲得成功后,再轉向更復雜的項目。例如與其試圖立刻提高新客戶的獲取值,還不是集中精力在小的更實際的目標如對某一區(qū)域進行交叉銷售,客戶保留項目。
確保團隊合作
數據挖掘項目是一個團隊工作。數據挖掘需要商業(yè)使用者理解實際問題和數據,也需要數據分析家提供分析解決方案,以及數據庫管理者提供權限。而他們往往來自不同的部門,有著不同的利益訴求,所以找到可行的合作方式是很重要的。
避免陷入數據垃圾
在項目進行中,始終明確需要解決的商業(yè)問題,確保項目結果的最終完成。如果你只是在沒有項目計劃的情況下簡單的開始分析一堆數據,你將會很容易迷失在數據里而且浪費時間。不要讓項目被大量數據單純驅動,集中精力在商業(yè)目標上。你可能不需要使用系統中的所有數據,僅僅使用和項目相關的數據就可以了。你甚至可能會發(fā)現現有的數據不能足以解決現實的商業(yè)問題。即使海量數據也不能保證你就擁有準確的用于建模的數據.例如,使用最新的信息進行預測客戶行為往往比用大量的歷史數據準確。
(chinabi)
CRISP-DM方法
- 1貴陽泛普OA辦公軟件的基本特點介紹
- 2家樂福財務績效管理平臺 掌握營銷脈動
- 3公司OA系統的流程參數設置注意事項
- 4中小企業(yè)SaaS需示范帶動
- 5防范SaaS模式下電子財務的風險
- 6貴陽市有做OA軟件的公司嗎?
- 7ERP的實施文檔制作
- 8ERP不能脫離流程變革
- 92008年度IT界最值得關注的商業(yè)模式
- 10中小企業(yè)用ISO20000還是ITIL
- 11企業(yè)信息化面臨由總體規(guī)劃到能力規(guī)劃的飛躍
- 12IT規(guī)劃和行醫(yī)看病
- 132008年SOA五大趨勢
- 14診斷中小企業(yè)軟件項目管理
- 15硬件供應商開拓IT服務市場應主攻中小企業(yè)
- 16BPR賣拐
- 17中央紅打造現代生活供應鏈
- 18SOA會不會造成IT黑洞
- 19貴陽做系統開發(fā),OA辦公,ERP系統哪家公司好?
- 20ITIL風生水起
- 21棄通用型擇個性型e-HR選型有訣竅
- 22SOA巧解傳統IT架構復雜之痛
- 23試析中小型軟件企業(yè)的成本控制
- 24七審網管軟件開發(fā)設計
- 25當前我國CRM市場分析
- 26外包之道
- 27eHR顧問必須看透客戶是否到了項目啟動時機?
- 28貴陽泛普OA軟件創(chuàng)建CIO群的宗旨和理念
- 29ERP選型班子的組建
- 30ITIL到底是什么?
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓