當前位置:工程項目OA系統(tǒng) > 泛普各地 > 黑龍江OA系統(tǒng) > 哈爾濱OA系統(tǒng) > 哈爾濱OA快博
數(shù)據(jù)挖掘技術及其應用現(xiàn)狀
近十幾年,隨著科學技術飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,在各個領域產(chǎn)生了大量的數(shù)據(jù),如人類對太空的探索,銀行每天的巨額交易數(shù)據(jù)。顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進行了有益的探索。計算機技術的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動了數(shù)據(jù)庫技術的極大發(fā)展,但是面對不斷增加如潮水般的數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫的查詢功能,提出了深層次問題:能不能從數(shù)據(jù)中提取信息或者知識為決策服務。就數(shù)據(jù)庫技術而言已經(jīng)顯得無能為力了,同樣,傳統(tǒng)的統(tǒng)計技術也面臨了極大的挑戰(zhàn)。這就急需有新的方法來處理這些海量般的數(shù)據(jù)。于是,人們結合統(tǒng)計學、數(shù)據(jù)庫、機器學習等技術,提出數(shù)據(jù)挖掘來解決這一難題。
數(shù)據(jù)挖掘的含義和作用
數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀90年代以來,它的發(fā)展速度很快,加之它是多學科綜合的產(chǎn)物,目前還沒有一個完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:
SAS研究所(1997):“在大量相關數(shù)據(jù)基礎之上進行數(shù)據(jù)探索和建立相關模型的先進方法”。
Bhavani(1999):“使用模式識別技術、統(tǒng)計和數(shù)學技術,在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關系、模式和趨勢的過程”。
Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。
我們認為:數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的,支持決策,可以為企業(yè)帶來利益,或者為科學研究尋找突破口。
現(xiàn)今資料流通量之巨大已到了令人咂舌地步,就實際限制而言,便遇到了諸如巨量的紀錄,高維的資料增加的傳統(tǒng)分析技術上的困難,搜集到的資料僅有5%至10%用來分析,以及資料搜集過程中并不探討特性等問題,這就讓我們不得不利用Data Mining技術。
數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下:
1. 分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應的貸款方案。
2. 聚類:識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。
3. 關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯(lián)的支持度和可信度來描述。與關聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。
4. 預測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預見。例如:對未來經(jīng)濟發(fā)展的判斷。
5. 偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風險。
需要注意的是:數(shù)據(jù)挖掘的各項功能不是獨立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
數(shù)據(jù)挖掘的方法及工具
作為一門處理數(shù)據(jù)的新興技術,數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,維數(shù)大。最后,數(shù)據(jù)挖掘是許多學科的交叉,運用了統(tǒng)計學,計算機,數(shù)學等學科的技術。以下是常見和應用最廣泛的算法和模型:
(1) 傳統(tǒng)統(tǒng)計方法:① 抽樣技術:我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,就要在理論的指導下進行合理的抽樣。② 多元統(tǒng)計分析:因子分析,聚類分析等。③ 統(tǒng)計預測方法,如回歸分析,時間序列分析等。
(2) 可視化技術:用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運用的許多描述統(tǒng)計的方法??梢暬夹g面對的一個難題是高維數(shù)據(jù)的可視化。
(3) 決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于分類和預測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
(4) 神經(jīng)網(wǎng)絡:模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進行調(diào)整,計算,最后得到結果,用于分類和回歸。
(5) 遺傳算法:基于自然進化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術。
(6) 關聯(lián)規(guī)則挖掘算法:關聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關系的規(guī)則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個步驟:① 求出大數(shù)據(jù)項集。② 用大數(shù)據(jù)項集產(chǎn)生關聯(lián)規(guī)則。
除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords ,最鄰近算法(k-nearest neighbors method(kNN))等。
由于數(shù)據(jù)挖掘一開始就是面向應用的,是為決策服務,而決策者又不一定具備太多的技術的知識,現(xiàn)許多公司和研究機構開發(fā)了一系列的工具用于數(shù)據(jù)挖掘,見表1
表1 常用數(shù)據(jù)挖掘工具及其比較
公司名 | 產(chǎn)品名 | NN | DT | B | kM | kNN | S | Pred | TS | C | A | W32 | U | P | A-S | SQL |
Angoss International Ltd. | KnowledgeSEEKER | Yes | Yes | Yes | Yes | Yes | ||||||||||
Knowledge STUDIO | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||||
Business Objects | Business Miner | Yes | Yes | |||||||||||||
Cognos Incorporated | 4Thought | Yes | Yes | Yes | Yes | |||||||||||
Scenario | Yes | Yes | ||||||||||||||
HNC Software | DataBase Mining Marksman | Yes | Yes | Yes | Yes | Yes | ||||||||||
Informix Software Inc. | Red Brick Data Mine | Yes | Yes | Yes | Yes | Yes | ||||||||||
International Business Machines | Intelligent Miner | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||
Accrue Software | Decision Series | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||||
NeuralWare | NeuralSIM | Yes | Yes | Yes | ||||||||||||
Oracle Corp. | Darwin | Yes | Yes | Yes | Yes | Yes | Yes | |||||||||
RightPoint Software | DataCruncher | Yes | Yes | Yes | Yes | |||||||||||
Salford Systems | CART | Yes | Yes | Yes | Yes | |||||||||||
SAS Institute | Enterprise Miner | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||||
SGI | MineSet | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | |||||
SPSS, Inc. | Answer Tree | Yes | Yes | Yes | Yes | Yes | ||||||||||
Clementine | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||||||
Neural Connection | Yes | Yes | Yes | Yes | Yes | |||||||||||
Tandem Computers Incorporated | Object- Relational Technology | Yes | Yes | Yes | ||||||||||||
Unica Technology | Pattern Recognition Workbench | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | ||||||
Model 1 | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes |
說明:NN=Neural Net(神經(jīng)網(wǎng)絡); DT=Decision Tree(決策樹);B=Bayes(貝葉斯方法); kM=k-Means(動態(tài)聚類); kNN=k-Nearest Neighbor(最鄰近算法); S=Traditional Statistical Techniques(傳統(tǒng)統(tǒng)計技術); P=Prediction(預測); TS=Time Series(時間序列); C=Clustering(聚類方法); A=Association(關聯(lián)方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions
三、數(shù)據(jù)挖掘的實施步驟
前面我們討論了數(shù)據(jù)挖掘的定義,方法和工具,現(xiàn)在關鍵的問題是如何實施,其一般的步驟如下:
問題理解和提出 —> 數(shù)據(jù)準備 —> 數(shù)據(jù)整理 —> 建立模型 —> 評價和解釋
1. 問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎的就是理解數(shù)據(jù)和實際的業(yè)務問題,在這個基礎之上提出問題,對目標有明確的定義。
2. 數(shù)據(jù)準備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。
3. 數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關的變量,或者轉(zhuǎn)變變量。
4. 建立模型:根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的模型。
5. 評價和解釋:對數(shù)據(jù)挖掘的結果進行評價,選擇最優(yōu)的模型,作出評價,運用于實際問題,并且要和專業(yè)知識結合對結果進行解釋。
以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復進行。
許多研究結構和公司結合自己的數(shù)據(jù)挖掘軟件,提出數(shù)據(jù)挖掘過程模型,值得借鑒的是SAS研究所和SPSS公司提出的方案。
SAS研究所認為數(shù)據(jù)挖掘是對數(shù)據(jù)進行選擇,探索,調(diào)整和建模來揭示數(shù)據(jù)中未知的模式,開發(fā)了圖形界面的SAS/EM來進行數(shù)據(jù)挖掘:
(1)Sample —— 抽樣:從大量的數(shù)據(jù)中抽取與探索問題有關的數(shù)據(jù)子集,這個樣本應該包含足夠的信息,又易于處理。
(2)Explore —— 探索:對數(shù)據(jù)子集進行探索,尋找出與期望的關系和未知的模式
(3)Modify —— 調(diào)整:對數(shù)據(jù)進行探索后,有了初步的了解,就必須對數(shù)據(jù)進行增減,選擇,轉(zhuǎn)化,量化,保證有效進行
(4)Model —— 建模:應用分析工具,建立模型,進行預測
(5)Assess —— 評價:評價數(shù)據(jù)挖掘結果的有效性和可靠性
SPSS公司提出了5A的模型,進行數(shù)據(jù)挖掘,認為任何數(shù)據(jù)挖掘方法學都由5個基本元素組成:
(1)Assess —— 正確、徹底的了解業(yè)務需求及數(shù)據(jù)
(2)Access —— 獲取數(shù)據(jù),做適當?shù)恼{(diào)整
(3)Analyze —— 選擇適當?shù)姆治?、驗證方法和工具
(4)Act —— 推薦性、有說服力的原型演示
(5)Automate —— 提供優(yōu)秀的自動化軟件。
四、數(shù)據(jù)挖掘應用現(xiàn)狀
數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結構,作為企業(yè)進行決策的依據(jù)。其應用非常廣泛,只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用Mining工具進行有目的的發(fā)掘分析。常見的應用案例多發(fā)生在零售業(yè)、制造業(yè)、財務金融保險、通訊及醫(yī)療服務:
(1)商從顧客購買商品中發(fā)現(xiàn)一定的關系,提供打折購物券等,提高銷售額
(2)保險公司通過數(shù)據(jù)挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤
(3)在制造業(yè)中,半導體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù),就必須對這些數(shù)據(jù)進行分析,找出存在的問題,提高質(zhì)量
(4)電子商務的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優(yōu)化網(wǎng)站設計
一些公司運用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù)挖掘的強大生命力:
美國AutoTrader.com是世界上對大的汽車銷售站點,每天都會有大量的用戶對網(wǎng)站上的信息點擊,尋求信息,其運用了SAS軟件進行數(shù)據(jù)挖掘,每天對數(shù)據(jù)進行分析,找出用戶的訪問模式,對產(chǎn)品的喜歡程度進行判斷,并設特定服務娶,取得了成功。
Reuteres是世界著名的金融信息服務公司,其利用的數(shù)據(jù)大都是外部的數(shù)據(jù),這樣數(shù)據(jù)的質(zhì)量就是公司生存的關鍵所在,必須從數(shù)據(jù)中檢測出錯誤的成分。Reuteres用SPSS的數(shù)據(jù)挖掘工具SPSS/Clementine,建立數(shù)據(jù)挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權威性。
Bass Export是世界最大的啤酒進出口商之一,在海外80多個市場從事交易,每個星期傳送23000份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解決了上述問題。
五、數(shù)據(jù)挖掘中存在的問題
盡管數(shù)據(jù)挖掘有如此多的優(yōu)點,但數(shù)據(jù)挖掘也面臨著許多的問題,這也為數(shù)據(jù)挖掘的未來的發(fā)展提供了更大的空間。
1. 數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結構也因此顯的非常復雜,如何進行探索,選擇分析變量,也就成為首先要解決的問題。
2. 面對如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題,我們直接的想法就是對數(shù)據(jù)進行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是值得研究的難題。
3. 既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個趨勢做應有的考慮和評價。
4. 各種不同的模型如何應用,其效果如何評價。不同的人對同樣的數(shù)據(jù)進行挖掘,可能產(chǎn)生不同的結果,甚至差異很大,這就涉及到可靠性的問題。
5. 當前互聯(lián)網(wǎng)的發(fā)展迅速,如何進行互聯(lián)網(wǎng)的的數(shù)據(jù)挖掘,還有文本等非標準數(shù)據(jù)的挖掘,都引起了極大的興趣。
6. 數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和安全性。
7. 數(shù)據(jù)挖掘的結果是不確定的,要和專業(yè)知識相結合才能對其做出判斷。
總之,數(shù)據(jù)挖掘只是一個工具,不是萬能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實。數(shù)據(jù)挖掘的成功要求對期望解決問題的領域有深刻的了解,理解數(shù)據(jù),了解其過程,才能對數(shù)據(jù)挖掘的結果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤酒和尿布的例子,如何去解釋這種現(xiàn)象,是應該將兩者放在一起還是分開銷售,這還需要對消費心理學有所研究才能做出決定,而不是數(shù)據(jù)挖掘能力所及的了。
來源:情報官世界
- 1決策之險與決策之難
- 2供應鏈的彌補計劃與執(zhí)行的缺口
- 3開源數(shù)據(jù)庫10%的投入實現(xiàn)90%的理想
- 4并行工程集成框架
- 5大型企業(yè)可以從小型企業(yè)學到什么?
- 6如何提高員工企業(yè)信息安全意識
- 7KM實踐:啟明星辰KPI指標各有側重
- 8用供應鏈技術實現(xiàn)企業(yè)內(nèi)部信息流動
- 9APS算法之六禁忌搜索TS(上)
- 10SAP/R3模塊概述:生產(chǎn)計劃和控制
- 11MIS失敗的原因及防止措施
- 12SOHO網(wǎng)絡建設需求與應用分析
- 13協(xié)同辦公OA軟件的招標形式與技術要求
- 14KM實踐:書生公司的“基本法”
- 15麥肯錫7S模型與HRM
- 16神州數(shù)碼3年實踐:標準化使ERP實施普遍成功
- 17數(shù)據(jù)分析的5大技術走向
- 18SOA讓系統(tǒng)中遺留的應用重獲新生
- 19以太網(wǎng)供電技術應用前景
- 20數(shù)據(jù)挖掘技術及其應用現(xiàn)狀
- 21MES的技術架構
- 22哈爾濱OA軟件的實施階段任務完成情況
- 23看Intel如何進行知識管理
- 24IT部門盲目追求用戶滿意不明智
- 25看看魯花集團的信息化建設
- 26“維客”世界中的隱性“把關人”
- 27構成哈爾濱OA軟件的技術是什么?
- 28IIM阻擊郵件欺詐
- 29軟件測試的目標
- 30IT投資的國情依賴
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓