監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關閉

數(shù)據(jù)挖掘技術及其應用現(xiàn)狀

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

近十幾年,隨著科學技術飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,在各個領域產(chǎn)生了大量的數(shù)據(jù),如人類對太空的探索,銀行每天的巨額交易數(shù)據(jù)。顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進行了有益的探索。計算機技術的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動了數(shù)據(jù)庫技術的極大發(fā)展,但是面對不斷增加如潮水般的數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫的查詢功能,提出了深層次問題:能不能從數(shù)據(jù)中提取信息或者知識為決策服務。就數(shù)據(jù)庫技術而言已經(jīng)顯得無能為力了,同樣,傳統(tǒng)的統(tǒng)計技術也面臨了極大的挑戰(zhàn)。這就急需有新的方法來處理這些海量般的數(shù)據(jù)。于是,人們結合統(tǒng)計學、數(shù)據(jù)庫、機器學習等技術,提出數(shù)據(jù)挖掘來解決這一難題。

數(shù)據(jù)挖掘的含義和作用

數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀90年代以來,它的發(fā)展速度很快,加之它是多學科綜合的產(chǎn)物,目前還沒有一個完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:

SAS研究所(1997):“在大量相關數(shù)據(jù)基礎之上進行數(shù)據(jù)探索和建立相關模型的先進方法”。

Bhavani(1999):“使用模式識別技術、統(tǒng)計和數(shù)學技術,在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關系、模式和趨勢的過程”。

Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。

我們認為:數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的,支持決策,可以為企業(yè)帶來利益,或者為科學研究尋找突破口。

現(xiàn)今資料流通量之巨大已到了令人咂舌地步,就實際限制而言,便遇到了諸如巨量的紀錄,高維的資料增加的傳統(tǒng)分析技術上的困難,搜集到的資料僅有5%至10%用來分析,以及資料搜集過程中并不探討特性等問題,這就讓我們不得不利用Data Mining技術。

數(shù)據(jù)挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下:

1. 分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應的貸款方案。

2. 聚類:識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。

3. 關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯(lián)的支持度和可信度來描述。與關聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。

4. 預測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預見。例如:對未來經(jīng)濟發(fā)展的判斷。

5. 偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風險。

需要注意的是:數(shù)據(jù)挖掘的各項功能不是獨立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。

數(shù)據(jù)挖掘的方法及工具

作為一門處理數(shù)據(jù)的新興技術,數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,維數(shù)大。最后,數(shù)據(jù)挖掘是許多學科的交叉,運用了統(tǒng)計學,計算機,數(shù)學等學科的技術。以下是常見和應用最廣泛的算法和模型:

(1) 傳統(tǒng)統(tǒng)計方法:① 抽樣技術:我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,就要在理論的指導下進行合理的抽樣。② 多元統(tǒng)計分析:因子分析,聚類分析等。③ 統(tǒng)計預測方法,如回歸分析,時間序列分析等。

(2) 可視化技術:用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運用的許多描述統(tǒng)計的方法??梢暬夹g面對的一個難題是高維數(shù)據(jù)的可視化。

(3) 決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于分類和預測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4) 神經(jīng)網(wǎng)絡:模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進行調(diào)整,計算,最后得到結果,用于分類和回歸。

(5) 遺傳算法:基于自然進化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術。

(6) 關聯(lián)規(guī)則挖掘算法:關聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關系的規(guī)則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個步驟:① 求出大數(shù)據(jù)項集。② 用大數(shù)據(jù)項集產(chǎn)生關聯(lián)規(guī)則。

除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords ,最鄰近算法(k-nearest neighbors method(kNN))等。

由于數(shù)據(jù)挖掘一開始就是面向應用的,是為決策服務,而決策者又不一定具備太多的技術的知識,現(xiàn)許多公司和研究機構開發(fā)了一系列的工具用于數(shù)據(jù)挖掘,見表1

表1 常用數(shù)據(jù)挖掘工具及其比較

公司名 產(chǎn)品名 NN DT B kM kNN S Pred TS C A W32 U P A-S SQL
Angoss International Ltd. KnowledgeSEEKER Yes Yes Yes Yes Yes
Knowledge STUDIO Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
Business Objects Business Miner Yes Yes
Cognos Incorporated  4Thought Yes Yes Yes Yes
Scenario Yes Yes
HNC Software DataBase Mining Marksman Yes Yes Yes Yes Yes
Informix Software Inc. Red Brick Data Mine Yes Yes Yes Yes Yes
International Business Machines Intelligent Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
Accrue Software Decision Series Yes Yes Yes Yes Yes Yes Yes Yes Yes
NeuralWare NeuralSIM Yes Yes Yes
Oracle Corp. Darwin Yes Yes Yes Yes Yes Yes
RightPoint Software DataCruncher Yes Yes Yes Yes
Salford Systems CART Yes Yes Yes Yes
SAS Institute Enterprise Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes
SGI MineSet Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
SPSS, Inc. Answer Tree Yes Yes Yes Yes Yes
Clementine Yes Yes Yes Yes Yes Yes Yes Yes
Neural Connection Yes Yes Yes Yes Yes
Tandem Computers Incorporated Object- Relational Technology Yes Yes Yes
Unica Technology Pattern Recognition Workbench Yes Yes Yes Yes Yes Yes Yes Yes Yes
Model 1 Yes Yes Yes Yes Yes Yes Yes Yes Yes



說明:NN=Neural Net(神經(jīng)網(wǎng)絡); DT=Decision Tree(決策樹);B=Bayes(貝葉斯方法); kM=k-Means(動態(tài)聚類); kNN=k-Nearest Neighbor(最鄰近算法); S=Traditional Statistical Techniques(傳統(tǒng)統(tǒng)計技術); P=Prediction(預測); TS=Time Series(時間序列); C=Clustering(聚類方法); A=Association(關聯(lián)方法); W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at least one OS)(并行方式); A-S=API or SDK available(API或SDK方法可用); SQL=Uses Special SQL Extensions

三、數(shù)據(jù)挖掘的實施步驟

前面我們討論了數(shù)據(jù)挖掘的定義,方法和工具,現(xiàn)在關鍵的問題是如何實施,其一般的步驟如下:

問題理解和提出 —> 數(shù)據(jù)準備 —> 數(shù)據(jù)整理 —> 建立模型 —> 評價和解釋

1. 問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎的就是理解數(shù)據(jù)和實際的業(yè)務問題,在這個基礎之上提出問題,對目標有明確的定義。

2. 數(shù)據(jù)準備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。

3. 數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關的變量,或者轉(zhuǎn)變變量。

4. 建立模型:根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的模型。

5. 評價和解釋:對數(shù)據(jù)挖掘的結果進行評價,選擇最優(yōu)的模型,作出評價,運用于實際問題,并且要和專業(yè)知識結合對結果進行解釋。

以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復進行。

許多研究結構和公司結合自己的數(shù)據(jù)挖掘軟件,提出數(shù)據(jù)挖掘過程模型,值得借鑒的是SAS研究所和SPSS公司提出的方案。

SAS研究所認為數(shù)據(jù)挖掘是對數(shù)據(jù)進行選擇,探索,調(diào)整和建模來揭示數(shù)據(jù)中未知的模式,開發(fā)了圖形界面的SAS/EM來進行數(shù)據(jù)挖掘:

(1)Sample —— 抽樣:從大量的數(shù)據(jù)中抽取與探索問題有關的數(shù)據(jù)子集,這個樣本應該包含足夠的信息,又易于處理。

(2)Explore —— 探索:對數(shù)據(jù)子集進行探索,尋找出與期望的關系和未知的模式

(3)Modify —— 調(diào)整:對數(shù)據(jù)進行探索后,有了初步的了解,就必須對數(shù)據(jù)進行增減,選擇,轉(zhuǎn)化,量化,保證有效進行

(4)Model —— 建模:應用分析工具,建立模型,進行預測

(5)Assess —— 評價:評價數(shù)據(jù)挖掘結果的有效性和可靠性

SPSS公司提出了5A的模型,進行數(shù)據(jù)挖掘,認為任何數(shù)據(jù)挖掘方法學都由5個基本元素組成:

(1)Assess —— 正確、徹底的了解業(yè)務需求及數(shù)據(jù)

(2)Access —— 獲取數(shù)據(jù),做適當?shù)恼{(diào)整

(3)Analyze —— 選擇適當?shù)姆治?、驗證方法和工具

(4)Act —— 推薦性、有說服力的原型演示

(5)Automate —— 提供優(yōu)秀的自動化軟件。

四、數(shù)據(jù)挖掘應用現(xiàn)狀

數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結構,作為企業(yè)進行決策的依據(jù)。其應用非常廣泛,只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用Mining工具進行有目的的發(fā)掘分析。常見的應用案例多發(fā)生在零售業(yè)、制造業(yè)、財務金融保險、通訊及醫(yī)療服務:

(1)商從顧客購買商品中發(fā)現(xiàn)一定的關系,提供打折購物券等,提高銷售額

(2)保險公司通過數(shù)據(jù)挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤

(3)在制造業(yè)中,半導體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù),就必須對這些數(shù)據(jù)進行分析,找出存在的問題,提高質(zhì)量

(4)電子商務的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優(yōu)化網(wǎng)站設計

一些公司運用數(shù)據(jù)挖掘的成功案例,顯示了數(shù)據(jù)挖掘的強大生命力:

美國AutoTrader.com是世界上對大的汽車銷售站點,每天都會有大量的用戶對網(wǎng)站上的信息點擊,尋求信息,其運用了SAS軟件進行數(shù)據(jù)挖掘,每天對數(shù)據(jù)進行分析,找出用戶的訪問模式,對產(chǎn)品的喜歡程度進行判斷,并設特定服務娶,取得了成功。

Reuteres是世界著名的金融信息服務公司,其利用的數(shù)據(jù)大都是外部的數(shù)據(jù),這樣數(shù)據(jù)的質(zhì)量就是公司生存的關鍵所在,必須從數(shù)據(jù)中檢測出錯誤的成分。Reuteres用SPSS的數(shù)據(jù)挖掘工具SPSS/Clementine,建立數(shù)據(jù)挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權威性。

Bass Export是世界最大的啤酒進出口商之一,在海外80多個市場從事交易,每個星期傳送23000份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,Bass Export用IBM的Ineelligent Miner很好的解決了上述問題。

五、數(shù)據(jù)挖掘中存在的問題

盡管數(shù)據(jù)挖掘有如此多的優(yōu)點,但數(shù)據(jù)挖掘也面臨著許多的問題,這也為數(shù)據(jù)挖掘的未來的發(fā)展提供了更大的空間。

1. 數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結構也因此顯的非常復雜,如何進行探索,選擇分析變量,也就成為首先要解決的問題。

2. 面對如此大的數(shù)據(jù),現(xiàn)有的統(tǒng)計方法等都遇到了問題,我們直接的想法就是對數(shù)據(jù)進行抽樣,那么怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是值得研究的難題。

3. 既然數(shù)據(jù)是海量的,那么數(shù)據(jù)中就會隱含一定的變化趨勢,在數(shù)據(jù)挖掘中也要對這個趨勢做應有的考慮和評價。

4. 各種不同的模型如何應用,其效果如何評價。不同的人對同樣的數(shù)據(jù)進行挖掘,可能產(chǎn)生不同的結果,甚至差異很大,這就涉及到可靠性的問題。

5. 當前互聯(lián)網(wǎng)的發(fā)展迅速,如何進行互聯(lián)網(wǎng)的的數(shù)據(jù)挖掘,還有文本等非標準數(shù)據(jù)的挖掘,都引起了極大的興趣。

6. 數(shù)據(jù)挖掘涉及到數(shù)據(jù)也就碰到了數(shù)據(jù)的私有性和安全性。

7. 數(shù)據(jù)挖掘的結果是不確定的,要和專業(yè)知識相結合才能對其做出判斷。

總之,數(shù)據(jù)挖掘只是一個工具,不是萬能的,它可以發(fā)現(xiàn)一些潛在的用戶,但是不會告訴你為什么,也不能保證這些潛在的用戶成為現(xiàn)實。數(shù)據(jù)挖掘的成功要求對期望解決問題的領域有深刻的了解,理解數(shù)據(jù),了解其過程,才能對數(shù)據(jù)挖掘的結果找出合理的解釋。例如曾經(jīng)用數(shù)據(jù)挖掘找出的啤酒和尿布的例子,如何去解釋這種現(xiàn)象,是應該將兩者放在一起還是分開銷售,這還需要對消費心理學有所研究才能做出決定,而不是數(shù)據(jù)挖掘能力所及的了。

來源:情報官世界

發(fā)布:2007-04-22 10:21    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
哈爾濱OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普哈爾濱OA快博其他應用

哈爾濱OA軟件 哈爾濱OA新聞動態(tài) 哈爾濱OA管理信息化 哈爾濱OA快博 哈爾濱OA軟件行業(yè)資訊 哈爾濱軟件開發(fā)公司 哈爾濱門禁系統(tǒng) 哈爾濱物業(yè)管理軟件 哈爾濱倉庫管理軟件 哈爾濱餐飲管理軟件 哈爾濱網(wǎng)站建設公司