申請免費試用、咨詢電話:400-8352-114
來源:泛普軟件
1、 Howard Dresner對商業(yè)智能的定義
商業(yè)智能(Business Intelligence,簡稱BI)的概念最早是Gartner Group的Howard Dresner于1996年提出來的。當(dāng)時將商業(yè)智能定義為一類由數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。當(dāng)時的預(yù)測說:到2000年,信息民主(注:指組織內(nèi)信息共享的無差別性)將在具有前瞻性思維的企業(yè)中浮現(xiàn)。借助商業(yè)智能,員工、咨詢員、客戶、
供應(yīng)商以及公眾能夠有效地運用信息。其實,商業(yè)智能所涉及的技術(shù)與應(yīng)用,在Howard Dresner命名之前就有,起初被稱為主管信息系統(tǒng)(EIS),在羽化成商業(yè)智能之前叫決策支持系統(tǒng)(DSS)。
2、 Eric Thomsen對OLAP及商業(yè)智能的論斷
Eric Thomsen是DSS Lab的首席科學(xué)家,他提出了基于決策支持系統(tǒng)的OLAP的設(shè)計和實現(xiàn)。OLAP是創(chuàng)建商業(yè)智能系統(tǒng)的重要技術(shù),其技術(shù)的應(yīng)用非常廣泛。Eric Thomsen在其代表作《OLAP解決方案:創(chuàng)建多維信息系統(tǒng)(OLAP Solutions: Building Multidimensional Information Systems)》第二版中有關(guān)于一些相關(guān)概念的論述:數(shù)據(jù)倉庫(DW)/決策支持系統(tǒng)(DSS)/商業(yè)智能(BI)/聯(lián)機分析處理(OLAP)/基于分析的面向決策的處理(ABDOP)——數(shù)據(jù)倉庫(DW)的焦點還是十分有限的。決策支持這個術(shù)語是以最終用戶為中心的,在談到OLAP和數(shù)據(jù)倉庫時作為ABDOP的補充。從這以后,數(shù)據(jù)倉庫和決策支持的范圍有了很大的擴展,但是還沒有達到ABDOP的全部內(nèi)容。商業(yè)智能也開始流行起來,也覆蓋了相同的范圍,不過一般來說,它更加關(guān)注于最終用戶信息獲取的問題。經(jīng)??吹饺藗儗?shù)據(jù)倉庫和決策支持或者商業(yè)智能聯(lián)合起來指代所稱的ABDOP的全部范圍,卻沒有真正給整個范圍起一個名字。
Eric Thomsen采用蘇格拉底啟發(fā)式方式講解和論述了決策的階段,從而闡述了商業(yè)智能(或其平行概念)的研究內(nèi)容和方法:
認為,通過觀察如何證實一個被挑戰(zhàn)的決策是否正確,就可以很好地了解到指定決策究竟需要些什么信息。
決策的目標是什么?如果沒有目標,任何決策都是沒有差別的。在尋求最優(yōu)決策的過程中,可能用到的算法包括線性編程和蒙特卡洛模擬協(xié)助在各種選擇、外部因素、偶然事件中進行決策思考的工具就是決策分析工具。
如何證明決策可以達到預(yù)定的目標?惟一能夠證實決策是正確的方法是顯示一些預(yù)測結(jié)果。進行預(yù)測用到的工具包括了統(tǒng)計分析和數(shù)據(jù)挖掘。
預(yù)測又是從何而來?這時候需要一個推理的過程。預(yù)測是模式、關(guān)系、解釋的延伸。他們需要至少一個用來延伸的假設(shè)。所有的預(yù)測都需要兩個描述和一個假設(shè)。用于發(fā)現(xiàn)模式的算法包括回歸、決策樹、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡(luò),用于發(fā)現(xiàn)模式的工具也是統(tǒng)計和數(shù)據(jù)挖掘。
如何捍衛(wèi)描述?如果描述是不正確的,不管推理如何,預(yù)測都將是錯誤的。因此,在原始數(shù)據(jù)收集過程中應(yīng)該采用最好的質(zhì)量控制方法。
派生數(shù)據(jù)是否正確?如果原始數(shù)據(jù)和推理邏輯都是正確的,預(yù)測還是錯誤的,問題就出在派生數(shù)據(jù)上。派生數(shù)據(jù)包括了各種匯總、分配、差別、比率、排序和乘積,例如每周的產(chǎn)品銷售量、每天的入庫總額、產(chǎn)品的總成本、部門收入、管理費用、銷售產(chǎn)品的成本、市場份額、產(chǎn)量和利潤等。OLAP工具所關(guān)注的就是創(chuàng)建派生變量。
3、 Tom Soukup 和 Ian Davidson對商業(yè)智能和可視化數(shù)據(jù)挖掘的闡述
在《可視化數(shù)據(jù)挖掘:數(shù)據(jù)可視化和數(shù)據(jù)挖掘的技術(shù)與工具(Visual Data Mining : Techniques and Tools for Data Visualization and Mining)》中指出:
商業(yè)智能解決方案將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成明確的、基于事實的、能夠執(zhí)行的信息,并且使得業(yè)務(wù)人員能夠發(fā)現(xiàn)客戶趨勢,創(chuàng)建客戶忠誠度,增強與供應(yīng)商的關(guān)系,減少金融風(fēng)險,以及揭示新的銷售商機。商業(yè)智能的目標是了解變化的意義——從而理解甚至預(yù)見變化本身。它使你能夠訪問當(dāng)前的、可靠的和易消化的信息,并能夠從各個側(cè)面及不同的維度靈活地瀏覽信息和建立模型。商業(yè)智能方案回答的是“如果……怎么辦(What if …)”之類的問題,而不是“發(fā)生了什么?(What happened ?)”。簡而言之,商業(yè)智能解決方案是提高和維持競爭優(yōu)勢的一條有效的條件。
數(shù)據(jù)可視化和數(shù)據(jù)挖掘是兩種技術(shù),它們常常被常用來創(chuàng)建和部署成功的商業(yè)智能解決方案。通過應(yīng)用可視化和數(shù)據(jù)挖掘技術(shù),業(yè)務(wù)人員能夠充分地探索業(yè)務(wù)數(shù)據(jù),從而發(fā)現(xiàn)潛在的、以前未知的趨勢、行為和異常。
提出了一套行之有效的創(chuàng)建數(shù)據(jù)可視化和執(zhí)行可視化數(shù)據(jù)挖掘的方法,包括8個步驟:①驗證和規(guī)劃數(shù)據(jù)可視化與數(shù)據(jù)挖掘項目;②識別最重要的業(yè)務(wù)問題;③選擇數(shù)據(jù)集;④轉(zhuǎn)換數(shù)據(jù)集;⑤驗證數(shù)據(jù)集;⑥選擇可視化或挖掘工具;⑦分析可視化或挖掘模型;⑧驗證和展示可視化或挖掘模型。
4、 Bill Inmon對數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。
集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
相對穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
反映歷史變化。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,是一個過程。
5、 E.F. Codd對OLAP的貢獻
60 年代末,E.F. Codd 所提出的關(guān)系數(shù)據(jù)模型促進了關(guān)系數(shù)據(jù)庫及聯(lián)機事務(wù)處理(OLTP )的發(fā)展。數(shù)據(jù)不再以文件方式同應(yīng)用程序捆綁在一起,而是分離出來,以關(guān)系表方式供大家共享。數(shù)據(jù)量從80年代的兆字節(jié)及千兆字節(jié)過渡到現(xiàn)在的兆兆字節(jié)和千兆兆字節(jié),同時用戶的查詢需求也越來越復(fù)雜,涉及的己不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中千萬條記錄的數(shù)據(jù)進行數(shù)據(jù)分析或信息綜合。關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。這兩類應(yīng)用― 操作型應(yīng)用和分析型應(yīng)用,特別是在性能上難以兩全,盡管為了提高性能,人們常常在關(guān)系數(shù)據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計及綜合數(shù)據(jù),但這些統(tǒng)計綜合數(shù)據(jù)的應(yīng)用邏輯卻是分散雜亂的,非系統(tǒng)化的,因此分析功能有限,不靈活,維護困難。在國外,不少軟件廠商采取了發(fā)展其前端產(chǎn)品來彌補RDBMS 支持的不足。它們通過專門的數(shù)據(jù)綜合引擎,輔之以更加直觀的數(shù)據(jù)訪問界面。力圖統(tǒng)一分散的公共應(yīng)用邏輯,在短時間內(nèi)相應(yīng)非數(shù)據(jù)處理專業(yè)人員的復(fù)雜查詢要求。1993年,E.F. Codd 將這類技術(shù)定義為“OLAP ”。鑒于Codd 關(guān)系數(shù)據(jù)庫之父的影響。OLAP 的提出引起了很大反響,OLAP 作為一類產(chǎn)品同OLAP 明顯區(qū)別開來。
聯(lián)機分析處理專門設(shè)計用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以應(yīng)分析人員要求快速、靈活地進行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供決策人員,以便他們準確掌握企業(yè)(公司)的經(jīng)營狀況,了解市場需求,制訂正確方案,增加效益。
6、 國外學(xué)者對數(shù)據(jù)挖掘的定義及其研究方法的概括
Gartner Group :“數(shù)據(jù)挖掘是通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、模式和趨勢的過程。它使用模式認知技術(shù)、統(tǒng)計技術(shù)和數(shù)學(xué)技術(shù)。”
The META Group的Aaron Zornes :“數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前不知道的可操作性信息的知識挖掘過程。”
SAS研究所:“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進行數(shù)據(jù)探索和建立相關(guān)模型的先進方法”。
Bhavani :“使用模式識別技術(shù)、統(tǒng)計和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。
Hand et al :“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”。
Fayyad :數(shù)據(jù)挖掘是一個確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。
Zekulin :數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進行關(guān)鍵的商業(yè)決策的過程。
Ferruzza :數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。
Jonn :數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。
Parsay :數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。
數(shù)據(jù)挖掘的功能大致有兩種,預(yù)測檢驗功能和描述功能。數(shù)據(jù)挖掘的任務(wù)主要有4項:①概念描述,即對數(shù)據(jù)進行濃縮,給出某類對象內(nèi)涵的緊湊表示。②發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,通過分析給出兩個或多個變量間存在的相關(guān)性規(guī)律。③聚類,即簇聚同類對象,使在抽象空間中屬于同一類別的個體距離盡可能小,反之盡量大。④偏差檢測,尋找觀察結(jié)果與參照值間的差別,這些偏差往往包含很多潛在有意義的知識信息。
應(yīng)用較普遍的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)方法有:
遺傳算法。其基本原理是:類比生物進化過程,每一代同時存在許多不同的種群個體(染色體)。這些染色體的適應(yīng)性以適應(yīng)性函數(shù)f(x)表征,染色體的保留與淘汰取決于它們對環(huán)境的適應(yīng)能力,優(yōu)勝劣汰。適應(yīng)性函數(shù)f(x)的構(gòu)成與目標函數(shù)密切相關(guān),往往是目標函數(shù)的變種。?遺傳算子主要有3種:選擇(復(fù)制)算子、交叉(重組)算子和變異(突變)算子。遺傳算法可起到產(chǎn)生優(yōu)良后代的作用,經(jīng)過若干代遺傳,將會得到滿足要求的后代(問題的解)。
粗集方法。其基本原理是:將數(shù)據(jù)庫中的行元素看成對象,將列元素看成屬性。設(shè)R為等價關(guān)系,定義為不同對象在某個(或幾個)屬性上取值相同。那些滿足等價關(guān)系的對象構(gòu)成集合,稱為該等價關(guān)系R的等價類。設(shè)E為條件屬性上的等價類,設(shè)Y為決策屬性上的等價類,則E 和Y存在3種情況:Y包含E稱為下近似;Y與E的交非空,稱為上近似;Y與E的交為空,稱為無關(guān)。對下近似建立確定性規(guī)則,對上近似建立不確定規(guī)則(含可信度),對無關(guān)情況則不存在規(guī)則。
決策樹方法。決策樹方法是以信息論原理為基礎(chǔ),利用信息論中互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個結(jié)點。然后再根據(jù)字段的不同取值建立樹的分支,在每個分支集中重復(fù)建立樹的下層結(jié)點和分支。這種方法實際上是依循信息論原理對數(shù)據(jù)庫中存在的大量數(shù)據(jù)進行信息量分析,在計算數(shù)據(jù)特征的互信息或信道容量的基礎(chǔ)上提取出反映類別的重要特征。
神經(jīng)網(wǎng)絡(luò)方法。其原理是:模擬人腦的神經(jīng)元結(jié)構(gòu),以MP模型和HEBB學(xué)習(xí)規(guī)則建立起前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)3大類多種神經(jīng)網(wǎng)絡(luò)模型?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工具對于非線性數(shù)據(jù)具有快速建模能力,其挖掘的基本過程是先將數(shù)據(jù)聚類,然后分類計算權(quán)值,神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上。神經(jīng)網(wǎng)絡(luò)方法用于非線性數(shù)據(jù)和含噪聲的數(shù)據(jù)時具有更大的優(yōu)越性,比較適合于市場數(shù)據(jù)庫的分析和建模,通過對市場數(shù)據(jù)庫中行業(yè)數(shù)據(jù)的精密分析,為市場人員提供顧客、用戶、市場狀況和市場走勢等方面的分析結(jié)果。(KMCENTER)