申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
什么是BI? BI是Business Intelligence的英文縮寫,中文解釋為商務(wù)智能,用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過程。簡(jiǎn)單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價(jià)值應(yīng)用的過程。如下圖所示:
圖片1
從上圖可以看出,傳統(tǒng)的交易系統(tǒng)完成的是Business到Data的過程,而BI要做的事情是在Data的基礎(chǔ)上,讓Data產(chǎn)生價(jià)值,這個(gè)產(chǎn)生價(jià)值的過程就是Business Intelligence analyse的過程。如何實(shí)現(xiàn)Business Intelligence analyse的過程,從技術(shù)角度來說,是一個(gè)復(fù)雜的技術(shù)集,它包含ETL、DW、OLAP、Portal等,其應(yīng)用的邏輯流程如下圖所示:
圖片2
上圖流程,簡(jiǎn)單的說就是把交易系統(tǒng)已經(jīng)發(fā)生過的數(shù)據(jù),通過ETL工具抽取到主題明確的數(shù)據(jù)倉(cāng)庫(kù)中,OLAP后生成Cube或報(bào)表,透過Portal展現(xiàn)給用戶,用戶利用這些經(jīng)過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。注意:(1) 不是產(chǎn)生決策,而利用分析后的數(shù)據(jù)支持決策,僅防誤解。(2) Cognos是BI展現(xiàn)工具中的一種?,F(xiàn)在就上述概要內(nèi)容作簡(jiǎn)要說明如下:(1)BI的誕生隨著IT技術(shù)的進(jìn)步,傳統(tǒng)的業(yè)務(wù)交易系統(tǒng)有了長(zhǎng)足的發(fā)展,已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆業(yè)務(wù)數(shù)據(jù)都記錄在數(shù)據(jù)庫(kù)中,星轉(zhuǎn)斗移,累積了以TB為計(jì)量單位的業(yè)務(wù)數(shù)據(jù)記錄。也許你會(huì)問:這么多數(shù)據(jù),占用了很多存儲(chǔ)設(shè)備,耗費(fèi)存儲(chǔ)成本,卻又不經(jīng)常訪問,留著它有什么用處?可以給你肯定的回答,留著這些歷史數(shù)據(jù)意義巨大,挖掘業(yè)務(wù)的規(guī)律、支持決策。典型的案例有“尿片和啤酒”的故事。尿片和啤酒本來是兩樣不相干的東西,可是,有人就發(fā)現(xiàn),星期五在超市里購(gòu)物的,購(gòu)買尿片的年輕父親中有30%~40%的人同時(shí)購(gòu)買啤酒。原來,星期五年輕的父親購(gòu)買尿片時(shí),還會(huì)為自己捎帶買啤酒,因?yàn)?,星期五是各家電視臺(tái)轉(zhuǎn)播橄欖球賽的時(shí)間,于是,超市老板們就把尿片和啤酒捆綁銷售獲得了巨大成功。這個(gè)故事成了一個(gè)利用數(shù)據(jù)挖掘商業(yè)價(jià)值最大化的神話。由此看來,非常不關(guān)聯(lián)的兩樣?xùn)|西,通過海量的信息數(shù)據(jù)處理,可以挖掘出它們之間潛在的關(guān)聯(lián),將這種關(guān)聯(lián)商業(yè)化,就會(huì)得到意想不到的新業(yè)務(wù)或新的商業(yè)模式。到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來,讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者呢?新的數(shù)據(jù)分析技術(shù)由此誕生了,完成了“數(shù)據(jù)”到“數(shù)據(jù)價(jià)值”轉(zhuǎn)換的環(huán)節(jié),同時(shí)給這項(xiàng)技術(shù)起了一個(gè)響亮而又神密的名字“BI”(Business Intelligence) (2)基本技術(shù)BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術(shù)涉及了哪些方面呢?從上圖圖(2)中,我們不難看出其核心技術(shù)中DW與OLAP。數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse) 的官方定義是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。為什么要在操作型數(shù)據(jù)庫(kù)和 OLAP 之間加一層“數(shù)據(jù)倉(cāng)庫(kù)”呢?說一千道一萬都計(jì)算機(jī)資源與效能惹的禍,操作型數(shù)據(jù)庫(kù)以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),而OLAP的時(shí)候要占用大量的硬件資源,在OLAP的時(shí)候,業(yè)務(wù)操作很難快速響應(yīng),無法保證業(yè)務(wù)的順利進(jìn)行,從業(yè)務(wù)->數(shù)據(jù)->數(shù)據(jù)的價(jià)值的邏輯來看,沒有業(yè)務(wù)就談不上OLAP;零星分散的數(shù)據(jù)一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)多個(gè)業(yè)務(wù)操作型數(shù)據(jù)庫(kù),訪問效能極其低下。綜合上述資源與效能的問題,最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉(cāng)庫(kù)中,而由OLAP應(yīng)用統(tǒng)一從數(shù)據(jù)倉(cāng)庫(kù)里取數(shù),以解決快速響應(yīng)業(yè)務(wù)與OLAP的矛盾。但是,多了這么一層,不管ROLAP還是MOLAP都無法查看實(shí)時(shí)數(shù)據(jù),這并不影響B(tài)I的應(yīng)用,90%的BI應(yīng)用都不要求實(shí)時(shí)性,允許數(shù)據(jù)有滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作及OLAP的時(shí)間。ETL,(Extract Transform Load)操作型業(yè)務(wù)數(shù)據(jù)庫(kù)(DB)到數(shù)據(jù)倉(cāng)庫(kù)(DW)的過程稱之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,傳輸及裝載工作,目前流行的工具有Informatica,DTS,SSIS等工具。OLAP,(On-Line Analytical Processing)即聯(lián)機(jī)分析處理,是 BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報(bào)表或Cube,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的基本操作有鉆取(roll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drill across、drill through等。Portal,是展現(xiàn)BI產(chǎn)物的平臺(tái)入口,BI的產(chǎn)物被放置在Portal上,用戶登錄這個(gè)Portal即可訪問數(shù)據(jù)。透過上述技術(shù),BI應(yīng)用DW中的海量數(shù)據(jù),OLAP(ROLAPMOLAP)加工成可讀性很強(qiáng)的報(bào)表信息或知識(shí),展現(xiàn)給決策者,用這些報(bào)表信息或知識(shí)做為決策的依據(jù),由此來完成數(shù)據(jù)與價(jià)值的轉(zhuǎn)換。(3)應(yīng)用模式數(shù)據(jù)查詢是最簡(jiǎn)單的 BI 應(yīng)用,輸出報(bào)表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過程及用途,應(yīng)用模式大致可以分為四種:格式報(bào)表;在線分析;數(shù)據(jù)可視化;數(shù)據(jù)挖掘。1、格式報(bào)表:帶格式的數(shù)據(jù)集合,如:交叉表等。2、在線分析:多維數(shù)據(jù)集合,如:Cube等。3、數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來,目的是使決策者通過圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如柱圖等。4、數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程。分析方法:· 分類(Classification)· 估值(Estimation)· 預(yù)言(Prediction)· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)· 聚集(Clustering)· 描述和可視化(Description and Visualization)數(shù)據(jù)挖掘號(hào)稱能通過歷史數(shù)據(jù)的分析,預(yù)測(cè)客戶的行為,而事實(shí)上,客戶自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒有人們想象中神秘,它不可能是完全正確的。客戶的行為是與社會(huì)環(huán)境相關(guān)連的,所以數(shù)據(jù)挖掘本身也受社會(huì)背景的影響。(4)社會(huì)背景中國(guó)擁有5000年的文化史,燦爛的文件讓日常報(bào)表也非常具有凝聚力,交錯(cuò)縱橫,里外相嵌,格式詭異、規(guī)則古怪、數(shù)據(jù)集中而文名于世,讓無數(shù)報(bào)表工具折腰。BI概念是從歐美引進(jìn)的,現(xiàn)有的工具也多是歐美國(guó)家提供,中國(guó)是世界上報(bào)表最復(fù)雜的國(guó)家,報(bào)表設(shè)計(jì)風(fēng)格與這些國(guó)家有明顯的差別,BI工具制作的報(bào)表傾向于僅用一張報(bào)表說明一個(gè)問題,而中國(guó)的報(bào)表傾向于將盡可能多的問題集中在一張報(bào)表中,這種思路直接導(dǎo)致了BI工具應(yīng)用難度的提升。常用的BI 廠商和產(chǎn)品:ETL:Informatica,datastage,Kettle,SSIS,DTSDW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM , SQL Server Analysis ServerData Mining:IBM,SAS,SPSS