監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關(guān)閉

BI與搜索技術(shù)的融合趨勢與技術(shù)

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

有價值的信息分散在企業(yè)的各個角落,這是信息管理領(lǐng)域早已公認(rèn)的事實,同時也是多年來未被攻克的一個難題。在BI(商業(yè)智能)的數(shù)據(jù)挖掘技術(shù)不斷演進的同時,隱藏于一個簡單Web頁面之后的企業(yè)搜索技術(shù)的介入,有望為企業(yè)用戶提供一條快速、簡單且更加理想化的信息訪問通道。

在BI世界里,敏捷、準(zhǔn)確地制作報表并分析是恒定不變的法則,但是在數(shù)據(jù)的實時展現(xiàn)和信息獲取的易用性方面,BI與用戶的實際期望值之間一直存在距離。雖然各大BI廠商都力圖把自己的產(chǎn)品打造得更貼近客戶需求、界面更友好,但BI報表定制對絕大多數(shù)的企業(yè)員工而言,依然是一個神秘的領(lǐng)域。企業(yè)業(yè)務(wù)信息的掘取似乎是那些統(tǒng)計學(xué)大腕才能勝任的工作。最近幾年來,BI廠商一直在尋找讓BI應(yīng)用更加平民化或大眾化的方法,但直到BI與企業(yè)搜索技術(shù)交疊之后,才使用戶看到了BI應(yīng)用下行的最絢麗曙光。

數(shù)據(jù)隨時展現(xiàn)

作為傳統(tǒng)BI的用戶,一家名為Blue Cross Blue Shield的美國保險公司以前只能在一個固定的周期內(nèi)生成BI報表,這些報表按模板索引,每兩周或在每個月分發(fā)給固定郵件列表的用戶。這種剛性的數(shù)據(jù)管理所導(dǎo)致的問題是,如何處理那些不在郵件列表中的用戶請求?這些用戶通過何種途徑才能訪問相關(guān)的報表?

BI與搜索的結(jié)合幫助這家公司找到了向更多員工交付BI報表的有效方法。在部署了IBM Web-Sphere Content Discovery之后,通過BI系統(tǒng)與企業(yè)級搜索應(yīng)用的集成,公司成功擴大了BI數(shù)據(jù)的訪問范圍。與BI報表定時推送相比,新系統(tǒng)支持員工實時通過一個門戶界面檢索存儲在不同報表中的BI信息,而這種檢索通過簡單的文本搜索即可實現(xiàn),不需要編寫專業(yè)的查詢語句。

早期用戶已經(jīng)體驗到這種技術(shù)融合對業(yè)務(wù)數(shù)據(jù)分析能力的提升。一位政府客戶就表示,BI與搜索的融合對分布式組織具有極強的吸引力。他指出,“BI+搜索”的解決方案能夠讓身處不同地域的用戶訪問不同的獨立數(shù)據(jù)庫成為可能,并且平滑升級到BI和文本數(shù)據(jù)的高級檢索。同時用戶可以享受到超越以往的數(shù)據(jù)下鉆體驗,比如總公司點擊地圖中的某個省,就可以下鉆到省公司的數(shù)據(jù)庫進行分析并定制報表,這種數(shù)據(jù)展現(xiàn)形式遠遠超越了傳統(tǒng)BI的數(shù)據(jù)交付。

數(shù)據(jù)“無來源”獲取

“有了搜索技術(shù),用戶不必知道信息來自何方”,這是搜索為BI領(lǐng)域帶來的革命性改變。具體來說,就是用戶在進行BI數(shù)據(jù)訪問時,并不需要了解在企業(yè)搜索引擎背后數(shù)據(jù)收集、數(shù)據(jù)過濾、報表定位以及報表重建等步驟是怎樣運作的。他們所要做的只是熟悉企業(yè)搜索引擎的使用方法,了解它和基于Web的消費類搜索引擎的細(xì)微差異,以及如何使用它的高級搜索選項。

這種“無來源”的數(shù)據(jù)獲取方式使結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)向“統(tǒng)一信息搜索”的目標(biāo)大大前進了一步。“作為企業(yè)重要的決策支持工具,BI與企業(yè)搜索技術(shù)的結(jié)合符合技術(shù)發(fā)展的趨勢,這樣企業(yè)不僅能夠獲得經(jīng)營匯總信息,發(fā)現(xiàn)問題后還可以立即下鉆查看合同文檔、Email記錄、相關(guān)法律法規(guī)等。” SAS中國區(qū)解決方案經(jīng)理張?zhí)旆逭f。

回顧BI的技術(shù)發(fā)展史,傳統(tǒng)BI 主要提供結(jié)構(gòu)化信息的搜索。但對于非結(jié)構(gòu)化數(shù)據(jù)的搜索,一些BI廠商提供的文本挖掘技術(shù)覆蓋能力有限。在技術(shù)的區(qū)分方面,結(jié)構(gòu)化數(shù)據(jù)搜索主要包含數(shù)值計算和分析技術(shù),非結(jié)構(gòu)化數(shù)據(jù)主要圍繞關(guān)鍵詞、主題詞或元數(shù)據(jù)的搜索,其核心技術(shù)仍是結(jié)構(gòu)化查詢。企業(yè)搜索技術(shù)將幫助企業(yè)解決非結(jié)構(gòu)化數(shù)據(jù)檢索問題。其關(guān)鍵作用是擴大數(shù)據(jù)查詢和分析的范圍,建立結(jié)構(gòu)化與非結(jié)構(gòu)化查詢結(jié)果的關(guān)聯(lián)關(guān)系,有效彌補BI數(shù)據(jù)挖掘和文本挖掘技術(shù)的不足。

“無來源”數(shù)據(jù)獲取的理想化圖景是,企業(yè)搜索引擎將成為用戶訪問企業(yè)所有信息的統(tǒng)一入口,BI與搜索的集成系統(tǒng)能夠屏蔽結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的差異,無論數(shù)據(jù)存儲在什么位置,系統(tǒng)都能夠按照用戶在搜索引擎中輸入的查詢請求交付所需的數(shù)據(jù),用戶并不需要知道這些數(shù)據(jù)存儲在企業(yè)IT系統(tǒng)的什么位置。而在現(xiàn)階段,企業(yè)搜索引擎主要關(guān)注對HTML、PPT、PDF等企業(yè)文檔的檢索,對于這些文檔導(dǎo)向的數(shù)據(jù)資源,一些搜索引擎可以做出關(guān)于語義或數(shù)據(jù)的智能化判斷。

黏合劑的制造者

前面提到了BI與搜索融合的兩大好處,即讓BI數(shù)據(jù)更易于訪問,以及整合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。但就目前BI或搜索廠商的實現(xiàn)能力看,BI與搜索的融合仍是一個需要不斷充實和完善的理想框架,其中的技術(shù)難點我們將在后面展開討論。但令人振奮的是,在這一技術(shù)交互地帶,已經(jīng)聚集了現(xiàn)今最主流的搜索和BI廠商,廠商之間的頻繁合作大大增加了兩種技術(shù)融合的黏性。

Google OneBox for Enterprise(簡稱Google OneBox)的推出曾被一些分析家評價為“劃時代事件”。這款于2006年4月面世的產(chǎn)品使Google的專用搜索設(shè)備除文本之外還可以搜索保存在數(shù)據(jù)庫和數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù)。Google OneBox發(fā)布后,眾多BI廠商旋即展開了針對該產(chǎn)品的集成計劃。目前,已經(jīng)建立其BI產(chǎn)品與Google OneBox之間鏈接的廠商包括:Cognos、InformationBuliders、甲骨文、SAS、海波龍(Hyperion)和Business Objects。Business Objects在2006年5月推出了基于Google OneBox的企業(yè)級搜索解決方案,并計劃在2007年上半年推出一套對其BI數(shù)據(jù)進行文本搜索的工具。海波龍在2007年2月推出了HyperionSystem 9 Smart Search for Google,該產(chǎn)品支持基于Hyperion System 9知識庫的報表、儀表盤、財務(wù)報表的定制,同時能夠?qū)崿F(xiàn)對企業(yè)中多種非結(jié)構(gòu)化數(shù)據(jù)(例如郵件、辦公文檔、文本文檔、PDF文檔)的搜索。

在Google OneBox表現(xiàn)出強勁凝聚力的同時,IBM和微軟也相繼發(fā)布了與此相關(guān)的新的產(chǎn)品和特性,同時廠商之間圍繞BI與搜索的合作還迅速激發(fā)了聯(lián)動效應(yīng)。2006年12月,IBM和Yahoo共同發(fā)布名為Yahoo版IBM OmniFind的免費企業(yè)搜索應(yīng)用,Cognos宣布其Cognos 8 Go!搜索引擎與OmniFind進行鏈接。Fast Search and Transfer公司將其企業(yè)搜索平臺與Cognos 8 BI解決方案結(jié)合,實現(xiàn)向員工直接交付企業(yè)內(nèi)容。2007年1月,Information Buliders推出WebFocusMagnify,這是一種索引結(jié)構(gòu)化數(shù)據(jù)并在搜索結(jié)果中提供BI報告的搜索導(dǎo)航工具。另外,X1Technologies的X1企業(yè)搜索平臺支持對電子郵件、桌面文檔等非結(jié)構(gòu)化信息的檢索,并且能夠與后端搜索建立聯(lián)邦關(guān)系。

融合的高難度

BI與搜索技術(shù)融合的構(gòu)想一經(jīng)提出,就被寄予了厚望。人們希望這種融合能夠解決那些長期懸而未決的問題。以Google OneBox為代表的企業(yè)級搜索產(chǎn)品的成熟更是讓BI行業(yè)發(fā)生了很多改變,但我們也必須正視這一領(lǐng)域所面臨的困難。

傳統(tǒng)BI所實現(xiàn)的結(jié)構(gòu)化數(shù)據(jù)搜索無法向用戶提供上下文關(guān)聯(lián)信息。比如,用戶可以打開一

個庫存數(shù)據(jù)庫,但是卻無法獲得數(shù)據(jù)庫之外像貨品照片、庫存位置地圖等關(guān)聯(lián)信息。有專家表示,這樣的問題最終會通過元數(shù)據(jù)搜索的介入而得到解決,就像在數(shù)據(jù)庫領(lǐng)域XML所獲得的成功一樣。但是在目前,海量的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合仍是一個難題。

非結(jié)構(gòu)化數(shù)據(jù)搜索的挑戰(zhàn)在于,如何駕馭如此龐大、高容量的文檔信息。以一個擁25000名員工的企業(yè)為例,每個員工每個工作日處理70封郵件,那么該企業(yè)每年出于法規(guī)遵從目的需要存儲的郵件數(shù)量就達5億封,還要保證這些郵件是可搜索的。加上其他需要存儲和搜索的HTML、Word、EXCEL、PPT文檔,搜索指令仿佛“大海撈針”。

作為一位資深BI人,神州數(shù)碼移動事業(yè)部的劉慶認(rèn)為,BI與搜索的融合不是單純易用性的改進,需要解決的關(guān)鍵問題包括實施成本、技術(shù)標(biāo)準(zhǔn)化等。他表示,在2006年曾經(jīng)有國內(nèi)的企業(yè)有意嘗試企業(yè)文檔的搜索,但真正把搜索系統(tǒng)與BI系統(tǒng)結(jié)合起來的用戶很少?!皟赡曛?,我們可能會看到比較成功的案例,而BI與搜索的深度融合可能要在5年以后?!眲c說。

雖然現(xiàn)有的解決方案已經(jīng)能夠支持企業(yè)對BI與搜索系統(tǒng)的同步部署,但劉慶強調(diào),分步實施仍是最佳選擇。“實施者需要協(xié)調(diào)BI和搜索的部署特性,BI項目強調(diào)以客戶應(yīng)用為中心,而搜索強調(diào)技術(shù)標(biāo)準(zhǔn)化,在技術(shù)融合過程中需要加以調(diào)和。同時還應(yīng)該考慮好系統(tǒng)集成之后推什么應(yīng)用,是報表還是數(shù)據(jù)鉆取?對客戶而言,現(xiàn)實的做法是先把BI系統(tǒng)做好,這樣搜索才有價值?!彼f。真正的融合應(yīng)該是無縫的,BI與搜索在現(xiàn)階段的融合表現(xiàn)顯然距離這一標(biāo)準(zhǔn)還有很大距離。

其中,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)搜索怎樣自然結(jié)合是癥結(jié)之一。SAS的張?zhí)旆逶贐I行業(yè)擁有近15年的從業(yè)經(jīng)歷。他表示,結(jié)構(gòu)化和非結(jié)構(gòu)化信息的搜索技術(shù)是截然不同的,非結(jié)構(gòu)化搜索的技術(shù)也有進一步的細(xì)分。非結(jié)構(gòu)化數(shù)據(jù)搜索應(yīng)該被更加準(zhǔn)確地定義為文件檢索技術(shù),包含檢與索兩個方面。檢就是文檔歸類,在這一領(lǐng)域,SAS等廠商所提供的文本挖掘(Text Mining)技術(shù)正趨向于成熟;索就是搜索,目前最成熟的是以Google為代表的蜘蛛(Spider)技術(shù)。

“企業(yè)實施‘BI+搜索’項目的難點體現(xiàn)在,如何把兩種不同的技術(shù)自然地‘縫合’起來。開發(fā)人員必須熟練掌握這兩種技術(shù),目前,同時掌握兩種搜索技術(shù)的人才并不多。同時,要完整呈現(xiàn)不同層面、種類的關(guān)聯(lián)信息,并做出科學(xué)的決策,這需要大量的定制開發(fā)工作,在目前的情況下實施難度還很大。這些都決定了BI與搜索結(jié)合尚不自然的現(xiàn)狀。”張?zhí)旆逭f。

門戶當(dāng)?shù)?/STRONG>

盡管推進困難重重,但BI與搜索的融合已成一個明確的技術(shù)方向。在BI領(lǐng)域,搜索技術(shù)炙手可熱。Gartner的一位分析師說:“從沒見過BI廠商如此急切地尋找搜索技術(shù),今天不會向你談?wù)撈銪I軟件與企業(yè)搜索產(chǎn)品集成的BI廠商是太少見了。”另一方面,搜索廠商也在積極拓寬企業(yè)級搜索引擎的覆蓋范圍,企業(yè)BI系統(tǒng)中高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)正好彌補了其搜索的數(shù)據(jù)源。因此,無論是BI廠商還是搜索廠商,都在尋找合適的落腳點,企業(yè)門戶正是這樣一個能夠兼顧雙方利益、兼容不同技術(shù)框架的戰(zhàn)略選擇。

“應(yīng)該說,目前市場上我們所見到的‘BI+搜索’的產(chǎn)品基本上都是圍繞門戶展開的”張?zhí)旆逭f。文章前面提到的產(chǎn)品大都集中在門戶和內(nèi)容管理方面,在門戶平臺之上,結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)搜索、乃至更高層次的信息檢索技術(shù)形成了多種集成化的解決方案。

在結(jié)構(gòu)化數(shù)據(jù)的語義關(guān)聯(lián)方面,一些BI軟件已經(jīng)通過模板的使用和數(shù)據(jù)關(guān)聯(lián)定義等方法,部分地解決了在結(jié)構(gòu)化數(shù)據(jù)查詢中提供上下文關(guān)聯(lián)信息的問題。以此為基礎(chǔ),一些企業(yè)級搜索引擎,比如Google、X1,可以將檢索出的結(jié)構(gòu)化數(shù)據(jù)交付BI系統(tǒng),然后將其結(jié)果與自身的搜索索引項建立聯(lián)邦性的關(guān)聯(lián)。與此同時,BI廠商也在不斷強化數(shù)據(jù)的挖掘和定向交付能力。比如Information Builders支持從流程交易環(huán)節(jié)獲取數(shù)據(jù),并且使之對Google企業(yè)搜索引擎可用。

而在目前,面向結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)查詢結(jié)果的聯(lián)邦技術(shù)有望成為BI與搜索技術(shù)融合的一個關(guān)鍵部件。

安全與算法問題

在技術(shù)演進帶來搜索容量提升、BI軟件覆蓋范圍擴大等可喜成果的同時,信息安全問題更加無法逃避。當(dāng)企業(yè)的IT部門在企業(yè)范圍內(nèi)部署了搜索工具,并使之與BI決策分析系統(tǒng)連接起來,數(shù)據(jù)泄漏的風(fēng)險隨之陡然增大。BI分析與搜索功能集成后,企業(yè)員工將獲得更多的數(shù)據(jù)查詢途徑,但跨系統(tǒng)數(shù)據(jù)的訪問控制問題也隨即出現(xiàn)。人們發(fā)現(xiàn),為不同部門、級別的員工在這個集成化的系統(tǒng)中定義權(quán)限并不容易。

其實,在BI領(lǐng)域,訪問控制機制是非常成熟的。目前最需要解決的問題是,如何保證BI與搜索集成之后的系統(tǒng)能夠交付員工需要的所有數(shù)據(jù)。同時準(zhǔn)確地屏蔽那些機密的、不在權(quán)限允許的范圍之內(nèi)的數(shù)據(jù)。有安全專家認(rèn)為,在理想的技術(shù)框架下,單點登錄(SSO)技術(shù)可以解決向員工交付所需完整數(shù)據(jù)的問題,LDAP訪問目錄服務(wù)器可以解決訪問權(quán)限控制的問題。但在實際部署時,數(shù)據(jù)泄漏的問題仍然會在執(zhí)行環(huán)節(jié)出現(xiàn),系統(tǒng)中的很多數(shù)據(jù)所接受的訪問控制并沒有被企業(yè)范圍的訪問機制所嚴(yán)格限制。

一些“BI+搜索”解決方案簡單地在BI包后面或其他的后端應(yīng)用中添加用戶信任機制,并且依賴這些應(yīng)用內(nèi)置的訪問機制去限制反饋結(jié)果。這種做法顯然不夠全面,在實際部署時,企業(yè)安全策略的調(diào)整,在BI系統(tǒng)中搜索引擎添加位置的選擇,都是訪問控制環(huán)節(jié)需要關(guān)注的細(xì)節(jié)問題。

在參與技術(shù)融合的問題上,每個廠商都是自己的切入角度,而這往往是基于其專有技術(shù)的。這在一定程度上導(dǎo)致了目前這個領(lǐng)域所展開的技術(shù)研發(fā)并不是非常秩序化的,正如前面提到的技術(shù)標(biāo)準(zhǔn)化問題。今天,廠商之間已經(jīng)圍繞搜索運算法則展開了較量。

Google一直努力在企業(yè)級搜索領(lǐng)域確立如Web搜索世界中的“權(quán)威”地位,并表示不會公開自己的算法。而IBM則宣稱新推出的基于企業(yè)搜索引擎內(nèi)部相關(guān)權(quán)重因子的新算法。有關(guān)的因子包括客戶點擊特性、格式、文檔進入位置、元數(shù)據(jù)等。很多產(chǎn)品還提供增強特定文檔或URL相關(guān)性的方法,以便他們在既定搜索中占據(jù)首位。針對企業(yè)搜索的特性,一些軟件還允許企業(yè)針對某些特定術(shù)語進行個性化定制,以方便企業(yè)實現(xiàn)對關(guān)鍵業(yè)務(wù)詞匯的定向搜索?!霸谶@個領(lǐng)域,你會遇到各式各樣的問題,它們與Web搜索有很大不同。比較幸運的是,在這里你至少不會遭遇到有些企業(yè)利用卑鄙的手段欺騙你的算法的情況。"Google企業(yè)級產(chǎn)品部門的一位負(fù)責(zé)人風(fēng)趣地說。

特別提示:

“用Google式的搜索引擎覆蓋整個企業(yè)環(huán)境”聽起來容易,但事實卻并非如此。在實施“BI+搜索”項目時,你必須了解以下事實:

■ 廠商演示的魔術(shù)般的功能實際上需要付出艱苦的幕后工作,比如將數(shù)據(jù)查詢映射到企業(yè)的數(shù)據(jù)集合。

■ 企業(yè)需要幫助員工在企業(yè)內(nèi)部找到重要報告的搜索算法。

■ 不同的部門(例如,財務(wù)或銷售)具有不同的搜索要求。

■ 務(wù)必進行訪問控制,使員工不能非法訪問企業(yè)的敏感信息。

■ 企業(yè)可能已經(jīng)擁有了各種嵌入在不同應(yīng)用和門戶中的搜索引擎。

■ 購買者必須在不同的技術(shù)中做出選擇:從Google的搜索專用設(shè)備到分析非結(jié)構(gòu)化數(shù)據(jù)的文本挖掘工具。

■ 目有市場上有很多廠商,這些廠商正在尋求利用科研領(lǐng)域的高級搜索技術(shù)解決企業(yè)問題的方法。

編看編想:BI為什么愛搜索?

咫尺,亦是天涯。BI與搜索的融合之路并不像想象中那樣接近,也不會這般遙遠。也許在今天看來,這個話題太前瞻了。但是在近期內(nèi),這又是BI領(lǐng)域無法回避的焦點。有人認(rèn)為,這是BI廠商希望搭上最近流行的搜索應(yīng)用,進行新一輪的炒作。但當(dāng)我們細(xì)細(xì)品評技術(shù)融合過程中的艱難與收獲,我們發(fā)現(xiàn),這種融合是完全符合IT應(yīng)用邏輯和順應(yīng)潮流的。在駕馭結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的問題上,數(shù)據(jù)庫通過技術(shù)獲得了成功,而BI為什么不可以?何況這正好與企業(yè)搜索技術(shù)的前進路線不謀而合。

現(xiàn)階段BI與搜索的融合過程的確會遇到很多障礙,雙方都要不斷磨礪,才能達到和諧互融。我們不得不正視的是,雖然BI與搜索的交集越來越大,但這個領(lǐng)域要花費一定的時間才能確立規(guī)則。BI面向結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)分析,以及企業(yè)搜索針對非結(jié)構(gòu)化數(shù)據(jù)的廣義文本挖掘,已經(jīng)匯集到以企業(yè)門戶為載體的內(nèi)容管理平臺。但在統(tǒng)一的界面背后,不同類型數(shù)據(jù)的挖掘、分析、展現(xiàn)、控制的過渡和銜接仍顯得突兀。比如Google OneBox只提供一個公共接口,在實現(xiàn)數(shù)據(jù)展現(xiàn)終端合并的同時,數(shù)據(jù)抽取和分析的過程仍是分離的。因此,在肯定融合趨勢的前提之下,如何實現(xiàn)數(shù)據(jù)交付全過程的完整結(jié)合,應(yīng)是當(dāng)前BI與搜索融合技術(shù)研發(fā)的第一要務(wù)。(來自互聯(lián)網(wǎng))

發(fā)布:2007-04-24 12:06    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
福州OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢