當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 廣東OA系統(tǒng) > 深圳OA系統(tǒng) > 深圳OA快博
文本驅(qū)動(dòng)的商務(wù)智能應(yīng)用框架與實(shí)現(xiàn)過程
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
來源:泛普軟件1 文本驅(qū)動(dòng)的商務(wù)智能應(yīng)用框架
文本驅(qū)動(dòng)的商務(wù)智能是文本挖掘技術(shù)在商務(wù)領(lǐng)域中的應(yīng)用,嚴(yán)格的講,文本挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新分支,但與傳統(tǒng)數(shù)據(jù)挖掘相比,在技術(shù)上有很大的不同,并且其應(yīng)用更廣,因此,筆者認(rèn)為為了強(qiáng)調(diào)文本挖掘在商務(wù)智能中的重要性,并與傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)的商務(wù)智能相區(qū)別,美國clearforest公司提出“文本驅(qū)動(dòng)的商務(wù)智能”這一概念是可取的。
現(xiàn)在企業(yè)內(nèi)外充斥著大量的文本信息,如技術(shù)報(bào)告,市場(chǎng)報(bào)告,各種文書,擔(dān)保材料,呼叫中心的客戶投訴記錄,交互式訪談或客戶發(fā)送的E-mail意見或建議,以及企業(yè)外部尤其是網(wǎng)上與行業(yè)發(fā)展有關(guān)的新聞報(bào)道,產(chǎn)品與技術(shù)報(bào)道以及競(jìng)爭(zhēng)對(duì)手的動(dòng)向等等。對(duì)這些非結(jié)構(gòu)化以及半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析挖掘,可以發(fā)現(xiàn)產(chǎn)品存在的問題,客戶的需求以及忠誠度,競(jìng)爭(zhēng)對(duì)手的動(dòng)向以及行業(yè)的發(fā)展趨勢(shì)等。如圖1展示了文本分析在企業(yè)管理與決策支持中的應(yīng)用框架。
圖1 文本驅(qū)動(dòng)的商務(wù)智能應(yīng)用框架
文本驅(qū)動(dòng)的商務(wù)智能文本是建立在文本挖掘技術(shù)基礎(chǔ)上的,其不但要處理大量半結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔,而且還要處理其中復(fù)雜的語義關(guān)系,因此,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用。對(duì)于非結(jié)構(gòu)化問題,一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,由于數(shù)據(jù)非常復(fù)雜,導(dǎo)致這種算法的復(fù)雜性很高;另一條途徑就是將非結(jié)構(gòu)化間題結(jié)構(gòu)化,利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,目前的文本挖掘一般采用該途徑進(jìn)行處理。對(duì)于語義關(guān)系,則需要集成計(jì)算語言學(xué)和自然語言處理等成果進(jìn)行分析。
文本挖掘可以通過圖2有個(gè)大致理解。它由三部分組成:底層是文本挖掘的基礎(chǔ)領(lǐng)域,在此基礎(chǔ)上是文本挖掘的基本技術(shù),最上層是應(yīng)用,包括信息訪問和知識(shí)發(fā)現(xiàn),其中信息訪間包括信息檢索、信息瀏覽、信息過濾、信息報(bào)告等,知識(shí)發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預(yù)測(cè)等。
圖2 文本挖掘的技術(shù)構(gòu)成
其中,信息抽取技術(shù)是將非結(jié)構(gòu)問題轉(zhuǎn)化為結(jié)構(gòu)化問題的關(guān)鍵,同時(shí),在商務(wù)智能中,商務(wù)信息的抽取又是發(fā)現(xiàn)商機(jī)的前提,因此,在文本驅(qū)動(dòng)的商務(wù)智能中起著至關(guān)重要的作用。
2 文本驅(qū)動(dòng)的商務(wù)智能案例——CLearForest Text Analysis Suite
ClearForest公司是將非結(jié)構(gòu)化的內(nèi)容轉(zhuǎn)變?yōu)橛袃r(jià)值的商業(yè)智能行業(yè)中的領(lǐng)導(dǎo)者,其創(chuàng)始人Ronen Feldman博士被稱為文本挖掘之父。文本驅(qū)動(dòng)商務(wù)智能這一概念就是QearFon}t倡導(dǎo)的,并提供了解決方案——C.learFoiest Text Analysis Suite。
C1esrForest的解決方案應(yīng)用了對(duì)自由文本中存在的關(guān)鍵實(shí)體(如人、公司、地點(diǎn)、事實(shí)或事件)進(jìn)行智能標(biāo)注并提取的技術(shù),一旦信息提取并結(jié)構(gòu)化,這些信息就能夠用于獨(dú)立的分析應(yīng)用或者載入公司既有的數(shù)據(jù)集市并與結(jié)構(gòu)化數(shù)據(jù)結(jié)合以提供更全面的商務(wù)智能。下面簡(jiǎn)單分析一下其工作過程,如圖3所示。
圖3 CLearForest Text Analysis Suite的工作圖
Tagging就是對(duì)文本進(jìn)行預(yù)處理,包括文本格式識(shí)別,句法分割(Sentence Splitting),詞性標(biāo)注(P0S tagging),詞干提取(sternnting),停用詞剔除,同義詞處理,歧義消除(Sense Disambiguation)等。通過這些預(yù)處理將文本分解成為有一定語言意義的語言片段,并對(duì)這些語言片段進(jìn)行標(biāo)記,使文本能夠被轉(zhuǎn)換成為更易于被信息抽取系統(tǒng)處理的模式。
Extraction就是信息提取,指從文本中抽取用戶感興趣的實(shí)體、事件、關(guān)系等特定信息,除了一般的概念、術(shù)語外,更重要的是人名、地名、公司名、時(shí)間、地點(diǎn)等未登陸詞的提取,并通過句法分析與推理識(shí)別文本中的共指現(xiàn)象,發(fā)生的事件,最后還要合并描述同一事件或?qū)嶓w的信息片段,以形成實(shí)體或事件的完整描述。G1esrForeat采用統(tǒng)計(jì)分析與語義分析相結(jié)合的方法,對(duì)文本的內(nèi)容進(jìn)行分析提取,提取的信息可用XML語言結(jié)構(gòu)化表示,或進(jìn)一步導(dǎo)入關(guān)系數(shù)據(jù)庫中以進(jìn)行分析挖掘。圖4為信息抽取的例子。
圖4 CLearForest Text Analysis Suite信息抽取的圖例
對(duì)于抽取的信息進(jìn)行結(jié)構(gòu)化表示后,一部分如與客戶,產(chǎn)品有關(guān)的信息可以與傳統(tǒng)商務(wù)智能相結(jié)合,以追蹤業(yè)務(wù)數(shù)據(jù)中反映出的某些問題的來龍去脈。此外,還可以單獨(dú)的進(jìn)行分析挖掘,如分類、聚類、文本總結(jié)以及關(guān)聯(lián)規(guī)則挖掘等處理,以供檢索利用以及新信息新知識(shí)的發(fā)現(xiàn)。分類聚類是大規(guī)模文本組織、開發(fā)和檢索的基礎(chǔ),也是從大量文檔中發(fā)現(xiàn)規(guī)律與趨勢(shì)的基礎(chǔ)。例如,可以對(duì)來自不同客戶的E-mail進(jìn)行聚類以發(fā)現(xiàn)某些具有共性的問題。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行摘要或解釋,幫助用戶快速瀏覽選擇。關(guān)聯(lián)規(guī)則分析就是找出兩個(gè)或多個(gè)變量的取值之間存在的某種規(guī)律性,在商務(wù)應(yīng)用中,就是通過設(shè)定關(guān)聯(lián)的條件與規(guī)則,如實(shí)體(如技術(shù)、產(chǎn)品、人物或事件)在某些條件共同出現(xiàn)的頻次,來找出不同實(shí)體之間的關(guān)系,從而支持決策分析。對(duì)一些預(yù)先設(shè)定的信息監(jiān)測(cè)或預(yù)警目標(biāo),當(dāng)分析挖掘的結(jié)果滿足某種條件時(shí),則給出相應(yīng)的報(bào)告與預(yù)警。
ClearForest Text Analysis Suite有個(gè)特色就是內(nèi)容衍生應(yīng)用(Content Derivative Applications)。內(nèi)容衍生應(yīng)用就是將現(xiàn)存的內(nèi)容重新調(diào)整以展示出其間包含的內(nèi)在價(jià)值,并集成到用戶的工作當(dāng)中,幫助用戶解決問題,是啟發(fā)觀點(diǎn)的交互式應(yīng)用。這種應(yīng)用不是簡(jiǎn)單的組織文檔以供檢索利用,而是直接深入文檔的內(nèi)容,在信息提取的基礎(chǔ)上,對(duì)文檔中的關(guān)鍵信息進(jìn)行重新組合,為用戶提供直接的答案,省卻大量查閱之苦。如圖5為一個(gè)反映人物概況(People Profiles)的內(nèi)容衍生應(yīng)用例子。
圖5 內(nèi)容衍生應(yīng)用的例子:人物概況(People Profiles)
目前ClearForest彈產(chǎn)品已受到汽車、醫(yī)藥、金融等行業(yè)中的一些重要公司的青睞,并在質(zhì)量管理,客戶忠誠度管理,競(jìng)爭(zhēng)情報(bào)等領(lǐng)域有著相應(yīng)的解決方案與應(yīng)用。
3 文本驅(qū)動(dòng)的商務(wù)智能在中國發(fā)展的障礙與前景分析
3.1 中國發(fā)展文本驅(qū)動(dòng)的商務(wù)智能的技術(shù)瓶頸——中文信息抽取
文本驅(qū)動(dòng)已成為商務(wù)智能的熱點(diǎn),尤其是在美國,IBM、SPSS、SAS以及其他一些著名的商務(wù)智能產(chǎn)品提供商都陸續(xù)提供文本挖掘產(chǎn)品,如IBM Intelligent Miner for Text,SPSS Predictive Text Analytics,SAS Text Miner等等。但是從全世界范圍內(nèi)來看,文本驅(qū)動(dòng)的商務(wù)智能還沒形成氣候,尤其是在中國。除了中國的企業(yè)信息化建設(shè)滯后這一根植于社會(huì)的基本原因外,還有一個(gè)很關(guān)鍵的技術(shù)瓶頸——中文信息抽取。
信息抽取與信息檢索不同,信息抽取不是利用關(guān)鍵詞匹配技術(shù)從大量文檔集中找到與用戶需求相關(guān)的文檔,而是借助自然語言處理技術(shù)對(duì)文本中的句子以及篇章進(jìn)行分析處理后直接獲得用戶感興趣的事實(shí)信息。根據(jù)消息理解會(huì)議(MUC)的定義,信息抽取的任務(wù)有5個(gè)層次。
(1)命名實(shí)體(NE)的識(shí)別。抽取文檔中的人名、地名、組織名、日期、時(shí)間和涉及的一些數(shù)額等信息內(nèi)容。命名實(shí)體的識(shí)別技術(shù)是信息抽取技術(shù)中最簡(jiǎn)單,也是最可靠的技術(shù)。
(2)指代(CO)的解析。分析文檔內(nèi)以及文本間(跨文本)實(shí)體之間的指代關(guān)系,將不同的指代連接到同一實(shí)體上。
(3)模板元素(TE)的構(gòu)建。將描述性信息聯(lián)系到實(shí)體上,形成對(duì)實(shí)體的完整描述。
(4)模板關(guān)系(TR)的構(gòu)建。發(fā)現(xiàn)實(shí)體之間的相互關(guān)系,在模板元素的基礎(chǔ)上,尋找實(shí)體之間可能存在的關(guān)系。
(5)場(chǎng)景模板(ST)的產(chǎn)生。場(chǎng)景模板是信息抽取系統(tǒng)輸出的原型,場(chǎng)景模板的產(chǎn)生就是將各實(shí)體聯(lián)系到一起形成事件或關(guān)系的完整描述。
中文信息抽取的研究起步較晚,目前還集中在命名實(shí)體識(shí)別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。與英文信息抽取相比,中文信息抽取面臨著更多的困難,其中首要是自動(dòng)分詞問題,因?yàn)闈h語中詞的概念缺乏清晰的界定,詞與詞之間缺乏像英文一樣的空格切分符,更難的是歧義切分字段的處理,雖然經(jīng)過是十幾年的研究,在速度與精度上取得了令人矚目的成果,但還有待進(jìn)一步的研究與提高。此外可供利用的語料庫、本體庫也較缺乏,目前中文信息抽取的一些實(shí)驗(yàn)研究成果(主要在命名實(shí)體的識(shí)別方面)在開放的語料庫上測(cè)試的召回率與準(zhǔn)確率都不太理想,系統(tǒng)可移植性的實(shí)施還存在困難。信息抽取技術(shù)是文本挖掘的重要基礎(chǔ),這一點(diǎn)從圖2與圖3就可以看出來,因此中文信息抽取技術(shù)得不到突破,文本驅(qū)動(dòng)的商務(wù)智能就難以在中國發(fā)展。
3.2前景分析
根據(jù)計(jì)世資訊(CCW Research)的分析,信息化建設(shè)像搭建一個(gè)金字塔,它可分為三個(gè)層次,BI位于這三個(gè)層次中的最頂層,它的建設(shè)需要其他系統(tǒng)的支持,如圖6顯示信息化建設(shè)層次圖。
圖6 信息化建設(shè)層次圖
商業(yè)智能(BI)系統(tǒng)已經(jīng)成為繼企業(yè)資源計(jì)劃(深圳OA)之后最重要的信息系統(tǒng)。在中國,商業(yè)智能也已經(jīng)被越來越多的企業(yè)管理者所認(rèn)識(shí),并且在電信、金融、零售、流通等行業(yè),商業(yè)智能已經(jīng)成為信息化建設(shè)的重點(diǎn)。根據(jù)計(jì)世資訊的相關(guān)數(shù)據(jù)顯示,2004年國內(nèi)BI的銷售額為4.2億,2005年則達(dá)到6.1億,增長率為45%,但計(jì)世資訊的調(diào)研結(jié)果也表明,我國企業(yè)的信息化水平普遍偏低,目前仍處于初級(jí)階段,其中,在大型企業(yè)中信息化水平處于業(yè)務(wù)整合的比例為17%,達(dá)到成熟階段水平的比例僅為1%,而在中小企業(yè)中,業(yè)務(wù)整合、系統(tǒng)整合和成熟階段三個(gè)階段之和占總體信息化水平的比例不足1%。因此如果不能快速提高國內(nèi)信息化水平,未來幾年BI系統(tǒng)在國內(nèi)市場(chǎng)將很難得到快速發(fā)展。
雖然商務(wù)智能是建立在企業(yè)系統(tǒng)集成階段之上的應(yīng)用,但文本驅(qū)動(dòng)的商務(wù)智能作為商務(wù)智能系統(tǒng)的一個(gè)子系統(tǒng)(如競(jìng)爭(zhēng)情報(bào)的搜集與分析系統(tǒng)),可以不經(jīng)過業(yè)務(wù)與系統(tǒng)的集成而直接開發(fā)應(yīng)用,發(fā)揮企業(yè)的決策支持作用。因此隨著企業(yè)對(duì)商務(wù)智能的認(rèn)識(shí)的不斷深入,隨著中文信息抽取以及文本挖掘技術(shù)的發(fā)展,文本驅(qū)動(dòng)的商務(wù)智能必將得到國內(nèi)IT以及企業(yè)界的重視并得到快速的發(fā)展與應(yīng)用。
4 結(jié) 語
從大量的文本中尋找關(guān)聯(lián),發(fā)現(xiàn)新知已不是什么新鮮話題,但是采用先進(jìn)的文本挖掘技術(shù)并應(yīng)用在商業(yè)領(lǐng)域則是近幾年的一種新氣象。從目前國際商務(wù)智能技術(shù)與產(chǎn)品的發(fā)展走向看,文本驅(qū)動(dòng)的商務(wù)智能是一種必然的趨勢(shì)。目前,雖然我國還存在著這樣那樣的困難與障礙,使得發(fā)展文本驅(qū)動(dòng)的商務(wù)智能還為時(shí)過早,但隨著國內(nèi)商務(wù)智能發(fā)展熱潮的到來以及中文信息抽取及文本挖掘技術(shù)的發(fā)展,文本驅(qū)動(dòng)的商務(wù)智能必將得到IT以及企業(yè)界的重視并得到快速的發(fā)展與應(yīng)用,并且?guī)砭薮蟮纳虡I(yè)利益。(萬方數(shù)據(jù))
- 1協(xié)同辦公OA軟件在企業(yè)中的深度管理數(shù)據(jù)挖掘
- 2高級(jí)計(jì)劃與排程如何解決供應(yīng)鏈的應(yīng)用問題
- 3如何理解信息化項(xiàng)目成敗的判定標(biāo)準(zhǔn)
- 4企業(yè)如何做好深圳OA項(xiàng)目啟動(dòng)會(huì)的準(zhǔn)備?
- 5送你一雙慧眼 識(shí)破偽知識(shí)管理軟件
- 6信息化是否是中小企業(yè)最后的救命稻草
- 7收集用戶要求改進(jìn)的建議,不段完善OA系統(tǒng)
- 8如何給深圳OA系統(tǒng)軟件進(jìn)行合理定價(jià)
- 9初學(xué)者入門:供應(yīng)鏈管理軟件基本功能
- 10互聯(lián)網(wǎng)營銷成為降低中小企業(yè)成本的新招
- 11阻礙企業(yè)信息化建設(shè)的七大因素
- 12面向服務(wù)的架構(gòu)SOA有哪些基本原則
- 13不要拋開業(yè)務(wù)談流程管理
- 14開源軟件SOA解決方案對(duì)企業(yè)三大好處
- 15實(shí)施深圳OA需要避開的三大誤區(qū)
- 16企業(yè)實(shí)施SOA都有哪四大基本收益?
- 17采用綠色I(xiàn)T方式會(huì)不會(huì)增加企業(yè)的投資?
- 18BPR應(yīng)用:全面質(zhì)量管理和6σ協(xié)同的業(yè)務(wù)
- 19痛苦的抉擇 ITIL三大產(chǎn)品怎么選
- 20沸騰的深圳OA時(shí)代 企業(yè)IT面臨新挑戰(zhàn)
- 21企業(yè)級(jí)用戶如何選擇VTL(虛擬磁帶庫)
- 22SaaS深陷爭(zhēng)議“泥潭”
- 23深圳OA實(shí)施如脫韁野馬 里程碑式管理立奇功
- 24SOA實(shí)施技巧:對(duì)技能集和文化進(jìn)行分析
- 25采用綠色I(xiàn)T方式是否會(huì)增加企業(yè)的投資?
- 26時(shí)間,如何左右企業(yè)的信息化項(xiàng)目計(jì)劃?
- 27中小企業(yè)應(yīng)如何租用和購買銷售管理軟件
- 28專家稱門戶服務(wù)將成為SOA架構(gòu)的關(guān)鍵
- 29SaaS給成長型的企業(yè)CIO帶來新機(jī)遇
- 30OA為整個(gè)資產(chǎn)OA系統(tǒng)的實(shí)施推進(jìn)起到了關(guān)鍵作用
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓