監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢(xún)管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶(hù)案例 | 在線試用
X 關(guān)閉

中文南昌OA風(fēng)光無(wú)限--淺談針對(duì)中文南昌OA專(zhuān)門(mén)開(kāi)發(fā)的一些技術(shù)(by 潘越)

申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114

AMTeam.org

IBM中國(guó)研究中心 潘越博士

潘越博士于1998年加入IBM中國(guó)研究中心工作至今。他1996年于中國(guó)科學(xué)院自動(dòng)化研究所獲博士學(xué)位,曾就職于信息產(chǎn)業(yè)部信息化工程總體研究中心。先后主持過(guò)國(guó)際互聯(lián)網(wǎng)內(nèi)容選擇平臺(tái)(PICS)、跨語(yǔ)言檢索(Native Search)、中文知識(shí)門(mén)戶(hù)技術(shù)(Chinese Knowledge Portal)、市場(chǎng)情報(bào)門(mén)戶(hù)(Market Intellig ence Portal)等項(xiàng)目的研究開(kāi)發(fā)。目前的研究興趣包括信息檢索、自然語(yǔ)言處理、知識(shí)的表示和推理等。

知識(shí)就是以文字或語(yǔ)言的形式保存的信息資源與人頭腦中具有的經(jīng)驗(yàn)、思維的綜合,它通常隱性地存在,不容易直接為人們發(fā)現(xiàn)。知識(shí)管理就是對(duì)知識(shí)加以有效的識(shí)別、獲取、存儲(chǔ)、分解、利用、傳遞和擴(kuò)展的過(guò)程,從而改進(jìn)和提高個(gè)人、部門(mén)和組織的創(chuàng)新能力、響應(yīng)能力、生產(chǎn)力和技能素質(zhì)。它可以在適當(dāng)?shù)臅r(shí)候把相關(guān)的信息與知識(shí)傳送到適當(dāng)?shù)娜藛T,使其能夠有效地利用信息與知識(shí),采取行動(dòng),產(chǎn)生效益。知識(shí)管理實(shí)際上是對(duì)人與信息資源的動(dòng)態(tài)管理過(guò)程,人是知識(shí)管理的核心,信息是知識(shí)管理的基礎(chǔ),創(chuàng)新和效益是知識(shí)管理的最終目標(biāo)。

知識(shí)管理技術(shù)是實(shí)現(xiàn)有效知識(shí)管理的基礎(chǔ),是協(xié)助人們識(shí)別、獲取、存儲(chǔ)、分解、利用、傳遞和擴(kuò)展知識(shí)的一種技術(shù)體系。它包括的技術(shù)內(nèi)容非常繁多,其中最重要的是文檔管理技術(shù)、文本挖掘與檢索技術(shù)、企業(yè)知識(shí)門(mén)戶(hù)技術(shù)等。

主要知識(shí)管理技術(shù)

(1)文檔管理技術(shù)

知識(shí)管理技術(shù)中的文檔管理不是信息技術(shù)里的文件管理,更類(lèi)似于檔案管理。它具有分類(lèi)歸檔、外部特征管理、關(guān)鍵詞管理等功能。分類(lèi)歸檔功能用于把各種體裁的文檔納入知識(shí)管理系統(tǒng)的文檔管理系統(tǒng)中,包括新聞稿、產(chǎn)品說(shuō)明書(shū)、設(shè)計(jì)資料、演示文檔、工作報(bào)告等企業(yè)運(yùn)營(yíng)中產(chǎn)生的各種文檔,同時(shí)系統(tǒng)還能將上述文檔在目錄中列出、打開(kāi)和編輯。外部特征管理功能,能自動(dòng)提取文檔的外部特征,并允許按文檔外部特征進(jìn)行檢索。關(guān)鍵詞管理功能允許使用者給出文檔的關(guān)鍵詞以便檢索。文檔管理最重要的價(jià)值在于將原先要由不同系統(tǒng)處理的各類(lèi)文檔集中在一個(gè)平臺(tái)下統(tǒng)一管理。

(2)文本挖掘與檢索技術(shù)

知識(shí)管理技術(shù)的最大瓶頸是如何在海量的非結(jié)構(gòu)化文檔中又快、又準(zhǔn)、又全地找到用戶(hù)所需的文檔。毫無(wú)疑問(wèn),檢索是知識(shí)管理的核心技術(shù),檢索的效率和質(zhì)量決定了知識(shí)管理解決方案的優(yōu)劣。

檢索技術(shù)通常采取兩種方案:一是將文檔歸入一個(gè)有序的結(jié)構(gòu),再按結(jié)構(gòu)規(guī)則提取文檔(檢索),這種方法也被稱(chēng)為文本挖掘(text mining);另一種方案是不建立結(jié)構(gòu),在檢索時(shí),用戶(hù)自由地輸入檢索詞或短語(yǔ),由系統(tǒng)進(jìn)行匹配,并將匹配到的文檔按檢索詞出現(xiàn)頻率的統(tǒng)計(jì)規(guī)則提供給用戶(hù),即全文檢索。

結(jié)構(gòu)化方案本身又可分為兩種:一是由機(jī)器根據(jù)文檔特征,按一定算法自動(dòng)建立有序的結(jié)構(gòu),并將文檔歸入該結(jié)構(gòu);其二是人工建立結(jié)構(gòu),再人工將文檔歸入結(jié)構(gòu)。第一種方法的代表產(chǎn)品是IBM的Text Miner。第二種方法通常采用的結(jié)構(gòu)是樹(shù)狀分類(lèi)表,文檔內(nèi)容按分類(lèi)表歸入某一個(gè)最終子類(lèi),檢索時(shí)可按樹(shù)狀結(jié)構(gòu)一層一層地找到文檔。除分類(lèi)表外,還有另一種方法——主題詞表。它將本領(lǐng)域的主要概念(主題詞)收集在一起,按文檔內(nèi)容所涉及的主題,從主題詞表中選出若干個(gè)概念,作為該文檔的標(biāo)識(shí),并存入數(shù)據(jù)庫(kù)。以后,只要從主題詞表中選出合適的主題詞,就可以提取文檔。

(3)企業(yè)知識(shí)門(mén)戶(hù)技術(shù)

企業(yè)知識(shí)門(mén)戶(hù)現(xiàn)在已經(jīng)成為知識(shí)管理系統(tǒng)的標(biāo)準(zhǔn)配置。對(duì)用戶(hù)來(lái)說(shuō),企業(yè)門(mén)戶(hù)是信息系統(tǒng)的唯一界面,日常工作的一切事務(wù)都可在企業(yè)門(mén)戶(hù)中完成。例如,在企業(yè)門(mén)戶(hù)中可以打開(kāi)各類(lèi)文檔進(jìn)行編輯、訪問(wèn)數(shù)據(jù)庫(kù)、訪問(wèn)Internet和Intranet、收發(fā)郵件、進(jìn)入工作流操作等。企業(yè)門(mén)戶(hù)還可以按不同需求定制??傊?,企業(yè)門(mén)戶(hù)試圖將日益復(fù)雜的應(yīng)用集成到一個(gè)統(tǒng)一的平臺(tái)上。

除此之外,知識(shí)管理技術(shù)還包括數(shù)據(jù)倉(cāng)庫(kù)、工作流、專(zhuān)家系統(tǒng)、商業(yè)智能等技術(shù)。但是由于理解不同,至今為止還沒(méi)有統(tǒng)一、科學(xué)和規(guī)范的知識(shí)管理技術(shù)分類(lèi)標(biāo)準(zhǔn)。

針對(duì)中文的知識(shí)管理技術(shù)

中文是世界上使用人口最多的語(yǔ)言,但現(xiàn)代信息技術(shù)對(duì)中文的貢獻(xiàn)卻遠(yuǎn)遠(yuǎn)落后于其它語(yǔ)言。目前成熟、領(lǐng)先的知識(shí)管理技術(shù)都針對(duì)于英語(yǔ)、法語(yǔ)等語(yǔ)種,在中文內(nèi)容的理解、檢索和表示上都存在著或多或少不盡人意的地方,對(duì)中文內(nèi)容管理技術(shù)的投入也遠(yuǎn)遠(yuǎn)低于其他語(yǔ)言。此外,中國(guó)企業(yè)的管理體制與西方大不相同。如果直接應(yīng)用國(guó)外的知識(shí)管理工具,可能會(huì)存在很多水土不服的地方。因此需要針對(duì)中文知識(shí)管理專(zhuān)門(mén)開(kāi)發(fā)一些技術(shù)。

IBM一直致力于中文自然語(yǔ)言理解技術(shù)的研究,并且在此研究基礎(chǔ)上,開(kāi)發(fā)出了一系列用于中文知識(shí)管理的技術(shù),包括中文智能檢索技術(shù),中文摘要智能生成技術(shù),中文文本自動(dòng)分類(lèi)技術(shù),中文文本自動(dòng)聚類(lèi)技術(shù),中文主題檢測(cè)與追蹤技術(shù)以及中文文本消重與相似檢索技術(shù)。在這些技術(shù)中,IBM采用了最新的自然語(yǔ)言處理算法,通過(guò)運(yùn)用這些技術(shù),可以大大提高中文信息檢索速度和質(zhì)量,從而加快中國(guó)企業(yè)信息化和管理科學(xué)化的發(fā)展。

中文智能檢索技術(shù):中文智能檢索技術(shù)是為知識(shí)發(fā)現(xiàn)提供服務(wù)的一項(xiàng)技術(shù)。它一般包括索引創(chuàng)建、查詢(xún)處理和結(jié)果排序等內(nèi)容。為了提高中文檢索的速度和準(zhǔn)確性,IBM的中文智能檢索技術(shù)在檢索的整個(gè)過(guò)程中都使用了先進(jìn)的中文處理技術(shù),同時(shí)還考慮最終用戶(hù)的使用環(huán)境與習(xí)慣,使查詢(xún)結(jié)果能夠最大程度地滿(mǎn)足用戶(hù)的要求,從而提高用戶(hù)的查詢(xún)效率。

文本自動(dòng)分類(lèi)技術(shù):分類(lèi)是為知識(shí)管理提供文件分類(lèi)歸檔的一種重要方法。通過(guò)分類(lèi),用戶(hù)可以更快速、精準(zhǔn)、有效地取得并處理所要的數(shù)據(jù)。在文本自動(dòng)分類(lèi)技術(shù)中,用戶(hù)只需要事先定義好分類(lèi)器的架構(gòu),并經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,之后系統(tǒng)便可以依據(jù)分類(lèi)器的內(nèi)容對(duì)新的文本自動(dòng)分類(lèi)。分類(lèi)時(shí),除了用參考以前訓(xùn)練樣本的統(tǒng)計(jì)數(shù)據(jù)外,用戶(hù)還可以指定特殊的規(guī)則進(jìn)行分類(lèi)時(shí)的參考。這個(gè)技術(shù)可應(yīng)用在多個(gè)領(lǐng)域中,例如:在網(wǎng)站管理中,管理員可以建立并訓(xùn)練好分類(lèi)器,以后每當(dāng)有新的文章到來(lái)時(shí),就可以利用分類(lèi)器快速得知它屬于哪個(gè)類(lèi)別。

文本自動(dòng)聚類(lèi)技術(shù):自動(dòng)文件聚類(lèi)技術(shù)是為知識(shí)管理提供文件分類(lèi)歸檔的另一種重要方法,它可以讓用戶(hù)對(duì)大量的文章進(jìn)行快速且粗略的分類(lèi)。用戶(hù)事前完全不需要對(duì)系統(tǒng)進(jìn)行訓(xùn)練,系統(tǒng)會(huì)根據(jù)文件的內(nèi)容,自動(dòng)將內(nèi)容相近的文件歸成同一類(lèi)。通過(guò)本技術(shù),使用者可以對(duì)大量的文章進(jìn)行快速的分類(lèi)。

自動(dòng)摘要生成技術(shù):自動(dòng)摘要生成技術(shù)可以針對(duì)中文文檔摘取出重要的句子,產(chǎn)生屬于該文檔的摘要。應(yīng)用這個(gè)技術(shù),用戶(hù)可以快速?gòu)亩嗥恼轮校舫鲋匾幕蚋信d趣的文章閱讀。使用時(shí),使用者可動(dòng)態(tài)決定生成摘要的大小,摘要的內(nèi)容,并可針對(duì)多篇文章產(chǎn)生一份摘要。

主題偵測(cè)與追蹤技術(shù):主題偵測(cè)與追蹤技術(shù)包含了主題偵測(cè)和主題追蹤兩個(gè)功能。用于發(fā)現(xiàn)輸入流中的新主題,并自動(dòng)跟蹤相關(guān)主體的文章,可應(yīng)用于很大的文檔集合。

自動(dòng)查重和文章相似檢索技術(shù):自動(dòng)查重和文本相似檢索技術(shù)可以幫助用戶(hù)自動(dòng)發(fā)現(xiàn)重復(fù)文章、相似文章,可以應(yīng)用于文檔查重等諸多領(lǐng)域。

IBM所提供的這些中文信息檢索技術(shù)不僅滿(mǎn)足了中國(guó)企業(yè)知識(shí)管理的簡(jiǎn)單、快速、全面、精確的要求,通過(guò)與數(shù)據(jù)庫(kù)管理軟件IBM DB2 / Content Manager / Information Integrator的集成,將大大提高了工作效率和知識(shí)發(fā)現(xiàn)能力,而且還進(jìn)一步鞏固了IBM在該領(lǐng)域的領(lǐng)先地位。目前,這些技術(shù)正在一些領(lǐng)域得到廣泛應(yīng)用。

轉(zhuǎn)自:新浪

發(fā)布:2007-03-25 10:52    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
南昌OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢(xún):400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢(xún)