監(jiān)理公司管理系統 | 工程企業(yè)管理系統 | OA系統 | ERP系統 | 造價咨詢管理系統 | 工程設計管理系統 | 甲方項目管理系統 | 簽約案例 | 客戶案例 | 在線試用
X 關閉

中文南昌OA風光無限--淺談針對中文南昌OA專門開發(fā)的一些技術(by 潘越)

申請免費試用、咨詢電話:400-8352-114

AMTeam.org

IBM中國研究中心 潘越博士

潘越博士于1998年加入IBM中國研究中心工作至今。他1996年于中國科學院自動化研究所獲博士學位,曾就職于信息產業(yè)部信息化工程總體研究中心。先后主持過國際互聯網內容選擇平臺(PICS)、跨語言檢索(Native Search)、中文知識門戶技術(Chinese Knowledge Portal)、市場情報門戶(Market Intellig ence Portal)等項目的研究開發(fā)。目前的研究興趣包括信息檢索、自然語言處理、知識的表示和推理等。

知識就是以文字或語言的形式保存的信息資源與人頭腦中具有的經驗、思維的綜合,它通常隱性地存在,不容易直接為人們發(fā)現。知識管理就是對知識加以有效的識別、獲取、存儲、分解、利用、傳遞和擴展的過程,從而改進和提高個人、部門和組織的創(chuàng)新能力、響應能力、生產力和技能素質。它可以在適當的時候把相關的信息與知識傳送到適當的人員,使其能夠有效地利用信息與知識,采取行動,產生效益。知識管理實際上是對人與信息資源的動態(tài)管理過程,人是知識管理的核心,信息是知識管理的基礎,創(chuàng)新和效益是知識管理的最終目標。

知識管理技術是實現有效知識管理的基礎,是協助人們識別、獲取、存儲、分解、利用、傳遞和擴展知識的一種技術體系。它包括的技術內容非常繁多,其中最重要的是文檔管理技術、文本挖掘與檢索技術、企業(yè)知識門戶技術等。

主要知識管理技術

(1)文檔管理技術

知識管理技術中的文檔管理不是信息技術里的文件管理,更類似于檔案管理。它具有分類歸檔、外部特征管理、關鍵詞管理等功能。分類歸檔功能用于把各種體裁的文檔納入知識管理系統的文檔管理系統中,包括新聞稿、產品說明書、設計資料、演示文檔、工作報告等企業(yè)運營中產生的各種文檔,同時系統還能將上述文檔在目錄中列出、打開和編輯。外部特征管理功能,能自動提取文檔的外部特征,并允許按文檔外部特征進行檢索。關鍵詞管理功能允許使用者給出文檔的關鍵詞以便檢索。文檔管理最重要的價值在于將原先要由不同系統處理的各類文檔集中在一個平臺下統一管理。

(2)文本挖掘與檢索技術

知識管理技術的最大瓶頸是如何在海量的非結構化文檔中又快、又準、又全地找到用戶所需的文檔。毫無疑問,檢索是知識管理的核心技術,檢索的效率和質量決定了知識管理解決方案的優(yōu)劣。

檢索技術通常采取兩種方案:一是將文檔歸入一個有序的結構,再按結構規(guī)則提取文檔(檢索),這種方法也被稱為文本挖掘(text mining);另一種方案是不建立結構,在檢索時,用戶自由地輸入檢索詞或短語,由系統進行匹配,并將匹配到的文檔按檢索詞出現頻率的統計規(guī)則提供給用戶,即全文檢索。

結構化方案本身又可分為兩種:一是由機器根據文檔特征,按一定算法自動建立有序的結構,并將文檔歸入該結構;其二是人工建立結構,再人工將文檔歸入結構。第一種方法的代表產品是IBM的Text Miner。第二種方法通常采用的結構是樹狀分類表,文檔內容按分類表歸入某一個最終子類,檢索時可按樹狀結構一層一層地找到文檔。除分類表外,還有另一種方法——主題詞表。它將本領域的主要概念(主題詞)收集在一起,按文檔內容所涉及的主題,從主題詞表中選出若干個概念,作為該文檔的標識,并存入數據庫。以后,只要從主題詞表中選出合適的主題詞,就可以提取文檔。

(3)企業(yè)知識門戶技術

企業(yè)知識門戶現在已經成為知識管理系統的標準配置。對用戶來說,企業(yè)門戶是信息系統的唯一界面,日常工作的一切事務都可在企業(yè)門戶中完成。例如,在企業(yè)門戶中可以打開各類文檔進行編輯、訪問數據庫、訪問Internet和Intranet、收發(fā)郵件、進入工作流操作等。企業(yè)門戶還可以按不同需求定制??傊?,企業(yè)門戶試圖將日益復雜的應用集成到一個統一的平臺上。

除此之外,知識管理技術還包括數據倉庫、工作流、專家系統、商業(yè)智能等技術。但是由于理解不同,至今為止還沒有統一、科學和規(guī)范的知識管理技術分類標準。

針對中文的知識管理技術

中文是世界上使用人口最多的語言,但現代信息技術對中文的貢獻卻遠遠落后于其它語言。目前成熟、領先的知識管理技術都針對于英語、法語等語種,在中文內容的理解、檢索和表示上都存在著或多或少不盡人意的地方,對中文內容管理技術的投入也遠遠低于其他語言。此外,中國企業(yè)的管理體制與西方大不相同。如果直接應用國外的知識管理工具,可能會存在很多水土不服的地方。因此需要針對中文知識管理專門開發(fā)一些技術。

IBM一直致力于中文自然語言理解技術的研究,并且在此研究基礎上,開發(fā)出了一系列用于中文知識管理的技術,包括中文智能檢索技術,中文摘要智能生成技術,中文文本自動分類技術,中文文本自動聚類技術,中文主題檢測與追蹤技術以及中文文本消重與相似檢索技術。在這些技術中,IBM采用了最新的自然語言處理算法,通過運用這些技術,可以大大提高中文信息檢索速度和質量,從而加快中國企業(yè)信息化和管理科學化的發(fā)展。

中文智能檢索技術:中文智能檢索技術是為知識發(fā)現提供服務的一項技術。它一般包括索引創(chuàng)建、查詢處理和結果排序等內容。為了提高中文檢索的速度和準確性,IBM的中文智能檢索技術在檢索的整個過程中都使用了先進的中文處理技術,同時還考慮最終用戶的使用環(huán)境與習慣,使查詢結果能夠最大程度地滿足用戶的要求,從而提高用戶的查詢效率。

文本自動分類技術:分類是為知識管理提供文件分類歸檔的一種重要方法。通過分類,用戶可以更快速、精準、有效地取得并處理所要的數據。在文本自動分類技術中,用戶只需要事先定義好分類器的架構,并經過適當的訓練,之后系統便可以依據分類器的內容對新的文本自動分類。分類時,除了用參考以前訓練樣本的統計數據外,用戶還可以指定特殊的規(guī)則進行分類時的參考。這個技術可應用在多個領域中,例如:在網站管理中,管理員可以建立并訓練好分類器,以后每當有新的文章到來時,就可以利用分類器快速得知它屬于哪個類別。

文本自動聚類技術:自動文件聚類技術是為知識管理提供文件分類歸檔的另一種重要方法,它可以讓用戶對大量的文章進行快速且粗略的分類。用戶事前完全不需要對系統進行訓練,系統會根據文件的內容,自動將內容相近的文件歸成同一類。通過本技術,使用者可以對大量的文章進行快速的分類。

自動摘要生成技術:自動摘要生成技術可以針對中文文檔摘取出重要的句子,產生屬于該文檔的摘要。應用這個技術,用戶可以快速從多篇文章中,挑出重要的或感興趣的文章閱讀。使用時,使用者可動態(tài)決定生成摘要的大小,摘要的內容,并可針對多篇文章產生一份摘要。

主題偵測與追蹤技術:主題偵測與追蹤技術包含了主題偵測和主題追蹤兩個功能。用于發(fā)現輸入流中的新主題,并自動跟蹤相關主體的文章,可應用于很大的文檔集合。

自動查重和文章相似檢索技術:自動查重和文本相似檢索技術可以幫助用戶自動發(fā)現重復文章、相似文章,可以應用于文檔查重等諸多領域。

IBM所提供的這些中文信息檢索技術不僅滿足了中國企業(yè)知識管理的簡單、快速、全面、精確的要求,通過與數據庫管理軟件IBM DB2 / Content Manager / Information Integrator的集成,將大大提高了工作效率和知識發(fā)現能力,而且還進一步鞏固了IBM在該領域的領先地位。目前,這些技術正在一些領域得到廣泛應用。

轉自:新浪

發(fā)布:2007-03-25 10:52    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
南昌OA系統
聯系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統

QQ在線咨詢