全文檢索技術(shù)的深層剖析

AMTeam.org

全文檢索技術(shù)的深層剖析

肖詩斌

將文章中所有的文字序列都作為檢索對象，找出包含有欲檢索詞匯的文章，這就是全文檢索。全文檢索技術(shù)根據(jù)使用領(lǐng)域分為兩類：互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)。兩者使用的核心技術(shù)都是全文檢索，但側(cè)重點有所不同。

全文檢索技術(shù)的兩大類別

互聯(lián)網(wǎng)搜索引擎面向的是Internet上大量的雜亂無章的網(wǎng)頁，主要目的是找到一些有用的參考信息和屏蔽一些有害信息，盡量把有用的網(wǎng)頁排在前面。關(guān)于有用性，有各種度量方法，比如根據(jù)pagelink網(wǎng)頁鏈接的多少作為網(wǎng)頁重要性的依據(jù)，或者根據(jù)出錢的多少決定網(wǎng)頁重要性的競價系統(tǒng)。前者代表性的系統(tǒng)有Google，后者代表性的系統(tǒng)有百度。互聯(lián)網(wǎng)搜索引擎的共同特點是不追求企業(yè)應(yīng)用要求的高度查全率和高度查準率。另外，由于數(shù)據(jù)量巨大，后臺索引和檢索數(shù)據(jù)庫需要強大的硬件服務(wù)器群支持幾百上千臺服務(wù)器，甚至上萬臺，以及好的體系結(jié)構(gòu)設(shè)計和適合全文檢索系統(tǒng)運行的硬件服務(wù)器選型。這也是為什么成功的互聯(lián)網(wǎng)搜索引擎都是以ASP方式提供服務(wù)，以及為什么互聯(lián)網(wǎng)搜索引擎廠家的全文檢索系統(tǒng)應(yīng)用到企業(yè)中往往以失敗告終。其原因殊不知互聯(lián)網(wǎng)搜索引擎的強大功能是由后臺強大的硬件服務(wù)器群和適合的體系結(jié)構(gòu)支撐的，而不是因為它本身的技術(shù)好。再者，企業(yè)應(yīng)用要求的高度查全率和高度查準率，以及信息更新的實時性，它很難做到。

企業(yè)內(nèi)容檢索系統(tǒng)要求查詢結(jié)果具備高度查全率和高度查準率，以及信息更新的實時性。企業(yè)信息相對而言是經(jīng)過整理的有用信息。在高度查準率的同時要求高度查全率。高度查準率的目的是讓用戶節(jié)省時間早點找到有用信息；高度查全率是為了全面分析情報而不錯過商機。也因為這個原因，互聯(lián)網(wǎng)搜索引擎為了提高查詢速度普遍采用的估算技術(shù)在企業(yè)應(yīng)用中很難派上用場。不是在所有的服務(wù)器里檢索信息，只是在相應(yīng)的一些服務(wù)器里檢索信息，然后在返回首批檢索結(jié)果時根據(jù)經(jīng)驗估算總的檢索命中數(shù)。企業(yè)收集到情報后希望它的使用者馬上能夠檢索到它，而不是還要經(jīng)過一個長時間的延遲。

互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)的不同點還有：互聯(lián)網(wǎng)搜索引擎系統(tǒng)的信息來源于文件系統(tǒng)的HTML文件，包括一些動態(tài)網(wǎng)頁。而企業(yè)內(nèi)容里檢索系統(tǒng)的信息除了是存儲在文件系統(tǒng)的HTML文件外，還包括存儲在各種關(guān)系數(shù)據(jù)庫里的大量信息，甚至是直接存儲在全文檢索系統(tǒng)里的信息。這就要求企業(yè)內(nèi)容檢索系統(tǒng)與關(guān)系數(shù)據(jù)庫有很好的接口也要求企業(yè)內(nèi)容檢索系統(tǒng)本身能像關(guān)系數(shù)據(jù)庫管理系統(tǒng)一樣管理各種數(shù)據(jù)。由于互聯(lián)網(wǎng)搜索引擎系統(tǒng)的這些缺陷，它很難成功地應(yīng)用到企業(yè)里。

全文檢索系統(tǒng)面面觀

全文檢索系統(tǒng)要將文章中所有的文字序列都進行索引，以便找出包含有欲檢索詞匯的文章。全文檢索系統(tǒng)首先將要檢索的內(nèi)容分割成較短的文字序列, 然后生成每個文字序列中所包含字符串的索引。當(dāng)輸入檢索語句后，也同樣進行分割，與索引進行比較。也就是說，兩者即使包含有同樣的文字排列，但分割方法不同的話也不能正確檢索。文字序列的分割方法主要有兩種: 詞素解析與N-gram。詞素解析是指對文字序列按詞典意義上的最小單位進行分解處理。與此相對的N-gram則不考慮文字的意義，只按一定的長度單位N來分割文章。按詞素解析法進行文字分割后，可根據(jù)有意義的單詞進行檢索。對于只有部分文字一致但沒有意義的文字序列就排除在外，因而減少了檢索干擾。但它會出現(xiàn)詞典中沒有的單詞時就不能進行正確分割的現(xiàn)象。所以有發(fā)生檢索遺漏的可能性。相反，如果采用N-gram的話，不會出現(xiàn)檢索遺漏的情況，但增加了檢索干擾。兩者各有優(yōu)缺點, 一般使用其中的一種, 但使用詞素解析的較多。

TRS全文檢索系統(tǒng)屬于企業(yè)內(nèi)容檢索系統(tǒng)類別，追求查詢結(jié)果的高度查全率和高度查準率,以及信息更新的實時性，以滿足企業(yè)用戶的要求。同時TRS全文檢索系統(tǒng)和各種關(guān)系數(shù)據(jù)庫管理系統(tǒng)有無縫的接口，以便對存儲在各種關(guān)系數(shù)據(jù)庫里的信息進行索引和檢索。至于檢索速度方面，根據(jù)企業(yè)用戶的特點，TRS不使用互聯(lián)網(wǎng)搜索引擎普遍采用的為了提高查詢速度而采用的估算技術(shù),而是采用自己獨創(chuàng)的技術(shù)：高效索引壓縮技術(shù)、索引跳躍式掃描技術(shù)、并行檢索技術(shù)、Query-CACHE技術(shù)、基于詞以及詞頻的bi-gram算法、自動分庫技術(shù)。在智能檢索效果方面, TRS開發(fā)了基于同義詞典和主題詞典的擴展檢索，不過要體現(xiàn)出智能檢索效果,在項目實施時需要用戶整理出這些詞典。TRS按字檢索能滿足100%查全的需要，并且有它的用處。因為按詞檢索(詞素解析)無論做得多好，理論上就不可能100%查全。TRS按詞檢索對應(yīng)于“詞素解析”, 不過TRS為了不至于檢索遺漏，而把詞典中不存在的詞也以某種方式切割出來，同時在詞級根據(jù)詞頻做了bi-gram。但按詞檢索對應(yīng)的詞切割不可能達到100%正確，所以存在因分詞錯誤導(dǎo)致的檢索遺漏。TRS分詞系統(tǒng)在追求切分正確率的同時，增加了冗余切分, 目的是達到高度查全率和高度查準率。

本文原載于中國計算機報

發(fā)布：2007-03-25 10:38 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：

1重慶OA快博

2西安OA快博

3北京OA快博

4廣州OA快博

5深圳OA快博

6南京OA快博

7杭州OA快博

8鄭州OA快博

9太原OA快博

10天津OA快博

11長春OA快博

12福州OA快博

相關(guān)文章：

1欲與IBM試比高－－訪微軟全球大客戶部副總裁喬納森·默

2大多數(shù)企業(yè)信息總監(jiān)在部署Web服務(wù)方面慢半拍

3美政府吸取911教訓(xùn)將眼光投向Web服務(wù)

4上海OA，不僅僅是IT

5上海OA管出企業(yè)＂錢途＂

6“自由聯(lián)盟”即將公開單一登錄標準

7上海OA的四個層面

8鋼鐵行業(yè)電子商務(wù)各具特色

9Web服務(wù)防黑談（二）

10泛普（上海）OA辦公軟件項目管理是對整個項目信息進行管理

11Web服務(wù)：重塑服務(wù)型經(jīng)濟

12ASP.NET Web服務(wù)還是.NET Remoting：如何選擇

13微軟.Net VS Java兩軍對壘 Web服務(wù)步履艱難

14論文：信息系統(tǒng)開發(fā)過程中的上海OA（By AMT 宋亮）

15Microsoft.Net與Web Services

16呼喚獨立的上海OA 運營服務(wù)提供商

17深入考察兩種Web服務(wù)架構(gòu)

18技術(shù)刨析：傳統(tǒng)應(yīng)用與Web服務(wù)的接口

19上海OA的“盛宴”

20麥肯錫高層管理論叢－超越最佳務(wù)實作法：知識策略

21五大Web服務(wù)神話

22技術(shù)創(chuàng)新類型與上海OA方法的關(guān)系研究（謝洪明劉常勇）

23實時企業(yè)離不開存儲管理

24使用面向服務(wù)方法來設(shè)計網(wǎng)絡(luò)服務(wù)

25Java Web Services的遠端調(diào)用

26IDC：網(wǎng)絡(luò)服務(wù)的宣傳是否樂觀過頭？

27客戶支持中心的上海OA(By AMT 宋亮)

28hp Netaction產(chǎn)品家族和WEB服務(wù)

29分階段實施信息生命周期管理（朗飛）

30上海OA的功能框架

上一篇：開啟“黃金屋”－－析個人上海OA

下一篇：上海OA，不僅僅是IT

上海OA系統(tǒng)

上海OA軟件

上海OA新聞動態(tài)

上海OA信息化

上海OA快博

上海OA軟件行業(yè)資訊

上海軟件開發(fā)公司

上海門禁系統(tǒng)

上海物業(yè)管理軟件

上海倉庫管理軟件

上海餐飲管理軟件

上海網(wǎng)站建設(shè)公司

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

全文檢索技術(shù)的深層剖析

泛普上海OA快博其他應(yīng)用