當(dāng)前位置:工程項目OA系統(tǒng) > 泛普各地 > 上海OA系統(tǒng) > 上海OA快博
全文檢索技術(shù)的深層剖析
全文檢索技術(shù)的深層剖析
肖詩斌
將文章中所有的文字序列都作為檢索對象,找出包含有欲檢索詞匯的文章,這就是全文檢索。全文檢索技術(shù)根據(jù)使用領(lǐng)域分為兩類:互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)。兩者使用的核心技術(shù)都是全文檢索,但側(cè)重點(diǎn)有所不同。
全文檢索技術(shù)的兩大類別
互聯(lián)網(wǎng)搜索引擎面向的是Internet上大量的雜亂無章的網(wǎng)頁,主要目的是找到一些有用的參考信息和屏蔽一些有害信息,盡量把有用的網(wǎng)頁排在前面。關(guān)于有用性,有各種度量方法,比如根據(jù)pagelink網(wǎng)頁鏈接的多少作為網(wǎng)頁重要性的依據(jù),或者根據(jù)出錢的多少決定網(wǎng)頁重要性的競價系統(tǒng)。前者代表性的系統(tǒng)有Google,后者代表性的系統(tǒng)有百度?;ヂ?lián)網(wǎng)搜索引擎的共同特點(diǎn)是不追求企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率。另外,由于數(shù)據(jù)量巨大,后臺索引和檢索數(shù)據(jù)庫需要強(qiáng)大的硬件服務(wù)器群支持幾百上千臺服務(wù)器,甚至上萬臺,以及好的體系結(jié)構(gòu)設(shè)計和適合全文檢索系統(tǒng)運(yùn)行的硬件服務(wù)器選型。這也是為什么成功的互聯(lián)網(wǎng)搜索引擎都是以ASP方式提供服務(wù),以及為什么互聯(lián)網(wǎng)搜索引擎廠家的全文檢索系統(tǒng)應(yīng)用到企業(yè)中往往以失敗告終。其原因殊不知互聯(lián)網(wǎng)搜索引擎的強(qiáng)大功能是由后臺強(qiáng)大的硬件服務(wù)器群和適合的體系結(jié)構(gòu)支撐的,而不是因?yàn)樗旧淼募夹g(shù)好。再者,企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性,它很難做到。
企業(yè)內(nèi)容檢索系統(tǒng)要求查詢結(jié)果具備高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性。企業(yè)信息相對而言是經(jīng)過整理的有用信息。在高度查準(zhǔn)率的同時要求高度查全率。高度查準(zhǔn)率的目的是讓用戶節(jié)省時間早點(diǎn)找到有用信息;高度查全率是為了全面分析情報而不錯過商機(jī)。也因?yàn)檫@個原因,互聯(lián)網(wǎng)搜索引擎為了提高查詢速度普遍采用的估算技術(shù)在企業(yè)應(yīng)用中很難派上用場。不是在所有的服務(wù)器里檢索信息,只是在相應(yīng)的一些服務(wù)器里檢索信息,然后在返回首批檢索結(jié)果時根據(jù)經(jīng)驗(yàn)估算總的檢索命中數(shù)。企業(yè)收集到情報后希望它的使用者馬上能夠檢索到它,而不是還要經(jīng)過一個長時間的延遲。
互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)的不同點(diǎn)還有:互聯(lián)網(wǎng)搜索引擎系統(tǒng)的信息來源于文件系統(tǒng)的HTML文件,包括一些動態(tài)網(wǎng)頁。而企業(yè)內(nèi)容里檢索系統(tǒng)的信息除了是存儲在文件系統(tǒng)的HTML文件外,還包括存儲在各種關(guān)系數(shù)據(jù)庫里的大量信息,甚至是直接存儲在全文檢索系統(tǒng)里的信息。這就要求企業(yè)內(nèi)容檢索系統(tǒng)與關(guān)系數(shù)據(jù)庫有很好的接口也要求企業(yè)內(nèi)容檢索系統(tǒng)本身能像關(guān)系數(shù)據(jù)庫管理系統(tǒng)一樣管理各種數(shù)據(jù)。由于互聯(lián)網(wǎng)搜索引擎系統(tǒng)的這些缺陷,它很難成功地應(yīng)用到企業(yè)里。
全文檢索系統(tǒng)面面觀
全文檢索系統(tǒng)要將文章中所有的文字序列都進(jìn)行索引,以便找出包含有欲檢索詞匯的文章。全文檢索系統(tǒng)首先將要檢索的內(nèi)容分割成較短的文字序列, 然后生成每個文字序列中所包含字符串的索引。當(dāng)輸入檢索語句后,也同樣進(jìn)行分割,與索引進(jìn)行比較。也就是說,兩者即使包含有同樣的文字排列,但分割方法不同的話也不能正確檢索。文字序列的分割方法主要有兩種: 詞素解析與N-gram。詞素解析是指對文字序列按詞典意義上的最小單位進(jìn)行分解處理。與此相對的N-gram則不考慮文字的意義,只按一定的長度單位N來分割文章。按詞素解析法進(jìn)行文字分割后,可根據(jù)有意義的單詞進(jìn)行檢索。對于只有部分文字一致但沒有意義的文字序列就排除在外,因而減少了檢索干擾。但它會出現(xiàn)詞典中沒有的單詞時就不能進(jìn)行正確分割的現(xiàn)象。所以有發(fā)生檢索遺漏的可能性。相反,如果采用N-gram的話,不會出現(xiàn)檢索遺漏的情況,但增加了檢索干擾。兩者各有優(yōu)缺點(diǎn), 一般使用其中的一種, 但使用詞素解析的較多。
TRS全文檢索系統(tǒng)屬于企業(yè)內(nèi)容檢索系統(tǒng)類別,追求查詢結(jié)果的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性,以滿足企業(yè)用戶的要求。同時TRS全文檢索系統(tǒng)和各種關(guān)系數(shù)據(jù)庫管理系統(tǒng)有無縫的接口,以便對存儲在各種關(guān)系數(shù)據(jù)庫里的信息進(jìn)行索引和檢索。至于檢索速度方面,根據(jù)企業(yè)用戶的特點(diǎn),TRS不使用互聯(lián)網(wǎng)搜索引擎普遍采用的為了提高查詢速度而采用的估算技術(shù),而是采用自己獨(dú)創(chuàng)的技術(shù):高效索引壓縮技術(shù)、索引跳躍式掃描技術(shù)、并行檢索技術(shù)、Query-CACHE技術(shù)、基于詞以及詞頻的bi-gram算法、自動分庫技術(shù)。在智能檢索效果方面, TRS開發(fā)了基于同義詞典和主題詞典的擴(kuò)展檢索,不過要體現(xiàn)出智能檢索效果,在項目實(shí)施時需要用戶整理出這些詞典。TRS按字檢索能滿足100%查全的需要,并且有它的用處。因?yàn)榘丛~檢索(詞素解析)無論做得多好,理論上就不可能100%查全。TRS按詞檢索對應(yīng)于“詞素解析”, 不過TRS為了不至于檢索遺漏,而把詞典中不存在的詞也以某種方式切割出來,同時在詞級根據(jù)詞頻做了bi-gram。但按詞檢索對應(yīng)的詞切割不可能達(dá)到100%正確,所以存在因分詞錯誤導(dǎo)致的檢索遺漏。TRS分詞系統(tǒng)在追求切分正確率的同時,增加了冗余切分, 目的是達(dá)到高度查全率和高度查準(zhǔn)率。
本文原載于中國計算機(jī)報
- 1欲與IBM試比高--訪微軟全球大客戶部副總裁喬納森·默
- 2大多數(shù)企業(yè)信息總監(jiān)在部署Web服務(wù)方面慢半拍
- 3美政府吸取911教訓(xùn)將眼光投向Web服務(wù)
- 4上海OA,不僅僅是IT
- 5上海OA管出企業(yè)"錢途"
- 6“自由聯(lián)盟”即將公開單一登錄標(biāo)準(zhǔn)
- 7上海OA的四個層面
- 8鋼鐵行業(yè)電子商務(wù)各具特色
- 9Web服務(wù)防黑談(二)
- 10泛普(上海)OA辦公軟件項目管理是對整個項目信息進(jìn)行管理
- 11Web服務(wù):重塑服務(wù)型經(jīng)濟(jì)
- 12ASP.NET Web服務(wù)還是.NET Remoting:如何選擇
- 13微軟.Net VS Java兩軍對壘 Web服務(wù)步履艱難
- 14論文:信息系統(tǒng)開發(fā)過程中的上海OA(By AMT 宋亮)
- 15Microsoft.Net與Web Services
- 16呼喚獨(dú)立的上海OA 運(yùn)營服務(wù)提供商
- 17深入考察兩種Web服務(wù)架構(gòu)
- 18技術(shù)刨析:傳統(tǒng)應(yīng)用與Web服務(wù)的接口
- 19上海OA的“盛宴”
- 20麥肯錫高層管理論叢-超越最佳務(wù)實(shí)作法:知識策略
- 21五大Web服務(wù)神話
- 22技術(shù)創(chuàng)新類型與上海OA方法的關(guān)系研究(謝洪明劉常勇)
- 23實(shí)時企業(yè)離不開存儲管理
- 24使用面向服務(wù)方法來設(shè)計網(wǎng)絡(luò)服務(wù)
- 25Java Web Services的遠(yuǎn)端調(diào)用
- 26IDC:網(wǎng)絡(luò)服務(wù)的宣傳是否樂觀過頭?
- 27客戶支持中心的上海OA(By AMT 宋亮)
- 28hp Netaction產(chǎn)品家族和WEB服務(wù)
- 29分階段實(shí)施信息生命周期管理(朗飛 )
- 30上海OA的功能框架
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓
版權(quán)所有:泛普軟件 渝ICP備14008431號-2 渝公網(wǎng)安備50011202501700號 咨詢電話:400-8352-114