監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

全文檢索技術(shù)的深層剖析

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

AMTeam.org

全文檢索技術(shù)的深層剖析

肖詩(shī)斌

將文章中所有的文字序列都作為檢索對(duì)象,找出包含有欲檢索詞匯的文章,這就是全文檢索。全文檢索技術(shù)根據(jù)使用領(lǐng)域分為兩類:互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)。兩者使用的核心技術(shù)都是全文檢索,但側(cè)重點(diǎn)有所不同。

全文檢索技術(shù)的兩大類別

互聯(lián)網(wǎng)搜索引擎面向的是Internet上大量的雜亂無(wú)章的網(wǎng)頁(yè),主要目的是找到一些有用的參考信息和屏蔽一些有害信息,盡量把有用的網(wǎng)頁(yè)排在前面。關(guān)于有用性,有各種度量方法,比如根據(jù)pagelink網(wǎng)頁(yè)鏈接的多少作為網(wǎng)頁(yè)重要性的依據(jù),或者根據(jù)出錢的多少?zèng)Q定網(wǎng)頁(yè)重要性的競(jìng)價(jià)系統(tǒng)。前者代表性的系統(tǒng)有Google,后者代表性的系統(tǒng)有百度。互聯(lián)網(wǎng)搜索引擎的共同特點(diǎn)是不追求企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率。另外,由于數(shù)據(jù)量巨大,后臺(tái)索引和檢索數(shù)據(jù)庫(kù)需要強(qiáng)大的硬件服務(wù)器群支持幾百上千臺(tái)服務(wù)器,甚至上萬(wàn)臺(tái),以及好的體系結(jié)構(gòu)設(shè)計(jì)和適合全文檢索系統(tǒng)運(yùn)行的硬件服務(wù)器選型。這也是為什么成功的互聯(lián)網(wǎng)搜索引擎都是以ASP方式提供服務(wù),以及為什么互聯(lián)網(wǎng)搜索引擎廠家的全文檢索系統(tǒng)應(yīng)用到企業(yè)中往往以失敗告終。其原因殊不知互聯(lián)網(wǎng)搜索引擎的強(qiáng)大功能是由后臺(tái)強(qiáng)大的硬件服務(wù)器群和適合的體系結(jié)構(gòu)支撐的,而不是因?yàn)樗旧淼募夹g(shù)好。再者,企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時(shí)性,它很難做到。

企業(yè)內(nèi)容檢索系統(tǒng)要求查詢結(jié)果具備高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時(shí)性。企業(yè)信息相對(duì)而言是經(jīng)過(guò)整理的有用信息。在高度查準(zhǔn)率的同時(shí)要求高度查全率。高度查準(zhǔn)率的目的是讓用戶節(jié)省時(shí)間早點(diǎn)找到有用信息;高度查全率是為了全面分析情報(bào)而不錯(cuò)過(guò)商機(jī)。也因?yàn)檫@個(gè)原因,互聯(lián)網(wǎng)搜索引擎為了提高查詢速度普遍采用的估算技術(shù)在企業(yè)應(yīng)用中很難派上用場(chǎng)。不是在所有的服務(wù)器里檢索信息,只是在相應(yīng)的一些服務(wù)器里檢索信息,然后在返回首批檢索結(jié)果時(shí)根據(jù)經(jīng)驗(yàn)估算總的檢索命中數(shù)。企業(yè)收集到情報(bào)后希望它的使用者馬上能夠檢索到它,而不是還要經(jīng)過(guò)一個(gè)長(zhǎng)時(shí)間的延遲。

互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)的不同點(diǎn)還有:互聯(lián)網(wǎng)搜索引擎系統(tǒng)的信息來(lái)源于文件系統(tǒng)的HTML文件,包括一些動(dòng)態(tài)網(wǎng)頁(yè)。而企業(yè)內(nèi)容里檢索系統(tǒng)的信息除了是存儲(chǔ)在文件系統(tǒng)的HTML文件外,還包括存儲(chǔ)在各種關(guān)系數(shù)據(jù)庫(kù)里的大量信息,甚至是直接存儲(chǔ)在全文檢索系統(tǒng)里的信息。這就要求企業(yè)內(nèi)容檢索系統(tǒng)與關(guān)系數(shù)據(jù)庫(kù)有很好的接口也要求企業(yè)內(nèi)容檢索系統(tǒng)本身能像關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)一樣管理各種數(shù)據(jù)。由于互聯(lián)網(wǎng)搜索引擎系統(tǒng)的這些缺陷,它很難成功地應(yīng)用到企業(yè)里。

全文檢索系統(tǒng)面面觀

全文檢索系統(tǒng)要將文章中所有的文字序列都進(jìn)行索引,以便找出包含有欲檢索詞匯的文章。全文檢索系統(tǒng)首先將要檢索的內(nèi)容分割成較短的文字序列, 然后生成每個(gè)文字序列中所包含字符串的索引。當(dāng)輸入檢索語(yǔ)句后,也同樣進(jìn)行分割,與索引進(jìn)行比較。也就是說(shuō),兩者即使包含有同樣的文字排列,但分割方法不同的話也不能正確檢索。文字序列的分割方法主要有兩種: 詞素解析與N-gram。詞素解析是指對(duì)文字序列按詞典意義上的最小單位進(jìn)行分解處理。與此相對(duì)的N-gram則不考慮文字的意義,只按一定的長(zhǎng)度單位N來(lái)分割文章。按詞素解析法進(jìn)行文字分割后,可根據(jù)有意義的單詞進(jìn)行檢索。對(duì)于只有部分文字一致但沒(méi)有意義的文字序列就排除在外,因而減少了檢索干擾。但它會(huì)出現(xiàn)詞典中沒(méi)有的單詞時(shí)就不能進(jìn)行正確分割的現(xiàn)象。所以有發(fā)生檢索遺漏的可能性。相反,如果采用N-gram的話,不會(huì)出現(xiàn)檢索遺漏的情況,但增加了檢索干擾。兩者各有優(yōu)缺點(diǎn), 一般使用其中的一種, 但使用詞素解析的較多。

TRS全文檢索系統(tǒng)屬于企業(yè)內(nèi)容檢索系統(tǒng)類別,追求查詢結(jié)果的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時(shí)性,以滿足企業(yè)用戶的要求。同時(shí)TRS全文檢索系統(tǒng)和各種關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)有無(wú)縫的接口,以便對(duì)存儲(chǔ)在各種關(guān)系數(shù)據(jù)庫(kù)里的信息進(jìn)行索引和檢索。至于檢索速度方面,根據(jù)企業(yè)用戶的特點(diǎn),TRS不使用互聯(lián)網(wǎng)搜索引擎普遍采用的為了提高查詢速度而采用的估算技術(shù),而是采用自己獨(dú)創(chuàng)的技術(shù):高效索引壓縮技術(shù)、索引跳躍式掃描技術(shù)、并行檢索技術(shù)、Query-CACHE技術(shù)、基于詞以及詞頻的bi-gram算法、自動(dòng)分庫(kù)技術(shù)。在智能檢索效果方面, TRS開(kāi)發(fā)了基于同義詞典和主題詞典的擴(kuò)展檢索,不過(guò)要體現(xiàn)出智能檢索效果,在項(xiàng)目實(shí)施時(shí)需要用戶整理出這些詞典。TRS按字檢索能滿足100%查全的需要,并且有它的用處。因?yàn)榘丛~檢索(詞素解析)無(wú)論做得多好,理論上就不可能100%查全。TRS按詞檢索對(duì)應(yīng)于“詞素解析”, 不過(guò)TRS為了不至于檢索遺漏,而把詞典中不存在的詞也以某種方式切割出來(lái),同時(shí)在詞級(jí)根據(jù)詞頻做了bi-gram。但按詞檢索對(duì)應(yīng)的詞切割不可能達(dá)到100%正確,所以存在因分詞錯(cuò)誤導(dǎo)致的檢索遺漏。TRS分詞系統(tǒng)在追求切分正確率的同時(shí),增加了冗余切分, 目的是達(dá)到高度查全率和高度查準(zhǔn)率。

本文原載于中國(guó)計(jì)算機(jī)報(bào)

發(fā)布:2007-03-25 10:38    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)文章:
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢