監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉
上海OA快博

當(dāng)前位置:工程項目OA系統(tǒng) > 泛普各地 > 上海OA系統(tǒng) > 上海OA快博

全文檢索技術(shù)的深層剖析

申請免費(fèi)試用、咨詢電話:400-8352-114

AMTeam.org

全文檢索技術(shù)的深層剖析

肖詩斌

將文章中所有的文字序列都作為檢索對象,找出包含有欲檢索詞匯的文章,這就是全文檢索。全文檢索技術(shù)根據(jù)使用領(lǐng)域分為兩類:互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)。兩者使用的核心技術(shù)都是全文檢索,但側(cè)重點(diǎn)有所不同。

全文檢索技術(shù)的兩大類別

互聯(lián)網(wǎng)搜索引擎面向的是Internet上大量的雜亂無章的網(wǎng)頁,主要目的是找到一些有用的參考信息和屏蔽一些有害信息,盡量把有用的網(wǎng)頁排在前面。關(guān)于有用性,有各種度量方法,比如根據(jù)pagelink網(wǎng)頁鏈接的多少作為網(wǎng)頁重要性的依據(jù),或者根據(jù)出錢的多少決定網(wǎng)頁重要性的競價系統(tǒng)。前者代表性的系統(tǒng)有Google,后者代表性的系統(tǒng)有百度?;ヂ?lián)網(wǎng)搜索引擎的共同特點(diǎn)是不追求企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率。另外,由于數(shù)據(jù)量巨大,后臺索引和檢索數(shù)據(jù)庫需要強(qiáng)大的硬件服務(wù)器群支持幾百上千臺服務(wù)器,甚至上萬臺,以及好的體系結(jié)構(gòu)設(shè)計和適合全文檢索系統(tǒng)運(yùn)行的硬件服務(wù)器選型。這也是為什么成功的互聯(lián)網(wǎng)搜索引擎都是以ASP方式提供服務(wù),以及為什么互聯(lián)網(wǎng)搜索引擎廠家的全文檢索系統(tǒng)應(yīng)用到企業(yè)中往往以失敗告終。其原因殊不知互聯(lián)網(wǎng)搜索引擎的強(qiáng)大功能是由后臺強(qiáng)大的硬件服務(wù)器群和適合的體系結(jié)構(gòu)支撐的,而不是因?yàn)樗旧淼募夹g(shù)好。再者,企業(yè)應(yīng)用要求的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性,它很難做到。

企業(yè)內(nèi)容檢索系統(tǒng)要求查詢結(jié)果具備高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性。企業(yè)信息相對而言是經(jīng)過整理的有用信息。在高度查準(zhǔn)率的同時要求高度查全率。高度查準(zhǔn)率的目的是讓用戶節(jié)省時間早點(diǎn)找到有用信息;高度查全率是為了全面分析情報而不錯過商機(jī)。也因?yàn)檫@個原因,互聯(lián)網(wǎng)搜索引擎為了提高查詢速度普遍采用的估算技術(shù)在企業(yè)應(yīng)用中很難派上用場。不是在所有的服務(wù)器里檢索信息,只是在相應(yīng)的一些服務(wù)器里檢索信息,然后在返回首批檢索結(jié)果時根據(jù)經(jīng)驗(yàn)估算總的檢索命中數(shù)。企業(yè)收集到情報后希望它的使用者馬上能夠檢索到它,而不是還要經(jīng)過一個長時間的延遲。

互聯(lián)網(wǎng)搜索引擎和企業(yè)內(nèi)容檢索系統(tǒng)的不同點(diǎn)還有:互聯(lián)網(wǎng)搜索引擎系統(tǒng)的信息來源于文件系統(tǒng)的HTML文件,包括一些動態(tài)網(wǎng)頁。而企業(yè)內(nèi)容里檢索系統(tǒng)的信息除了是存儲在文件系統(tǒng)的HTML文件外,還包括存儲在各種關(guān)系數(shù)據(jù)庫里的大量信息,甚至是直接存儲在全文檢索系統(tǒng)里的信息。這就要求企業(yè)內(nèi)容檢索系統(tǒng)與關(guān)系數(shù)據(jù)庫有很好的接口也要求企業(yè)內(nèi)容檢索系統(tǒng)本身能像關(guān)系數(shù)據(jù)庫管理系統(tǒng)一樣管理各種數(shù)據(jù)。由于互聯(lián)網(wǎng)搜索引擎系統(tǒng)的這些缺陷,它很難成功地應(yīng)用到企業(yè)里。

全文檢索系統(tǒng)面面觀

全文檢索系統(tǒng)要將文章中所有的文字序列都進(jìn)行索引,以便找出包含有欲檢索詞匯的文章。全文檢索系統(tǒng)首先將要檢索的內(nèi)容分割成較短的文字序列, 然后生成每個文字序列中所包含字符串的索引。當(dāng)輸入檢索語句后,也同樣進(jìn)行分割,與索引進(jìn)行比較。也就是說,兩者即使包含有同樣的文字排列,但分割方法不同的話也不能正確檢索。文字序列的分割方法主要有兩種: 詞素解析與N-gram。詞素解析是指對文字序列按詞典意義上的最小單位進(jìn)行分解處理。與此相對的N-gram則不考慮文字的意義,只按一定的長度單位N來分割文章。按詞素解析法進(jìn)行文字分割后,可根據(jù)有意義的單詞進(jìn)行檢索。對于只有部分文字一致但沒有意義的文字序列就排除在外,因而減少了檢索干擾。但它會出現(xiàn)詞典中沒有的單詞時就不能進(jìn)行正確分割的現(xiàn)象。所以有發(fā)生檢索遺漏的可能性。相反,如果采用N-gram的話,不會出現(xiàn)檢索遺漏的情況,但增加了檢索干擾。兩者各有優(yōu)缺點(diǎn), 一般使用其中的一種, 但使用詞素解析的較多。

TRS全文檢索系統(tǒng)屬于企業(yè)內(nèi)容檢索系統(tǒng)類別,追求查詢結(jié)果的高度查全率和高度查準(zhǔn)率,以及信息更新的實(shí)時性,以滿足企業(yè)用戶的要求。同時TRS全文檢索系統(tǒng)和各種關(guān)系數(shù)據(jù)庫管理系統(tǒng)有無縫的接口,以便對存儲在各種關(guān)系數(shù)據(jù)庫里的信息進(jìn)行索引和檢索。至于檢索速度方面,根據(jù)企業(yè)用戶的特點(diǎn),TRS不使用互聯(lián)網(wǎng)搜索引擎普遍采用的為了提高查詢速度而采用的估算技術(shù),而是采用自己獨(dú)創(chuàng)的技術(shù):高效索引壓縮技術(shù)、索引跳躍式掃描技術(shù)、并行檢索技術(shù)、Query-CACHE技術(shù)、基于詞以及詞頻的bi-gram算法、自動分庫技術(shù)。在智能檢索效果方面, TRS開發(fā)了基于同義詞典和主題詞典的擴(kuò)展檢索,不過要體現(xiàn)出智能檢索效果,在項目實(shí)施時需要用戶整理出這些詞典。TRS按字檢索能滿足100%查全的需要,并且有它的用處。因?yàn)榘丛~檢索(詞素解析)無論做得多好,理論上就不可能100%查全。TRS按詞檢索對應(yīng)于“詞素解析”, 不過TRS為了不至于檢索遺漏,而把詞典中不存在的詞也以某種方式切割出來,同時在詞級根據(jù)詞頻做了bi-gram。但按詞檢索對應(yīng)的詞切割不可能達(dá)到100%正確,所以存在因分詞錯誤導(dǎo)致的檢索遺漏。TRS分詞系統(tǒng)在追求切分正確率的同時,增加了冗余切分, 目的是達(dá)到高度查全率和高度查準(zhǔn)率。

本文原載于中國計算機(jī)報

發(fā)布:2007-03-25 10:38    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢