監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉
張家界網(wǎng)站建設(shè)公司

當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 湖南OA系統(tǒng) > 張家界OA > 張家界網(wǎng)站建設(shè)公司

解決跨語(yǔ)言信息檢索問(wèn)題 對(duì)于搜索引擎的價(jià)值

申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114

跨語(yǔ)言信息檢索,是信息檢索領(lǐng)域中的一個(gè)研究課題。近10幾年來(lái),由于互聯(lián)網(wǎng)的飛速發(fā)展,這方面的研究受到了學(xué)術(shù)界的廣泛重視。將這項(xiàng)技術(shù)應(yīng)用于搜索,可以幫助我們查找到更多的有用信息,例如外語(yǔ)相關(guān)頁(yè)面、多語(yǔ)言頁(yè)面以及語(yǔ)言無(wú)關(guān)的資源(如圖片)等等。這些信息可以大大豐富搜索的結(jié)果,滿足用戶多樣的需求。在跨語(yǔ)言信息檢索的研究中,有一些研究成果已經(jīng)趨于成熟,達(dá)到可以應(yīng)用的狀態(tài)。事實(shí)上,Yahoo和Google在5,6年前就已經(jīng)開(kāi)始提供多語(yǔ)言的搜索服務(wù)。毫無(wú)疑問(wèn),在這方面他們已經(jīng)走在了世界的前列。目前,百度的各項(xiàng)國(guó)際化業(yè)務(wù)正在如火如荼的開(kāi)展,對(duì)跨語(yǔ)言技術(shù)來(lái)說(shuō),正是用武之地。相信不久的將來(lái),它將會(huì)在搜索國(guó)際化進(jìn)程中扮演舉足輕重的角色。來(lái),就讓我們一探究竟吧。

假如你搜索“中菲黃巖島對(duì)峙”,如果你是一個(gè)普通用戶,你想知道的可能是這個(gè)事件的歷史淵源和發(fā)展動(dòng)態(tài);如果你是一個(gè)文藝用戶,你想知道的可能是中國(guó)憤青們的愛(ài)國(guó)言論。沒(méi)問(wèn)題,現(xiàn)有的中文搜索完全可以滿足你的需求。

但是,如果你是一個(gè)XX用戶,你對(duì)中國(guó)網(wǎng)站的內(nèi)容不滿足,很想知道外國(guó)的媒體是怎么報(bào)道的,外國(guó)民眾是怎么談?wù)撨@個(gè)事件的。那么不好意思,中文搜索引擎就無(wú)能為力了。這是因?yàn)椋形乃阉饕娑际侵形淖鳛榛A(chǔ)來(lái)構(gòu)建的,它往往只收錄了中文數(shù)據(jù),只考慮了中文的特性,只考慮了該中國(guó)網(wǎng)民的需求。但是,當(dāng)我們想要做跨語(yǔ)言搜索時(shí),搜索就變得困難了。且不說(shuō)我們沒(méi)有抓取那么多外文數(shù)據(jù)。即使我們有數(shù)據(jù)了,由于不同語(yǔ)言之間的巨大差異,以及各個(gè)國(guó)家各種各樣的網(wǎng)絡(luò)習(xí)慣,我們也很難精準(zhǔn)地搜索到相關(guān)的外文信息。也就是說(shuō),語(yǔ)言的不同給搜索帶來(lái)了一道鴻溝。

那么,這道鴻溝就不能跨越了么?當(dāng)然不是。事實(shí)上很多年前人們就已經(jīng)開(kāi)始考慮這個(gè)問(wèn)題了。在學(xué)術(shù)界,對(duì)這個(gè)問(wèn)題有個(gè)專(zhuān)有名詞,叫跨語(yǔ)言信息檢索(Cross-Language Information Retrieval)。早在上個(gè)世紀(jì)60年代,現(xiàn)代信息檢索的奠基人,美國(guó)康奈爾大學(xué)的Salton教授發(fā)表了一篇《Automatic processing of foreign language documents》,首先打開(kāi)了跨語(yǔ)言信息檢索的大門(mén)。但是由于那個(gè)時(shí)代還沒(méi)有互聯(lián)網(wǎng),研究也只能停留在簡(jiǎn)單實(shí)驗(yàn)階段,甚至跨語(yǔ)言信息檢索的概念還沒(méi)有正式提出。到了上世紀(jì)90年代,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology)和美國(guó)情報(bào)局前沿研發(fā)活動(dòng)中心(Advanced Research and Development Activity center of the U.S. Department of Defense)聯(lián)合舉辦了信息檢索領(lǐng)域最重要的會(huì)議——“TREC”會(huì)議(The Text REtrieval Conference)。到了1996年,在瑞士所舉辦的SIGIR-96會(huì)議中,首次出現(xiàn)了以跨語(yǔ)檢索為研究主題的研討會(huì)。而到了2000年,歐盟成立了“跨語(yǔ)言評(píng)估論壇”(Cross Language Evaluation Forum),每年定期舉辦跨語(yǔ)檢索研討會(huì),并且推動(dòng)跨語(yǔ)檢索技術(shù)評(píng)比。從此,跨語(yǔ)言信息檢索變成了信息檢索領(lǐng)域的一個(gè)炙手可熱的研究課題,無(wú)數(shù)英雄豪杰參與其中。

閑話少說(shuō),我們?cè)撨M(jìn)入正題了:對(duì)于跨語(yǔ)言信息檢索問(wèn)題該如何解決呢?接下來(lái)讓我們揭開(kāi)它的面紗。

在說(shuō)跨語(yǔ)言信息檢索之前,我們先回顧一下經(jīng)典信息檢索是怎樣做的,如圖1所示:首先,對(duì)于用戶的query,我們要對(duì)它進(jìn)行特征提取,使之變成一個(gè)特征向量,用于匹配文檔。其次,對(duì)于已經(jīng)抓取的文檔,我們也對(duì)它進(jìn)行特征提取,并給予這些特征一些權(quán)重,來(lái)表示它們的重要程度。再次,我們對(duì)query的特征和文檔的特征進(jìn)行相似度計(jì)算,來(lái)判斷哪些文檔跟query相關(guān),哪些不相關(guān)。信息檢索最常用的相似度計(jì)算方法是求cosine,其它還可以從語(yǔ)義主題的角度去描述相似性,這個(gè)就不詳細(xì)介紹了。有了相似度,我們可以根據(jù)相似度對(duì)文檔進(jìn)行排序,并將最相關(guān)的一些作為檢索結(jié)果。對(duì)于檢索結(jié)果,用戶可能會(huì)提供一些反饋,比如用戶的點(diǎn)擊。這些反饋可以告訴我們,在搜索結(jié)果里面哪些是用戶需要的。這些信息可以用來(lái)衡量檢索的效果,來(lái)對(duì)檢索模型進(jìn)一步提升。

在信息檢索的流程中,我們可以看出跨語(yǔ)言檢索的難點(diǎn):當(dāng)query的語(yǔ)言和文檔的語(yǔ)言不同時(shí),query和文檔的特征空間是不同的。中文的特征集合(某個(gè)中文詞語(yǔ)出現(xiàn)與否)與英文的特征集合(某個(gè)英文詞語(yǔ)出現(xiàn)與否)的交集極少,這導(dǎo)致原有的相似度計(jì)算方式在跨語(yǔ)言時(shí)失效了。

那么這個(gè)問(wèn)題怎么解決呢?

對(duì)于跨語(yǔ)言,我們自然而然想到的一種方式就是:翻譯。我們可以通過(guò)翻譯的方式把一個(gè)語(yǔ)言的詞語(yǔ)映射到另一語(yǔ)言上,從而讓query和文檔處于同一個(gè)特征空間中,然后再利用單語(yǔ)下的檢索模型進(jìn)行檢索和排序,這樣就可以實(shí)現(xiàn)跨語(yǔ)言檢索了。

Query翻譯——把query翻譯到文檔的語(yǔ)言下,然后用這些翻譯后的query在文檔中進(jìn)行檢索。對(duì)于query中的詞語(yǔ),我們可以選擇若干可能的翻譯,用于擴(kuò)大召回。這可以看作是一種query擴(kuò)展。

文檔翻譯——把文檔翻譯到query的語(yǔ)言下,然后用原有query對(duì)翻譯的文檔進(jìn)行檢索。文檔的翻譯一般是在線下進(jìn)行的。一篇源語(yǔ)言的文檔通過(guò)自動(dòng)的翻譯(如機(jī)器翻譯)變換成一篇目標(biāo)語(yǔ)言下的文檔。

這兩種方式都是可以達(dá)到跨語(yǔ)言檢索目的的,我們?cè)趯?shí)踐中應(yīng)該采用哪種方式呢?下面我們分析一下這兩種方式的優(yōu)劣:

從上述優(yōu)劣比較中我們可以看出,文檔翻譯雖然可能提供更準(zhǔn)確的翻譯,但它需要更多的線下處理時(shí)間,需要更多的存儲(chǔ)空間,實(shí)用性較差。鑒于此,無(wú)論是學(xué)術(shù)界還是工業(yè)界,一般采用的都是Query翻譯的方式。

Query翻譯方式的最大缺點(diǎn)就是由于詞語(yǔ)翻譯的錯(cuò)誤導(dǎo)致檢索錯(cuò)誤。那么我們有沒(méi)有辦法客服這個(gè)問(wèn)題呢?對(duì)于自動(dòng)而又精確的翻譯,我們很容易會(huì)想到機(jī)器翻譯。不過(guò),如果直接使用機(jī)器翻譯的結(jié)果,效果并不能達(dá)到我們的預(yù)期。這是因?yàn)?,首先,機(jī)器翻譯和跨語(yǔ)言信息檢索的目標(biāo)是不一樣的。機(jī)器翻譯是為了讓翻譯出的文字更可讀,因而會(huì)在調(diào)整語(yǔ)序上下很多功夫,但是跨語(yǔ)言檢索不需要語(yǔ)序,它只需要正確翻譯的詞語(yǔ)出現(xiàn)即可。在機(jī)器翻譯中一些無(wú)意義的連接詞(比如“there is”)是重要的,但是在跨語(yǔ)言檢索中我們完全不需要它們。其次,機(jī)器翻譯的目標(biāo)是得到一個(gè)最可能的翻譯結(jié)果,而在跨語(yǔ)言檢索中,我們需要保留多種翻譯的結(jié)果,來(lái)提高召回。在這里,也許你會(huì)想到,我們也可以把機(jī)器翻譯的結(jié)果作為基礎(chǔ)進(jìn)行同義詞擴(kuò)展,這樣不是就可以了么?這樣做其實(shí)是有很大風(fēng)險(xiǎn)的:如果機(jī)器翻譯把某個(gè)詞翻錯(cuò)了,那么在此之上的所有擴(kuò)展都會(huì)對(duì)檢索結(jié)果造成惡劣的影響。

Query翻譯的一般做法是這樣的(如圖2所示):對(duì)于一個(gè)query,首先我們對(duì)它進(jìn)行切分,得到一個(gè)個(gè)詞語(yǔ)。在切分的結(jié)果中,我們把其中的無(wú)意義詞語(yǔ)(如“的”、“嗎”等)都過(guò)濾掉。對(duì)于剩下的每一個(gè)有意義的詞語(yǔ),我們得到若干翻譯候選詞。然后在這些候選詞語(yǔ)中,我們通過(guò)某種機(jī)制選擇其中的一部分來(lái)生成跨語(yǔ)言檢索的新query。舉個(gè)例子:

比如有個(gè)英文的query:

“building information super highway”

我們要用它來(lái)檢索中文的文檔。我們可以通過(guò)翻譯字典找到每個(gè)英文單詞的中文候選詞:

“building” -》 “建筑 / 建立”

“information” -》 “信息 / 消息 / 知識(shí)”

“super” -》 “上等的 / 超級(jí)的 / 特大的”

“highway” -》 “公路 / 大道 / 直接的途徑”

英文query的原意是希望了解高速公路附近的房屋信息。根據(jù)這個(gè)需求,我們可以發(fā)現(xiàn),在這些候選詞里有些必須刪除,比如building的翻譯“建立”,因?yàn)樗黠@不符合query的原意;有些是可以保留的,比如highway的翻譯“公路”和“大道”。而我們的核心目標(biāo)就是通過(guò)一定的方法把不合理的翻譯刪除,然后將合理的翻譯用于檢索。

在這里我們介紹一種基于詞共現(xiàn)的方法。

比如“building”和“information”這兩個(gè)詞,我們首先把它們的翻譯組合寫(xiě)出來(lái),得到6種可能翻譯:

(建筑 信息),(建筑 消息),(建筑 知識(shí)),(建立 信息),(建立 消息),(建立 知識(shí))

在這些組合中,有些我們一眼就可以看出它是符合檢索需求的,比如(建筑 信息),有些則肯定不是,如(建立 消息)。那么如何讓程序自動(dòng)判斷呢?其實(shí)很簡(jiǎn)單,我們只需要看看這些組合在中文文檔中共同出現(xiàn)的次數(shù)即可。正確的翻譯組合在文檔中出現(xiàn)的頻率往往較高,而錯(cuò)誤的翻譯組合則不常出現(xiàn)。這樣,我們通過(guò)中文文檔中詞語(yǔ)的自然分布,就可以為翻譯組合打分,把錯(cuò)誤的翻譯組合剔除掉。

基于共現(xiàn)的方法是最基本、最簡(jiǎn)單的一種方法。事實(shí)上近10多年來(lái),學(xué)術(shù)界已經(jīng)提出了很多更為復(fù)雜的算法來(lái)解決這個(gè)問(wèn)題。由于篇幅有限,這里就不詳細(xì)介紹了。有興趣的讀者可以讀讀加拿大蒙特利爾大學(xué)的聶建云教授的著作《Cross-Language Information Retrieval》,那里有更詳盡的論述。

以上著重介紹的都是跨語(yǔ)言信息檢索在技術(shù)上是怎么實(shí)現(xiàn)的。下面我想說(shuō)下,我們?yōu)槭裁匆M(jìn)行跨語(yǔ)言檢索呢?它對(duì)于搜索引擎有多大的價(jià)值呢?我總結(jié)了以下幾點(diǎn):

獲取其他語(yǔ)言的相關(guān)資源

有些資源在中文中不存在,而在其他語(yǔ)言的網(wǎng)頁(yè)中存在。比文章開(kāi)頭描述的XX用戶,希望了解外國(guó)的輿論。在這種情況下,我們就需要通過(guò)跨語(yǔ)的搜索來(lái)滿足用戶的需求。

獲取多種語(yǔ)言?shī)A雜的資源

在互聯(lián)網(wǎng)上并不是每個(gè)網(wǎng)頁(yè)都只有一種語(yǔ)言。很多時(shí)候,一個(gè)網(wǎng)頁(yè)中有多種語(yǔ)言的文字出現(xiàn)。如果只用一種語(yǔ)言的query去檢索,可能無(wú)法召回這些頁(yè)面。如果我們將跨語(yǔ)言檢索的技術(shù)融入當(dāng)中,就可以提高搜索的召回。

獲取與文字語(yǔ)言無(wú)關(guān)的資源

有些資源是跟文字無(wú)關(guān)的,比如圖片、視頻、音頻。而對(duì)這些資源的搜索往往會(huì)借助于文字。有了跨語(yǔ)言檢索的技術(shù),我們就可以將滿足用戶需求的、國(guó)外網(wǎng)站上的資源展現(xiàn)出來(lái),來(lái)豐富搜索結(jié)果。

滿足“查全”的需求

在搜索中,我們有的時(shí)候需要“查全”所有的相關(guān)信息。比如要搜一個(gè)專(zhuān)利,我們會(huì)希望把各個(gè)國(guó)家的相關(guān)專(zhuān)利都搜出來(lái)。在這種情況下,我們就需要跨語(yǔ)的檢索,幫助我們達(dá)到這個(gè)目的。

當(dāng)前,跨語(yǔ)言信息檢索不僅在學(xué)術(shù)界正在熱火朝天地開(kāi)展,事實(shí)上,它早已走入了工業(yè)界,真正被應(yīng)用到了實(shí)際搜索當(dāng)中。早在2006年,Yahoo首先推出了跨語(yǔ)言搜索服務(wù)。隨后在2007年,Google也相繼進(jìn)入了這一領(lǐng)域,展開(kāi)了國(guó)際化的搜索。和百度相比,Yahoo和Google的確在國(guó)際化方面領(lǐng)先不少。其中一個(gè)重要原因是,他們都是從英文搜索起家的,而英文是世界上的最流行的通用語(yǔ)言,它到其它語(yǔ)言的翻譯資源比較豐富,利于國(guó)際化的擴(kuò)展。不過(guò)這沒(méi)關(guān)系,我們比的是誰(shuí)做的更好,而不是誰(shuí)做的更早。如今,百度的國(guó)際化業(yè)務(wù)正在如火如荼地開(kāi)展,相信不久的將來(lái),它將會(huì)在搜索國(guó)際化進(jìn)程中扮演舉足輕重的角色。

“雄關(guān)漫漫真如鐵,而今邁步從頭越”,未來(lái)如何,讓我們拭目以待吧!

作者:飛旋的世界

發(fā)布:2007-03-31 14:21    編輯:泛普軟件 · xiaona    [打印此頁(yè)]    [關(guān)閉]
相關(guān)欄目:
相關(guān)文章:
張家界OA
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普張家界網(wǎng)站建設(shè)公司其他應(yīng)用

張家界軟件開(kāi)發(fā)公司 張家界門(mén)禁系統(tǒng) 張家界物業(yè)管理軟件 張家界倉(cāng)庫(kù)管理軟件 張家界餐飲管理軟件 張家界網(wǎng)站建設(shè)公司