監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 甲方項目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關閉

解決跨語言信息檢索問題 對于搜索引擎的價值

申請免費試用、咨詢電話:400-8352-114

跨語言信息檢索,是信息檢索領域中的一個研究課題。近10幾年來,由于互聯(lián)網(wǎng)的飛速發(fā)展,這方面的研究受到了學術界的廣泛重視。將這項技術應用于搜索,可以幫助我們查找到更多的有用信息,例如外語相關頁面、多語言頁面以及語言無關的資源(如圖片)等等。這些信息可以大大豐富搜索的結果,滿足用戶多樣的需求。在跨語言信息檢索的研究中,有一些研究成果已經(jīng)趨于成熟,達到可以應用的狀態(tài)。事實上,Yahoo和Google在5,6年前就已經(jīng)開始提供多語言的搜索服務。毫無疑問,在這方面他們已經(jīng)走在了世界的前列。目前,百度的各項國際化業(yè)務正在如火如荼的開展,對跨語言技術來說,正是用武之地。相信不久的將來,它將會在搜索國際化進程中扮演舉足輕重的角色。來,就讓我們一探究竟吧。

假如你搜索“中菲黃巖島對峙”,如果你是一個普通用戶,你想知道的可能是這個事件的歷史淵源和發(fā)展動態(tài);如果你是一個文藝用戶,你想知道的可能是中國憤青們的愛國言論。沒問題,現(xiàn)有的中文搜索完全可以滿足你的需求。

但是,如果你是一個XX用戶,你對中國網(wǎng)站的內(nèi)容不滿足,很想知道外國的媒體是怎么報道的,外國民眾是怎么談論這個事件的。那么不好意思,中文搜索引擎就無能為力了。這是因為,中文搜索引擎都是中文作為基礎來構建的,它往往只收錄了中文數(shù)據(jù),只考慮了中文的特性,只考慮了該中國網(wǎng)民的需求。但是,當我們想要做跨語言搜索時,搜索就變得困難了。且不說我們沒有抓取那么多外文數(shù)據(jù)。即使我們有數(shù)據(jù)了,由于不同語言之間的巨大差異,以及各個國家各種各樣的網(wǎng)絡習慣,我們也很難精準地搜索到相關的外文信息。也就是說,語言的不同給搜索帶來了一道鴻溝。

那么,這道鴻溝就不能跨越了么?當然不是。事實上很多年前人們就已經(jīng)開始考慮這個問題了。在學術界,對這個問題有個專有名詞,叫跨語言信息檢索(Cross-Language Information Retrieval)。早在上個世紀60年代,現(xiàn)代信息檢索的奠基人,美國康奈爾大學的Salton教授發(fā)表了一篇《Automatic processing of foreign language documents》,首先打開了跨語言信息檢索的大門。但是由于那個時代還沒有互聯(lián)網(wǎng),研究也只能停留在簡單實驗階段,甚至跨語言信息檢索的概念還沒有正式提出。到了上世紀90年代,美國國家標準技術研究所(National Institute of Standards and Technology)和美國情報局前沿研發(fā)活動中心(Advanced Research and Development Activity center of the U.S. Department of Defense)聯(lián)合舉辦了信息檢索領域最重要的會議——“TREC”會議(The Text REtrieval Conference)。到了1996年,在瑞士所舉辦的SIGIR-96會議中,首次出現(xiàn)了以跨語檢索為研究主題的研討會。而到了2000年,歐盟成立了“跨語言評估論壇”(Cross Language Evaluation Forum),每年定期舉辦跨語檢索研討會,并且推動跨語檢索技術評比。從此,跨語言信息檢索變成了信息檢索領域的一個炙手可熱的研究課題,無數(shù)英雄豪杰參與其中。

閑話少說,我們該進入正題了:對于跨語言信息檢索問題該如何解決呢?接下來讓我們揭開它的面紗。

在說跨語言信息檢索之前,我們先回顧一下經(jīng)典信息檢索是怎樣做的,如圖1所示:首先,對于用戶的query,我們要對它進行特征提取,使之變成一個特征向量,用于匹配文檔。其次,對于已經(jīng)抓取的文檔,我們也對它進行特征提取,并給予這些特征一些權重,來表示它們的重要程度。再次,我們對query的特征和文檔的特征進行相似度計算,來判斷哪些文檔跟query相關,哪些不相關。信息檢索最常用的相似度計算方法是求cosine,其它還可以從語義主題的角度去描述相似性,這個就不詳細介紹了。有了相似度,我們可以根據(jù)相似度對文檔進行排序,并將最相關的一些作為檢索結果。對于檢索結果,用戶可能會提供一些反饋,比如用戶的點擊。這些反饋可以告訴我們,在搜索結果里面哪些是用戶需要的。這些信息可以用來衡量檢索的效果,來對檢索模型進一步提升。

在信息檢索的流程中,我們可以看出跨語言檢索的難點:當query的語言和文檔的語言不同時,query和文檔的特征空間是不同的。中文的特征集合(某個中文詞語出現(xiàn)與否)與英文的特征集合(某個英文詞語出現(xiàn)與否)的交集極少,這導致原有的相似度計算方式在跨語言時失效了。

那么這個問題怎么解決呢?

對于跨語言,我們自然而然想到的一種方式就是:翻譯。我們可以通過翻譯的方式把一個語言的詞語映射到另一語言上,從而讓query和文檔處于同一個特征空間中,然后再利用單語下的檢索模型進行檢索和排序,這樣就可以實現(xiàn)跨語言檢索了。

Query翻譯——把query翻譯到文檔的語言下,然后用這些翻譯后的query在文檔中進行檢索。對于query中的詞語,我們可以選擇若干可能的翻譯,用于擴大召回。這可以看作是一種query擴展。

文檔翻譯——把文檔翻譯到query的語言下,然后用原有query對翻譯的文檔進行檢索。文檔的翻譯一般是在線下進行的。一篇源語言的文檔通過自動的翻譯(如機器翻譯)變換成一篇目標語言下的文檔。

這兩種方式都是可以達到跨語言檢索目的的,我們在實踐中應該采用哪種方式呢?下面我們分析一下這兩種方式的優(yōu)劣:

從上述優(yōu)劣比較中我們可以看出,文檔翻譯雖然可能提供更準確的翻譯,但它需要更多的線下處理時間,需要更多的存儲空間,實用性較差。鑒于此,無論是學術界還是工業(yè)界,一般采用的都是Query翻譯的方式。

Query翻譯方式的最大缺點就是由于詞語翻譯的錯誤導致檢索錯誤。那么我們有沒有辦法客服這個問題呢?對于自動而又精確的翻譯,我們很容易會想到機器翻譯。不過,如果直接使用機器翻譯的結果,效果并不能達到我們的預期。這是因為,首先,機器翻譯和跨語言信息檢索的目標是不一樣的。機器翻譯是為了讓翻譯出的文字更可讀,因而會在調(diào)整語序上下很多功夫,但是跨語言檢索不需要語序,它只需要正確翻譯的詞語出現(xiàn)即可。在機器翻譯中一些無意義的連接詞(比如“there is”)是重要的,但是在跨語言檢索中我們完全不需要它們。其次,機器翻譯的目標是得到一個最可能的翻譯結果,而在跨語言檢索中,我們需要保留多種翻譯的結果,來提高召回。在這里,也許你會想到,我們也可以把機器翻譯的結果作為基礎進行同義詞擴展,這樣不是就可以了么?這樣做其實是有很大風險的:如果機器翻譯把某個詞翻錯了,那么在此之上的所有擴展都會對檢索結果造成惡劣的影響。

Query翻譯的一般做法是這樣的(如圖2所示):對于一個query,首先我們對它進行切分,得到一個個詞語。在切分的結果中,我們把其中的無意義詞語(如“的”、“嗎”等)都過濾掉。對于剩下的每一個有意義的詞語,我們得到若干翻譯候選詞。然后在這些候選詞語中,我們通過某種機制選擇其中的一部分來生成跨語言檢索的新query。舉個例子:

比如有個英文的query:

“building information super highway”

我們要用它來檢索中文的文檔。我們可以通過翻譯字典找到每個英文單詞的中文候選詞:

“building” -》 “建筑 / 建立”

“information” -》 “信息 / 消息 / 知識”

“super” -》 “上等的 / 超級的 / 特大的”

“highway” -》 “公路 / 大道 / 直接的途徑”

英文query的原意是希望了解高速公路附近的房屋信息。根據(jù)這個需求,我們可以發(fā)現(xiàn),在這些候選詞里有些必須刪除,比如building的翻譯“建立”,因為它明顯不符合query的原意;有些是可以保留的,比如highway的翻譯“公路”和“大道”。而我們的核心目標就是通過一定的方法把不合理的翻譯刪除,然后將合理的翻譯用于檢索。

在這里我們介紹一種基于詞共現(xiàn)的方法。

比如“building”和“information”這兩個詞,我們首先把它們的翻譯組合寫出來,得到6種可能翻譯:

(建筑 信息),(建筑 消息),(建筑 知識),(建立 信息),(建立 消息),(建立 知識)

在這些組合中,有些我們一眼就可以看出它是符合檢索需求的,比如(建筑 信息),有些則肯定不是,如(建立 消息)。那么如何讓程序自動判斷呢?其實很簡單,我們只需要看看這些組合在中文文檔中共同出現(xiàn)的次數(shù)即可。正確的翻譯組合在文檔中出現(xiàn)的頻率往往較高,而錯誤的翻譯組合則不常出現(xiàn)。這樣,我們通過中文文檔中詞語的自然分布,就可以為翻譯組合打分,把錯誤的翻譯組合剔除掉。

基于共現(xiàn)的方法是最基本、最簡單的一種方法。事實上近10多年來,學術界已經(jīng)提出了很多更為復雜的算法來解決這個問題。由于篇幅有限,這里就不詳細介紹了。有興趣的讀者可以讀讀加拿大蒙特利爾大學的聶建云教授的著作《Cross-Language Information Retrieval》,那里有更詳盡的論述。

以上著重介紹的都是跨語言信息檢索在技術上是怎么實現(xiàn)的。下面我想說下,我們?yōu)槭裁匆M行跨語言檢索呢?它對于搜索引擎有多大的價值呢?我總結了以下幾點:

獲取其他語言的相關資源

有些資源在中文中不存在,而在其他語言的網(wǎng)頁中存在。比文章開頭描述的XX用戶,希望了解外國的輿論。在這種情況下,我們就需要通過跨語的搜索來滿足用戶的需求。

獲取多種語言夾雜的資源

在互聯(lián)網(wǎng)上并不是每個網(wǎng)頁都只有一種語言。很多時候,一個網(wǎng)頁中有多種語言的文字出現(xiàn)。如果只用一種語言的query去檢索,可能無法召回這些頁面。如果我們將跨語言檢索的技術融入當中,就可以提高搜索的召回。

獲取與文字語言無關的資源

有些資源是跟文字無關的,比如圖片、視頻、音頻。而對這些資源的搜索往往會借助于文字。有了跨語言檢索的技術,我們就可以將滿足用戶需求的、國外網(wǎng)站上的資源展現(xiàn)出來,來豐富搜索結果。

滿足“查全”的需求

在搜索中,我們有的時候需要“查全”所有的相關信息。比如要搜一個專利,我們會希望把各個國家的相關專利都搜出來。在這種情況下,我們就需要跨語的檢索,幫助我們達到這個目的。

當前,跨語言信息檢索不僅在學術界正在熱火朝天地開展,事實上,它早已走入了工業(yè)界,真正被應用到了實際搜索當中。早在2006年,Yahoo首先推出了跨語言搜索服務。隨后在2007年,Google也相繼進入了這一領域,展開了國際化的搜索。和百度相比,Yahoo和Google的確在國際化方面領先不少。其中一個重要原因是,他們都是從英文搜索起家的,而英文是世界上的最流行的通用語言,它到其它語言的翻譯資源比較豐富,利于國際化的擴展。不過這沒關系,我們比的是誰做的更好,而不是誰做的更早。如今,百度的國際化業(yè)務正在如火如荼地開展,相信不久的將來,它將會在搜索國際化進程中扮演舉足輕重的角色。

“雄關漫漫真如鐵,而今邁步從頭越”,未來如何,讓我們拭目以待吧!

作者:飛旋的世界

發(fā)布:2007-03-31 14:21    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關欄目:
相關文章:
張家界OA
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普張家界網(wǎng)站建設公司其他應用

張家界軟件開發(fā)公司 張家界門禁系統(tǒng) 張家界物業(yè)管理軟件 張家界倉庫管理軟件 張家界餐飲管理軟件 張家界網(wǎng)站建設公司