FANDOM


「跨語檢索」,或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用Oard, D. W.,在1997年發表的文章:Cross-Language Information Retrieval Defined。跨語檢索意指使用者自然地使用某種語言(natural language)的檢索詞彙query)檢索由另一種語言表達的文件。

舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。

起源與發展编辑

1969年,Salton,G.發表Automatic processing of foreign language documents文章。Salton以 SMART 文件檢索系統 (SMART document retrieval system)當作實驗對象,SMART文件檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton使用英文為主要檢索詞彙 (query) 的語言,檢索德文的文件和資料,反之亦然。實驗結果發現,採用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統可以用相對簡單而有效率的方式,進行文獻索引(document indexing)、分類 (classification)、搜尋 (search),和檢索 (retrieval)等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。


1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱DARDA) 合作舉辦「文字檢索會議」( The Text REtrieval Conference, 簡稱TREC),一開始是附屬於TIPSTER Text program底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。


1996年,美國計算機協會(Association of Computing Machinery, 簡稱ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會Workshop),與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval 》找到。


1998年,召開第一次 NII Test Collection for IR Systems program, 簡稱NTCIR會議。NTCIR會議主要是由日本學術振興會(Japan Society for Promotion of Science, 簡稱JSPS)、日本國家科學資訊系統中心 (National Center for Science Information Systems, 簡稱NACSIS),以及日本國立情報學研究所(Institute of Informatics National Institute of Informatics, 簡稱NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的文件集


2000年,歐盟成立「跨語言資訊檢索論壇」 (Cross Language Evaluation Forum , 簡稱CLEF) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文字檢索text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖片檢索(Cross-Language Image Retrieval )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語系為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數位圖書館 (digital library)計畫中。

特徵编辑

跨語檢索的特徵,根據陳信希教授在2002年的《跨語檢資訊檢索:理論、技術與應用》這篇文章指出,共具有六項特徵,將內容統整如下:

  1. 檢索詞彙的歧義性(ambiguity):翻譯檢索詞彙的過程,不只會遇到檢索詞彙一詞多義的情形,翻譯後的目標檢索詞彙(target query)的多義性(polysemy)也是需要解決的問題之一。
  2. 檢索詞彙(query)和文件(document)分屬不同語言:其為跨語檢索最主要的特徵。檢索詞彙和文件間必須要有特定的對應關係,翻譯技術是建立其關係的重要運算之一。
  3. 檢索詞太短:跨語檢索者所輸入的檢索詞彙往往太簡短,因而造成翻譯和歧義性的困難度。
  4. 語言識別(language identification)困難:如果跨語檢索系統無法辨識該檢索詞彙是何種語言,如中文英文拉丁文俄文等,就無法檢索出使用者所需要的資料。
  5. 斷詞和書寫符號的問題:因為中文的詞與詞之間沒有明顯的分隔符號,因此會有斷詞(segmentation)的問題。而俄文、西班牙文等語文,電腦沒有自動產生文字的功能,如當使用者欲於搜尋引擎或文件中,輸入俄文,必須利用其他的應用軟體,才能產生俄文,而不像英文或中文可直接從輸入法中選擇。
  6. 輸出結果的呈現(visualization):包含檢索結果得到的多語言文件要如何合併,介面該如何呈現,才能使檢索者一目了然等問題。

使用技術编辑

整理陳信希老師和陳光華老師們的文章,目前跨語檢索相關技術,可分成三大類,分述如下:

  • 翻譯檢索詞彙:此法視處理檢索詞彙的方式,又區分成兩種方法,一種是控制詞彙,另一種是自由詞彙
  • 控制詞彙:使用控制詞彙進行檢索時,由於為系統內定的詞彙,所以,雖然使得檢索的過程比較順利,可是能找到的資料有限。
  • 自由詞彙:可分成三種策略,分別是知識庫策略、語料庫策略和混合式策略。
  • 知識庫策略:一種是採用辭典的方法,另一種則是採用索引典策略的知識架構。
  • 語料庫策略:此法比較複雜,包含了四種方法,分別是「詞彙對列方式」、「文句對列方式」、「文件對列」和「不採用對列方式」。
  • 翻譯文件:此法可分成兩種,一種為文本的翻譯,另一種為特徵向量的翻譯。
  • 不翻譯。

參見编辑

資訊檢索 (information retrieval)
文字檢索 (text retrieval)
圖片檢索 (image retrieval)
單語資訊檢索 (monolingual retrieval)
美國計算機協會 (ACM)

參考來源编辑

您使用了广告屏蔽软件!


Wikia通过广告运营为用户提供免费的服务。我们对用户通过嵌入广告屏蔽软件访问网站进行了使用调整。

如果您使用了广告屏蔽软件,将无法使用我们的服务。请您移除广告屏蔽软件,以确保页面正常加载。