跨語檢索 Cross Lingual Information Access

在我們實驗室,有個組別專門研究跨語言文料間的對應關係,小至「單辭翻譯」,大至「跨語對應文章之連結」,未來若結合聊天機器人,也許能發展出即時翻譯對話系統,如同卡通多拉A夢中的「翻譯蒟蒻」。目前本組別著重在:「跨語對應文章之連結」,其目的為:「尋找『英文維基百科』條目在『中文百度百科』中對應的文章,並將其連結」。


*圖片來源自網路

身為使用中文作為母語的我們,同時又是線上百科重度使用者,我們時常遭遇到找不到條目的中文頁面所困擾,對於從小學習各式中文專有名詞的學生,一下子轉跳至英文頁面,知識學習更是難上加難!

因此,我們試想若能豐富條目在跨語言間都有頁面,會是件不錯的事情。


根據王昱鈞博士於2014年的論文針對維基百科的統計,當時的英文頁面數量為中文頁面的6倍之多,其中英文頁面中含有對應的中文頁面連結(跨語言連結)數量只占2.3%,可想而知如此的線上百科對於中文使用者是如此不友善,而至今依舊沒有改善。此現象不只出現在中文維基百科上,2008年也有論文指出德文和日文都有此現象發生。


「維基百科」是目前世界上最大、觸及語言最廣泛的線上百科全書,全部共有257種語言版本的百科,提供全世界各語言使用者查詢知識,儲存人類所累計的知識,但除上述條目數量、跨語連結差異外,中文維基百科也面臨文章內容不齊全等問題。除「維基百科」外,也有其他主要語言非英文的線上百科,例如:中文─「百度百科」、韓文-Nate」和西班牙文─「Enciclopedia Libre」等等,此類線上百科有很強烈的地域性,主要為當地人所使用,頂多會而外增加一兩種參照語言。

我們最終的目的是:創造具有彈性的連結模式,能輕鬆套用至不同語言來連結多個的線上百科內的對應條目。而現階段我們已在英文維基和中文百度之間試驗並達成八成的準確率,主要使用的技術為:資訊檢索演算法、字串相似度、雙語主題模型、文章分類向量、上位詞對應……等。未來預計搭配文章內超連結的架構,使用深度學習來找到有用的資訊,幫助機器自動判斷該如何連結。


跨語言條目的自動匹配已成為重要課題,完成跨於連結能夠受惠許多「自然語言處理」相關議題,舉例來說:

  • 機器翻譯(Machine Translation):目前專有名詞的機系翻譯依舊高度依賴線上百科中的跨語連結。而進階的文章、句子翻譯功能,更要能夠解譯來源文字的完整意義,翻譯好壞往往取決於兩造翻譯語言間的詞彙、文法結構、語系甚至文化上的差異,機器必須能夠分析與詮釋整段文章的所有特徵,且深度了解其文法、語義、語法、成語等等,並且熟知來源語言的文化背景差,才能「創造」一段好似真人實際寫作出來的目標語言的文字,對機器翻譯便是一項挑戰。
  • 詞義消歧(Word Sense Disambiguation)、命名實體消歧(Named Entities Disambiguation):此二項為聊天機器人的前置作業,許多詞彙在不同場合,語境下使用,會產生不同的意義,而在不同的語言中,能對應至不同的字詞,因此能夠幫助辨識,用在這裡指的是哪個意思。

 

除此之外,跨語連結項目亦是建構全人類最完整的知識庫火車,朝著紀錄從古至今,所有前人累積的歷史、知識、智慧結晶於一個統一的知識寶庫,正是未來世界裡的超級大腦。