跨語言處理

Cross Lingual Information Processing

Home

NEWS

研究領域

AI 新知

成員介紹

專題生專區

跨語言處理（Cross-lingual Processing）是針對各個國家的語言作資訊擷取（Information Extract）、資訊檢索（Information Retrieve）或機器翻譯（Machine Translation）等，系統透過自然語言處理（Natural Language Processing）方式，利用機器學習（Machine Learning）同時將不同語系的語言資訊進行分析，獲得資訊的共同點，資訊的形式包含文字與聲音。目前我們的研究著重於跨語檢索與機器翻譯，並且將深度學習演算法應用在跨語言處理上，以提高檢索和翻譯的準確度，致力於全球的知識共享，以配合21世紀知識自由摘取的時代。

本團隊的研究包括：

跨語檢索

「維基百科」是目前世界上最大、觸及語言最廣泛的線上百科全書。根據統計，英文維基百科文章數具有4,470,246個，中文維基百科只有755,628文章數，僅是英文維基百科的六分之一，中英維基百科的數量十分懸殊。

英文維基百科的文章具有跨語連結至其中文版本的數量是106,729，比例佔全英文維基的2.3%，這對於中文母語的學習者是極大的不方便。

鑑於此，我們開發一深度學習模型處理「跨語對應文章之連結」，尋找「英文維基百科」條目在「中文百度百科」中對應的文章，將兩個語言的知識百科做連結，藉此平衡中英文維基百科文章數，以達到知識共享的目標。

該模型不需要依靠語言特性與線上百科的架構產生特徵，僅以文章內文作為訓練資料的依據，運用各種神經網路，辨別跨語文章的語意上的相似程度。在面對不同語言版本的資料時，僅需替換預訓練詞向量即可。

Figure 1. CNN + Bi-RNN Sentence Encoder

Figure 2. Similarity Matching

跨語檢索線上網頁系統：Encyclolink

為了提高本研究的實用性，我們以所研究的模型，研發了線上的跨語檢索系統，以網頁方式程現。本網頁以簡潔的設計組成，使用者只要放輸入想要查詢的英文維基百科的條文，就會傳送到背後的模型進行計算，最後得出相似的百度條文的排名，最後並依相似率，由高至低排例，顯示最高相似率的10條百度條文的超連結。為了讓使用者作出對比，在網頁中我們同時提供了使用者輸入的英文維基百科條文預覽，讓使用者可以方便地對比結果。

Encyclolink 主介面

英文維基百科條文預覽

計算後對應的百度百科結果顯示

2. 機器翻譯

世界上有六千多種語言，為了讓不同語言使用者能夠互相交流，語言翻譯是當中十分重要的工作。機器翻譯是利用機器的協助去把一種語言翻譯成另一種語言。以往機器翻譯都是以字對字、統計法等的方法去進行翻譯。但近年來，類神經網絡的興起，加上電腦硬件的運算效能大幅提升。神經機器翻譯也成為近年炙手可熱的話題和研究目標。

有鑑於此，我們正在一些不同的語言配對上進行嘗試和研究，例如中韓翻譯。另外我們也在一些比較少在正式文書上的中文方言，如粵語、台語等作出研究，希望在稀少資源的情況下也能作出有效的翻譯。希望能夠幫助促進不同文化的交流同，同時也能傳承一些被逐漸遺忘的語言和文化。