跨語言處理(Cross-lingual Processing)是針對各個國家的語言作資訊擷取(Information Extract)、資訊檢索(Information Retrieve)或機器翻譯(Machine Translation)等,系統透過自然語言處理(Natural Language Processing)方式,利用機器學習 (Machine Learning)同時將不同語系的語言資訊進行分析,獲得資訊的共同點,資訊的形式包含文字與聲音。目前我們的研究著重於跨語檢索與機器翻譯,並且將深度學習演算法應用在跨語言處理上,以提高檢索和翻譯的準確度,致力於全球的知識共享,以配合21世紀知識自由摘取的時代。
本團隊的研究包括:
-
跨語檢索
「維基百科」是目前世界上最大、觸及語言最廣泛的線上百科全書。根據統計,英文維基百科文章數具有4,470,246個,中文維基百科只有755,628文章數,僅是英文維基百科的六分之一,中英維基百科的數量十分懸殊。
英文維基百科的文章具有跨語連結至其中文版本的數量是106,729,比例佔全英文維基的2.3%,這對於中文母語的學習者是極大的不方便。

鑑於此,我們開發一深度學習模型處理「跨語對應文章之連結」,尋找「英文維基百科」條目在「中文百度百科」中對應的文章,將兩個語言的知識百科做連結,藉此平衡中英文維基百科文章數,以達到知識共享的目標。

該模型不需要依靠語言特性與線上百科的架構產生特徵,僅以文章內文作為訓練資料的依據,運用各種神經網路,辨別跨語文章的語意上的相似程度。在面對不同語言版本的資料時,僅需替換預訓練詞向量即可。

Figure 1. CNN + Bi-RNN Sentence Encoder

Figure 2. Similarity Matching
跨語檢索線上網頁系統:Encyclolink
為了提高本研究的實用性,我們以所研究的模型,研發了線上的跨語檢索系統,以網頁方式程現。本網頁以簡潔的設計組成,使用者只要放輸入想要查詢的英文維基百科的條文,就會傳送到背後的模型進行計算,最後得出相似的百度條文的排名,最後並依相似率,由高至低排例,顯示最高相似率的10條百度條文的超連結。為了讓使用者作出對比,在網頁中我們同時提供了使用者輸入的英文維基百科條文預覽,讓使用者可以方便地對比結果。

Encyclolink 主介面

英文維基百科條文預覽

計算後對應的百度百科結果顯示
2. 機器翻譯
世界上有六千多種語言,為了讓不同語言使用者能夠互相交流,語言翻譯是當中十分重要的工作。機器翻譯是利用機器的協助去把一種語言翻譯成另一種語言。以往機器翻譯都是以字對字、統計法等的方法去進行翻譯。但近年來,類神經網絡的興起,加上電腦硬件的運算效能大幅提升。神經機器翻譯也成為近年炙手可熱的話題和研究目標。


有鑑於此,我們正在一些不同的語言配對上進行嘗試和研究,例如中韓翻譯。另外我們也在一些比較少在正式文書上的中文方言,如粵語、台語等作出研究,希望在稀少資源的情況下也能作出有效的翻譯。希望能夠幫助促進不同文化的交流同,同時也能傳承一些被逐漸遺忘的語言和文化。