Text Mining 文字探勘組

跨語意見探勘

近年來,提供使用者更方便地發表個人經驗、觀點以及評論的網站日益增多。這些來自使用者的資訊相當具有價值,在過去必須以昂貴的代價,透過問卷調查的方式來取得。儘管許多網站已經提供評論與給分的功能,但多數都以文字形式存在。隨著自然語言處理技術的成熟,電腦程式已有能力分析這些以未結構化文字存在的資訊。這種對網際網路使用者撰寫之意見與評論進行分析與彙整的技術即稱為意見探勘。最近,我們將此技術搭配團隊中的翻譯技術經驗,逐漸擴大應用範圍,如可取得日文相關的產品資訊。


專有名詞翻譯

在跨語資訊檢索的研究中,查詢語句中之詞彙的翻譯一直是研究的重心所在。一般常見的詞彙,可以透過雙語辭典的方式來加以翻譯,依據先前的跨語資訊檢索研究,雙語辭典對於跨語言檢索的翻譯有相當大的助益。然而,在專有名詞的翻譯上,如人名、地名、機構團體名等等,由於範圍太廣且不斷有新的名詞發明,便很難完全依賴雙語辭典進行翻譯。隨著資訊的傳遞不斷地增加,每天都會產生新的專有名詞,勢必需要另一個不倚靠辭典的方法來解決專有名詞翻譯的問題。在近年來也成功的將此技術應用到跨語資訊檢索的應用中,使得對外語不熟悉的人也能及時的取得國外的多媒體資訊。

應用Web 2.0 之中文語料分析餐廳招牌菜辨識系統

部落格食評能提供撰寫者本身對於某餐廳食物的實際品嘗經驗,透過食評網站將用餐的情況記錄下來,以分享推薦給其他讀者,也因此成為許多網路使用者挑選餐廳的依據,其他消費者也可以加入自己的意見來回應該食評。對於一篇餐廳食評來說,主要焦點通常是該餐廳所提供的各種菜餚,例如每個菜餚有不同的評價或食後感想,故抽取菜餚名稱在探勘食評中是其中一個關鍵步驟。然而,食評屬於非結構化文件,其格式長度不一,若要將食評中的重要資訊,如推薦菜餚名稱,抽出存入餐廳相關資訊資料庫中,以供之後的應用,便需要對食評文本進行資訊擷取。由於菜餚名稱並沒有固定的構詞規則,因此擷取的工作有相當的難度。傳統方法多以純文字分析為主。我們提出了一個嶄新的方法來提取中文的菜餚名稱。下圖為過去系統已提出之架構圖,主要分為候選詞辨識(左)及候選詞驗證(右)流程。

旅遊景點推薦

現代人在忙碌的工作下,外出旅遊的次數愈益上升。而對於行程規劃、旅遊品質,事前的準備是不能馬虎的。由於網際網路的發展,透過許多線上旅遊相關評論網站、BBS相關看板等,立即就能得到最新的討論及資料。但隨之而來的挑戰,是如何利用資訊科技主動地去挖掘及了解其他人的意見。此研究方向針對這個需求,期盼可設計出一套系統,透過自動擷取旅遊論壇及電子佈告欄系統上的資料,找出大家推薦或不推薦的旅遊景點。