意見探勘

Opinion Mining

許多商家使用問卷以取得消費者購買後的服務及建議，以提升服務品質。然而，此種實體問卷有以下缺點: 一、鑑於問卷上的內容不全然是使用者想回饋的內容，因而大幅降低了消費者回饋意願。二、印刷、發放、閱讀此問卷亦是額外成本。三、許多傳統小吃礙於店面成本，通常並不發放問卷。鑑於改善上述缺點，本實驗室利用文字探勘(text mining)的技術以從大量評論文章中找到使用者對於產品的評價。

廣義來講，情緒意見分析是利用自然語言處理、文本分析以及語意特性來決定句子、文章甚至文本的主觀訊息（Subjective Information）。一般來說，情緒極性分類都是使用機器學習（Machine Learning）來達到效果，並且搭配傳統的Bag-of-Words（BoW）特徵值，如此一來就能達到還不錯的精準度。但如果想要追求更高的精準度呢？本實驗室的情緒極性分類系統搭配一個特有的字典—SentiConceptNet，使用除了BoW的特徵值外，也利用較新穎的特徵值Bag-of-Sentmental-Concepts（BoSC）來提升準確度。

圖1 ACP Features Flow

在ACD(Aspect Category Detection)任務中，系統要判斷評論句包含哪些面向類別的意見。即給定一句評論S，ACD要預測S的每個面向類別 Ci 所組成的集合 C， 0 ≤ |C| ≤ 5，C ⊆{食物, 價錢, 服務, 氣氛, 其他}。舉例而言:「菜色好不好」此句子為食物類別，詳細架構圖如下圖2所示。

圖2 A flowchart of RAkEL algorithm in ACD subtask

而在 ACP(Aspect Category Polarity)任務中，系統要判斷每個已經確定的面向類別的情緒類別。即給定一句評論 S與 S的其中一個面向類別Ci， ACP要預測Ci的情緒類別 Pi，Pi ∈ {正向,負向,衝突,中性}。例如「雖然不難吃，但也沒什麼特別的」在「食物」類別下的極性即為「中性」。
本系統目前已完成於餐廳評論領域。實驗顯示(如下圖3)，使用 Word2Vec 作為特徵可以達到 87.5% 的正確率，加上（意見詞，面向詞）配對特徵可以達到88.3% 正確率。所有的特徵一起使用可以從 84.4% 提升到 89.0%。實驗結果顯示該配對於面向類別情緒偵測下是有效的。

圖3 Aspect Category Polarity Evaluation Result

我們可以用「漢堡不錯吃，但是貴了點」在系統上做測試如下：