意見探勘 Opinion Mining

許多商家使用問卷以取得消費者購買後的服務及建議,以提升服務品質。然而,此種實體問卷有以下缺點: 一、鑑於問卷上的內容不全然是使用者想回饋的內容,因而大幅降低了消費者回饋意願。二、印刷、發放、閱讀此問卷亦是額外成本。三、許多傳統小吃礙於店面成本,通常並不發放問卷。鑑於改善上述缺點,本實驗室利用文字探勘(text mining)的技術以從大量評論文章中找到使用者對於產品的評價。

廣義來講,情緒意見分析是利用自然語言處理、文本分析以及語意特性來決定句子、文章甚至文本的主觀訊息(Subjective Information)。一般來說,情緒極性分類都是使用機器學習(Machine Learning)來達到效果,並且搭配傳統的Bag-of-WordsBoW)特徵值,如此一來就能達到還不錯的精準度。但如果想要追求更高的精準度呢?本實驗室的情緒極性分類系統搭配一個特有的字典—SentiConceptNet,使用除了BoW的特徵值外,也利用較新穎的特徵值Bag-of-Sentmental-ConceptsBoSC)來提升準確度。

本實驗室針對中文餐廳評論發展出一套面向類別偵測(ACD)與其極性(ACP)的系統,其系統架構圖如下圖1所示


1 ACP Features Flow

        ACD(Aspect Category Detection)任務中系統要判斷評論句包含哪些面向類別的意見。即給定一句評論SACD要預測S的每個面向類別 Ci 所組成的集合 C 0 |C| 5C {食物, 價錢, 服務, 氣氛, 其他}。舉例而言:「菜色好不好」此句子為食物類別,詳細架構圖如下圖2所示。

2 A flowchart of RAkEL algorithm in ACD subtask

        而在 ACP(Aspect Category Polarity)任務中,系統要判斷每個已經確定的面向類別的情緒類別。即給定一句評論 S與 S的其中一個面向類別Ci ACP要預測Ci的情緒類別 PiPi ∈ {正向,負向,衝突,中性}例如「雖然不難吃,但也沒什麼特別的」在「食物」類別下的極性即為「中性」。

本系統目前已完成於餐廳評論領域。實驗顯示(如下圖3),使用 Word2Vec 作為特徵可以達到 87.5% 的正確率,加上(意見詞,面向詞)配對特徵可以達到88.3% 正確率。所有的特徵一起使用可以從 84.4% 提升到 89.0%。實驗結果顯示該配對於面向類別情緒偵測下是有效的。

3 Aspect Category Polarity Evaluation Result

        我們可以用「漢堡不錯吃,但是貴了點」在系統上做測試如下:

系統網址