有效、快速、客觀地找尋歷史的線索

以「非監督式機器學習演算法」進行《明實錄》衛所事件分群

1.   效而快速地進行研

本計畫更進一步分析運用漢籍數位化的電子文獻資料。《明實錄》是中國歷代實錄中最早之完整地保存下來的史書。若想對實錄體進行深入的探討,《明實錄》無疑是最早且最完整的“標本”。《明實錄》集歷代實錄體裁之大成,其書多達一千六百多萬字,研究者要從這卷軼浩瀚的文本中找尋與事件相關的資訊,著實不易,故我們首先選定《明實錄》作為實驗文本,規劃「明實錄衛所事件」平台。期能協助研究者有效快速地在《明實錄》中找尋衛所相關的事件進行分析研究。

2.   客觀地角度搜尋歷史資料

研究上有時會因為人為主觀立場而影響到採用的歷史證據。我們計畫提供更客觀且地毯式地檢視史料的文本分析平台。「明實錄衛所事件」平台,主要是將《明實錄》中衛所相關的段落從《明實錄》中先擷取出來,經過非監督式人工智慧程式自動分群,再由研究者為各群集命名。研究者可以先在此介面工具上做「事件類型編輯」(網頁的右上角),接著可輸入想查詢的衛所,選擇有興趣的事件類型,即可搜尋到在《明實錄》中此衛與所選歷史事件類型相關的段落。(如圖一所示)

(圖一) 點擊放大

3.   結合地圖,達到「文本可視化」

另一個願景是達到歷史文本的可視化,將文本中歷史事件發生的地點在地圖上呈現,協助研究者從單純文字描述的理解,進一步與空間連結。為此我們結合GIS中心所提供的CCTS-API地圖服務來定位衛所位置。 我們以文本中的事件擷取為出發點,規劃了整合衛所事件搜尋,衛所地點標註,明代地圖連結的「明實錄衛所事件」線上介面工具,以期提供研究者進行系統自動擷取出之事件與其相關衛所相互空間資訊的檢視。(如圖二所示)

(圖二) 點擊放大

4.   用年表呈現發展趨勢,結合統計圖表作量化分析

 [衛所事件網頁]將事件呈現在可縮放的年表上,依照《明實錄》紀錄的時間(精細至日)用標籤標記,可供觀察事件的發展趨勢,年表的上方有年號,下方則有西曆時間。點擊年表上的「事件標籤」,即可直接跳至該事件的文本段落,方便閱讀。(如圖三所示)

(圖三) 點擊放大

本網頁另提供量化分析,以柱狀圖呈現所選擇事件類別在各個年號段落出現之頻率。以建州衛為例,選擇外交類別,即可從柱狀圖1看出,在《明實錄》中各朝與建州衛相關之外交類別段落數量;外交又包含貢賞,來歸/外族紛爭及賞賜外族三個分群。由柱狀圖2可看出個別分群的段落數;透過圓餅圖則可觀察不同事件分群在外交所佔的比例,例如「貢賞」相關段落占所有建州衛外交相關段落之59%。(如圖四所示)

(圖四) 點擊放大

以下提供簡單的文本分群程式,歡迎下載使用

ċ
easyKmeans.rar
(10282k)
黃詩芸,
2017年2月24日 上午6:11