生醫文獻探勘

Biomedical Text Mining

Home

NEWS

研究領域

隨著資訊技術的蓬勃發展，資訊技術也被導入到各項領域的研究之中。由於生醫領域學門眾多、發展快速，內容十分繁雜，因此美國國家醫學圖書館 National Library of Medicine(NLM)早於 1960 年代即著手生醫文獻資訊化，建構出以收集生醫文獻為主的 Medline 資料庫與 PubMed 搜尋引擎供研究者使用。然而，現階段生醫研究者為設計實驗而搜尋資訊時，仍然得從大量未經結構化整理的文獻中，找尋其研究目標與方向，所以我們生醫文獻探勘組，繼續致力於為生醫領域開發更多便捷系統，縮短研究者們繁瑣的搜尋文獻程序，希望能加速整體生醫領域的相關研究發展。

生醫文獻至少有以下主要特性：

新創的命名實體繁多：在生物醫學文獻中，無論是基因名稱，蛋白質名稱，細胞名稱或是藥物名稱，皆是命名實體的一種，更是扮演者生醫研究文獻中重要的基本角色。

命名實體縮寫沒有命名規則且具有多變性：文獻的命名實體經常由於過於冗長，研究者常採用縮寫的方式來代表命名實體，例如 interleukin 2 可縮寫為 IL-2，或是 p53 常是 protein 53、p53 protein、protein-53等縮寫。

一個命名實體可能代表多個實體。

文句可能出現複雜巢狀結構。

動詞語意會具有強烈的生物獨特性，例如: active、induce等。

想像一下，我們可能會有很多稱呼，像是本名或外號，但每個人都會一個獨一無二的身分證號碼，而文獻中的基因名也是如此，所以如何將這些命名實體找出來，並將其關聯至所代表的資料庫識別號碼便是一個很重要的技術 ! 我們將藉由以下元件，更進一步的精進許多生醫文獻探勘的技術，致力開發完善的文獻前處理器，縮短生物醫學的研究者搜尋文獻時間，使學者快速找到其有興趣的文獻。

本團隊致力於發展各項具語意分析能力的生醫資訊擷取技術，與嘗試生醫新興任務，包含：

命名實體辨識技術( Named Entity Recognition, NER )：

於生醫文獻中找到正確的命名實體位置。命名實體包含基因、蛋白質、疾病名稱等等。

命名實體正規化( Named Entity Normalization )：

於生醫文獻中的命名實體對應到生醫資料庫識別號碼。

關係抽取( Relation Extraction )：

提取生醫文獻內的命名實體之間的關聯作用，並指出該作用的類型。

例如：疾病與疾病的協同作用、蛋白質與蛋白質的交互作用等。

問答( Question Answering, QA )：

在 Standard Question Answering Dataset (SQuAD) 成功作為一般領域的問答指標任務後，

建立一個生醫的問答資料集和系統開始蔚為流行。Biomedical Semantic Indexing and Question Answering (BioASQ) 以及 Google 的 PubＭed QA 都提供了任務公開的排行榜。

而他們的資料來源都是PubＭed的摘要來取代一般的維基百科。

主要開發成果與競賽:

Disease-Disease Association Extraction (DDAE)

我們將DDAE制訂為監督式機器學習之分類問題。輸入一句包含一對疾病的文章，我們的系統可以將該對疾病，從三種預定義的疾病關聯類型中，分類出屬於哪一種關聯。關聯類型包含：正向、負向及無關聯。

DDAE 圖例

論文連結

AI CUP 2019 生醫論文自動分析正式賽生醫關聯擷取

此次競賽主要為將人工智慧技術應用於基礎的臨床醫療病歷資料分析。更能實務的了解分析生物醫學資料的流程與技術，讓參賽者能夠了解利用自然語言處理技術將基礎醫學、生物資訊研究，和臨床治療連結。

競賽領域意象圖

競賽連結

AI CUP 2018 生醫論文自動分析熱身賽

該比賽將以自然語言處理技術為核心，開放競賽語料讓學子能夠據此培養具備人工智慧、機器學習、自然語言處理與倫理道德素養的專業人才。

比賽分成三階段：

初階：參賽隊伍須辨識文獻中所提及的基因、疾病以及化學物質共三種命名實體類型。
進階：回答上述三類之基因、疾病以及化合物分別對應至生醫資料庫中之ID編號，其中基因ID會以人類基因為主，但包含部分非人類基因。
高階：進一步回答文章中疾病源發自何種器官組織(例如：肺臟、血液、皮膚或骨髓，限縮在給定之57項器官組織中，相關規定亦會於標註準則中說明並公佈)，以及該篇文章中的化學物質命名實體是否會引發或造成該文章中何種疾病。

競賽連結

NERChem

本團隊針對專利文件辨識化合物與藥物名稱，提出將原子與化合物分開來辨識之方式，並利用事先辨識易與化合物混淆的專有名詞來提升化合物辨識的正確率，在專利文獻化合物辨識競賽得到第四名。

T-HOD Database

此資料庫利用文字探勘的技術來收集和高血壓(Hypertension)、肥胖(Obesity)、糖尿病(Diabetes)有關的候選基因，並依照權重給予適當的排序，並且利用視覺化方式呈現文獻搜尋結果。

BelSmile

本系統整合近幾年實驗室開發的基因與化合物專有名詞辨識正規化技術，並結合實驗室開發的生醫語意角色標註技術，發展出可自動化擷取學術文獻中各類專有名詞與它們的生物關連性，在生物性表現語言競賽中榮獲第二名。

Biomedical Semantic Role Labeling Website

此系統能自動將以名詞或動詞為中心的語意框架(Semantic Frame) 解析出來，其中語意框架主要由述語(predict)、主語(agent)、賓語(patient)及其他形容事件的片語所組成，如時間(time)、地點(location)等等。

PubMed-EX 工具

一種非常好用的瀏覽器附加元件, 可以幫助閱讀PubMed資料庫收藏的文獻. 安裝完PubMed-EX, PubMed搜尋到的論文標題與摘要中出現的生醫專有名詞會以不同顏色顯示, 這些專有名詞也會被標上超連結, 導引使用者到資料庫閱讀詳細資訊. 此外, 摘要中重要的語意框架會被列出, 摘要也會被自動分段. 目前已有數十個不同國家的學者持續使用中。

影片介紹

2009 Bioinformatics論文下載

Gene Mention/Normalization Tool

基因名稱辨識與基因編號搜尋工具

系統下載 >

2011 BMC Bioinformatics論文下載 >

BIOSMILE Web Search

生醫文獻搜尋引擎. 搜尋到的論文標題與摘要中出現的生醫專有名詞會以不同顏色顯示, 這些專有名詞也會被標上超連結, 導引使用者到資料庫閱讀詳細資訊. 此外, 摘要中重要的語意框架會被列出。

連接系統 >

2008 Nucleic Acids Research論文下載 >