信息提取技術(shù)在電子病歷中的應(yīng)用

引言

隨著信息技術(shù)的發(fā)展，電子病歷作為醫(yī)療信息化建設(shè)的重要內(nèi)容，在我國已經(jīng)得到了長足的發(fā)展，并逐漸成為一種記錄和管理患者信息的非常重要的現(xiàn)代化手段。與此同時(shí)，臨床決策支持系統(tǒng)(Clinical Decision Support System，CDSS)作為醫(yī)院信息系統(tǒng)向智能領(lǐng)域的延伸，也開始成為我國醫(yī)療信息化建設(shè)的新進(jìn)程。電子病歷涵蓋了住院志、病程記錄、會診記錄、手術(shù)記錄以及各種醫(yī)技科室發(fā)出的超聲、內(nèi)鏡、心電檢查報(bào)告等多種文檔。但是，現(xiàn)有的結(jié)構(gòu)化錄入技術(shù)卻無法完全滿足臨床對于病歷信息的表示要求，如何在不影響臨床醫(yī)生以自然語言記錄信息的前提下，將非結(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息，是電子病歷發(fā)展過程中亟需解決的問題。此外，如果計(jì)算機(jī)可以自動(dòng)準(zhǔn)確獲取多種文檔中的重要臨床信息并服務(wù)于CDSS，將能提高醫(yī)院的醫(yī)療質(zhì)量和降低醫(yī)療成本。
信息提取(Information extraction)技術(shù)可以根據(jù)預(yù)先定義的模版，從文本中提取出特定的信息并形成結(jié)構(gòu)化數(shù)據(jù)，以幫助人們對信息內(nèi)容進(jìn)行整理和分析 J。應(yīng)用信息提取技術(shù)，能夠很好解決上述一系列問題。因此，本文針對如何將抽取技術(shù)應(yīng)用于電子病歷進(jìn)行了實(shí)踐研究。

總體概述

    由于電子病歷種類繁多且內(nèi)容復(fù)雜，實(shí)現(xiàn)完整病歷的信息抽取非常困難。本文對病歷的部分內(nèi)容進(jìn)行信息提取，以為完整電子病歷的信息提取累積經(jīng)驗(yàn)。既往史中包含了大量患者既往的健康信息且用語相對規(guī)范，因此本文選擇它作為提取范圍，提取其中的病癥名、是否曾經(jīng)患有、出現(xiàn)時(shí)間、目前治愈狀況等目標(biāo)信息。命名實(shí)體識別是信息提取的第一步，其方法主要有：基于規(guī)則的方法、基于詞典的方法和機(jī)器學(xué)習(xí)的方法 J。本文中的命名實(shí)體主要指的是病癥和時(shí)間，考慮到缺少大規(guī)模的中文病歷語料庫的支持，本文決定采用基于詞典和規(guī)則相結(jié)合的方法。
    目前，很多生物醫(yī)學(xué)領(lǐng)域的信息提取系統(tǒng)都用到了淺層語法分析。J，即僅通過詞匯或短語的順序、彼此間的關(guān)系進(jìn)行提取，而不用理解文本的內(nèi)在含意。在淺層語法分析中，有限狀態(tài)自動(dòng)機(jī)(FSA，以下簡稱自動(dòng)機(jī))是一種常用工具，用于實(shí)現(xiàn)短語識別和句子模式識別等功能。
     以時(shí)間短語為例，通過圖3給出的狀態(tài)圖可以清楚地了解自動(dòng)機(jī)的識別過程。其中，qi(0三i 3)表示狀態(tài)，q。為初始狀態(tài)，q 為結(jié)束狀態(tài)，狀態(tài)間的連線表示匹配到不同詞類后的狀態(tài)轉(zhuǎn)移，每一條完整路徑表示自動(dòng)機(jī)依據(jù)相應(yīng)的規(guī)則所完成的一次識別。如圖1所示，

當(dāng)識別路徑為“q。一q 一q 一q ”時(shí)，表示自動(dòng)機(jī)所識別的時(shí)間短語由“數(shù)詞(m)+其他數(shù)詞(m)或量詞(q)+時(shí)間量詞(timeunit)”等3部分組成，如“30(m)余(m)~(time unit)”。

經(jīng)典的信息提取系統(tǒng)FASTUS，應(yīng)用自動(dòng)機(jī)取得了很好的提取效果。參照FASTUS系統(tǒng)，本文自行開發(fā)了一個(gè)基于c 語言的簡易信息提取系統(tǒng)。信息提取整體過程如圖2所示，

大致經(jīng)歷了3個(gè)階段，分別從詞語、短語、句子3個(gè)層次進(jìn)行處理，后一層以前一層的結(jié)果為基礎(chǔ)，具體可以分為5個(gè)步驟，過程中使用了3層自動(dòng)機(jī)：

       (1)命名實(shí)體識別和標(biāo)注經(jīng)歷了3個(gè)步驟：術(shù)語查找、分詞和實(shí)體標(biāo)注。通過術(shù)語查找，可以實(shí)現(xiàn)病癥的初步識別。由于漢語的書寫特點(diǎn)，詞與詞之間缺少天然的分詞標(biāo)記，文本需要先經(jīng)過分詞處理，為進(jìn)一步識別奠定基礎(chǔ)。實(shí)體標(biāo)注將依據(jù)實(shí)體識別規(guī)則實(shí)現(xiàn)實(shí)體的最終識別和標(biāo)注，將借助底層自動(dòng)機(jī)來完成。
     (2)信息抽取經(jīng)歷2個(gè)步驟：獲取句型和句型匹配。在實(shí)體標(biāo)注的基礎(chǔ)上，中層自動(dòng)機(jī)用于識別命名實(shí)體，并提取其位置關(guān)系來獲取常見句型模式。對每一常見句型，本文通過人工分析句型特點(diǎn)，制定了相應(yīng)的提取規(guī)則。頂層自動(dòng)機(jī)則用于將新提取的句型與已知句型進(jìn)行匹配，以決定采用哪些提取規(guī)則。
    本文系統(tǒng)中所用的病癥術(shù)語庫包含24000個(gè)術(shù)語，主要來源于ICD一10(The International Classification of Disease，10th Revision)，在保留了原有的編碼規(guī)則的基礎(chǔ)上，通過合棄無關(guān)術(shù)語、拆分部分術(shù)語和擴(kuò)充術(shù)語等三個(gè)步驟構(gòu)建。分詞則采用由中科院研發(fā)的ICTCLAS系統(tǒng)，并進(jìn)行了一定的詞典擴(kuò)展，將新建術(shù)語庫中的術(shù)語納入其用戶詞典中。實(shí)體識別和信息提取規(guī)則通過樣本集的人工統(tǒng)計(jì)分析獲得。本文中使用的樣本集由《病歷書寫示范》和30份病歷的既往史中所摘取的151個(gè)句子構(gòu)成，共可劃分為339個(gè)子句。
■-信息提取詳細(xì)過程
2．1 實(shí)體初步識別
     實(shí)體初步識別采用術(shù)語庫查找來實(shí)現(xiàn)病癥的識別，但是機(jī)械式的查找容易造成分割歧義。為此，本文主要借鑒了文獻(xiàn) 中的相關(guān)方法進(jìn)行歧義消除。整個(gè)初步識別過程如下：首先，將每個(gè)句子劃分為以逗號、分號、句號等標(biāo)點(diǎn)結(jié)束的子句；然后，對每個(gè)子句采用高精度的反向最大匹配算法查找病癥術(shù)語；最后，對包含病癥的子句進(jìn)行分詞和歧義消除處理，而對不包含醫(yī)學(xué)術(shù)語的子句只進(jìn)行分詞處理。如圖3所示，

放棄訶性為動(dòng)詞的“感染”，將錯(cuò)誤劃分的“無意識／障礙”調(diào)整為“無／意識障礙”；放棄從“牛痘苗”中錯(cuò)誤提取到的術(shù)語“牛痘”。

2．2 實(shí)體最終識別
如典型肺炎、急性菌痢等病癥，通過初步識別只能識別出劃線部分。同時(shí)，ICTCALS雖然能夠識別部分時(shí)間，卻無法識別5歲、l0余年等類型的時(shí)間短語。為了更精確地進(jìn)行實(shí)體識別，并引入了disease和time～unit這2種語義標(biāo)簽，用于標(biāo)識病癥和時(shí)間量詞(年、月等)，對初步識別的結(jié)果進(jìn)行了語義標(biāo)注。依據(jù)樣本集統(tǒng)計(jì)結(jié)果，制定了5條實(shí)體識別規(guī)則，其概略表述如下：
RI disease一(tlblmtalnlzlh) disease
R2 disease— disease k?disease
R3 t— m(mlq)?time—unit
R4 t— a?t(f]m)?
R5 t— t t
其中m、q、t等單個(gè)英文字符表示詞性，“()”表示分組，“f”表示析取，“ ”表示出現(xiàn)0至多次，“?”表示出現(xiàn)0至1次。以規(guī)則3為例，自動(dòng)機(jī)依據(jù)該規(guī)則，可以將符合符號“一”右邊部分的文本識別為一個(gè)時(shí)間短語(t)，具體識別過程可以參見前文中的圖1。

      為了便于獲取統(tǒng)一的句型，建立了3類語義詞集，加上病癥和時(shí)間，句型將由5部分組成。不同句子成分采用不同的語義標(biāo)識，標(biāo)注格式統(tǒng)一為“(標(biāo)識信息內(nèi)容)”，其中：“DI”表示病癥；“TP”表示時(shí)間，“VM”表示第一類語義詞，用于標(biāo)識病癥的開始(患、發(fā)現(xiàn)等)；“DS”表示第二類語義詞，表示病癥治愈狀況(治愈、好轉(zhuǎn)等)；“NEG”為第三類語義詞，表示否定意義(否、非等)。依據(jù)規(guī)則和語義詞集，利用底層自動(dòng)機(jī)對樣本集中的句子進(jìn)行自動(dòng)識別和標(biāo)注，典型標(biāo)注結(jié)果如下所示：
     例1：{TP去冬12月}{VM 患}{DI典型麻疹}、(DI肺炎}，，w
    例2：{TP 5周}{DS治愈}。／w
     例3：{NEG無}{DI血吸蟲病}史／ng。／w
2．3信息提取
     本文中，具體目標(biāo)信息的類型判斷和提取由中層自動(dòng)機(jī)來完成。如“{TP去冬l2月)”，中層自動(dòng)機(jī)不僅能識別其句子成分為時(shí)間短語(TP)，還能提取其中的時(shí)間信息(去冬12月)。為獲取一致的句型模式，對樣本集中的339個(gè)子句利用中層自動(dòng)機(jī)自動(dòng)提取其句子結(jié)構(gòu)，并將頓號、和等可以表示并列的詞或標(biāo)點(diǎn)統(tǒng)一用“and”代替。最終，獲得了表1中5類含有目標(biāo)信息的常見句型模式，其中模式1—4為含有病癥名的句型，模式5為含有治愈狀況的句型。符號使用說明參見3．2。

     從句型上看，多個(gè)病癥并列的現(xiàn)象普遍存在，它們除了名稱和代碼不同，其余的信息均相同，可以統(tǒng)一處理。因此，本文以句號結(jié)尾的自然句為信息提取的獨(dú)立單元，當(dāng)句子中出現(xiàn)分號時(shí)，則以分號劃分的分句作為信息提取的獨(dú)立單元。通過對各個(gè)句型模式本身的特以及所處的上下文環(huán)境的分析，本文針對每一句型模式設(shè)置了不同的提取規(guī)則。
      最后，對每一獨(dú)立信息提取單元，根據(jù)提取到的句子結(jié)構(gòu)，利用頂層自動(dòng)機(jī)進(jìn)行句型識別和分類處理，再利用中層自動(dòng)機(jī)依據(jù)相應(yīng)規(guī)則完成目標(biāo)信息提取。
■ 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析
     由于既往史中會出現(xiàn)大量重復(fù)的描述語句，因此，本文隨機(jī)提取700份來自醫(yī)院各個(gè)科室病歷，剔除其中完全相同的語句，最后獲得374條語句，共1031子句，作為測試樣本進(jìn)行信息提取。實(shí)驗(yàn)將每一病癥作為信息提取的單元，共提取~146S個(gè)信息單元，其中有100個(gè)單元提取到了完整的信息，314個(gè)單元提取到了時(shí)間信息，108個(gè)單元提取到了治愈狀況信息，各項(xiàng)實(shí)驗(yàn)結(jié)果數(shù)據(jù)如下，其中F=2P·R／(P+R)：

實(shí)驗(yàn)結(jié)果表明，對于句子結(jié)構(gòu)相對簡單的自由文本，采用淺層分析的技術(shù)，在句型匹配的基礎(chǔ)上，依據(jù)少量的提取規(guī)則就能實(shí)現(xiàn)信息提取。本文依據(jù)句子結(jié)構(gòu)和目標(biāo)信息的相對位置來實(shí)現(xiàn)信息提取，并取得了較為滿意的提取結(jié)果。但是，從“治愈狀況”較低的召回率上也可以看出，僅依靠淺層句法分析并不能獲得文本中的全部信息。如“血壓經(jīng)間斷服藥后得到控制”，表示患者患有高血壓但未完全治愈，超過了一般淺層分析能處理的范圍，需要經(jīng)過更深層的語義分析才能理解。因此，對于描述復(fù)雜、缺乏規(guī)律的句子，僅通過幾個(gè)關(guān)鍵描述詞，信息提取的效果并不理想，需要進(jìn)一步的句法分忻才能進(jìn)行識別和提取。
本文對病癥名和時(shí)間的提取結(jié)果進(jìn)行了分析，發(fā)現(xiàn)錯(cuò)誤主要是由標(biāo)點(diǎn)錯(cuò)誤、句法分析不足、語義歧義和用語本身的錯(cuò)誤等幾個(gè)因素造成的，如何加強(qiáng)句法分析和歧義消除將是本課題今后研究的方向。
參考文獻(xiàn)
[1] Doan A，Naughton JF，Ramakri shnan R，et a1．Information extraction challenges in managing unstructured data[J]．ACM SIGMOD Record，2008，37(4)：14—20
[2]Erk K，Pad6 S．SHALMANESER—A Toolchain For Shallow Semantic Parsing[A]In Proceedings of LREC[C]，2006，Genoa， Italy．
[3]Mykowiecka A，Marciniak M，et al Rule—based information extraction from patients’clinical data[J]Journal of Biomedical Informatics．2009．42：923—936
[4]Chang CH，Kayed M，et al A Su rvey of Web Information Extraction System[J]．IEEE Transactions on Knowledge and Data Engineering，2006，18(10)：141 1-1428．
[5] 肖舂，周建龍．生物醫(yī)學(xué)領(lǐng)域中的文本信息抽取技術(shù)與系統(tǒng)綜述[Jll計(jì)算機(jī)應(yīng)用研究，2007，24(9)：1-6．
[6]霍仲厚若病歷書寫示范[M]．江蘇：江蘇科學(xué)技術(shù) 版社，2004．
[7]李吳昱，李瑩，等中文病歷文檔術(shù)語提取和否定檢出方法[J1l中國生物醫(yī)學(xué)工程學(xué)報(bào)，2008，27(5)：715-720．

發(fā)布：2007-04-09 11:17 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：

相關(guān)文章：

上一篇：論電子病歷的法律效力

下一篇：醫(yī)保轉(zhuǎn)向控費(fèi)

醫(yī)院管理OA系統(tǒng)

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

信息提取技術(shù)在電子病歷中的應(yīng)用

泛普門診收費(fèi)管理系統(tǒng)其他應(yīng)用