基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷研究

醫(yī)療質(zhì)量管理是醫(yī)院管理工作的核心和實(shí)質(zhì)所在，推進(jìn)與落實(shí)醫(yī)療質(zhì)量管理是減少醫(yī)療安全隱患、遏制醫(yī)患糾紛發(fā)生的重要舉措。醫(yī)學(xué)科學(xué)的特性決定醫(yī)療風(fēng)險(xiǎn)必然存在，醫(yī)療服務(wù)不可能像其他商品生產(chǎn)行業(yè)實(shí)現(xiàn)零缺陷? ，但其中的人為因素是可控和可避免的。以2008年山東省3個(gè)地級(jí)市的醫(yī)療事故鑒定檔案的數(shù)據(jù)統(tǒng)計(jì)為例，其中72．66％的事故原因可控或可避免 j。醫(yī)方對(duì)病情未做全面考慮，過分依賴經(jīng)驗(yàn)或輔助檢查結(jié)果，造成漏診、誤診或診斷不及時(shí)延誤治療；或?qū)δ承撛谖ｋU(xiǎn)估計(jì)不足、醫(yī)療記錄不完整、不全面甚至出現(xiàn)錯(cuò)誤，是影響醫(yī)療質(zhì)量的最直接原因如何避免診斷疏忽及錯(cuò)誤，是醫(yī)療管理必須考慮的重要問題。在醫(yī)務(wù)人員的診斷過程中，通常以患者的口述或癥狀表現(xiàn)，輔助以檢查結(jié)果作為診斷的依據(jù)，但診斷的正確程度基本上依賴于醫(yī)務(wù)人員的臨床經(jīng)驗(yàn)及專業(yè)素質(zhì)。對(duì)已知癥狀未能做出正確的診斷，而導(dǎo)致病情延誤治療或惡化是常見的醫(yī)療質(zhì)量缺陷。隨著信息技術(shù)的發(fā)展，記錄相關(guān)診斷信的載體已逐漸從傳統(tǒng)紙本病歷轉(zhuǎn)變?yōu)殡娮硬v ]。如何從電子病歷數(shù)據(jù)庫中找出診斷項(xiàng)目與診斷結(jié)果之間的關(guān)聯(lián)性，以最簡潔有效的幾個(gè)因素輔助醫(yī)務(wù)人員做出準(zhǔn)確判斷，減少誤診及疏忽，已成為利用電子病歷來提高醫(yī)療質(zhì)量的重要研究課題。

1 數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀
1。1 概述
數(shù)據(jù)挖掘泛指從海量的數(shù)據(jù)中分析萃取，以探索得到非顯然的、未知的、潛在的、可能有用的未知信息為主要目的的復(fù)雜活動(dòng)，最初在1992年由Frawley等人首次提出 ]。Reinschmidt則認(rèn)為，數(shù)據(jù)挖掘是從數(shù)據(jù)庫中提取有效的、有用的、未知的、可理解的、能作為決策依據(jù)的信息 j。1996年Fayyad等人對(duì)流程進(jìn)一步細(xì)化為5個(gè)步驟。同
年，Brachman與Anand在Fayyad的研究基礎(chǔ)上將流程細(xì)分為9個(gè)步驟。通常來說，在確定研究方向或要解決的問題后，數(shù)據(jù)挖掘的工作流程為：原始數(shù)據(jù)資料的搜集；將數(shù)據(jù)資料分組，轉(zhuǎn)換有意義的信息；在信息中甄選出有用的知識(shí)，從而實(shí)現(xiàn)“數(shù)據(jù)——信息——知識(shí)”的轉(zhuǎn)變。

目前數(shù)據(jù)挖掘的各種技術(shù)已被廣泛應(yīng)用在經(jīng)營輔助決策、消費(fèi)行為分析等多個(gè)領(lǐng)域。針對(duì)特定疾病的診斷與預(yù)測(cè)也在國內(nèi)外得到一定的應(yīng)用，例如以線性判別分析、主成分分析，結(jié)合類神經(jīng)網(wǎng)絡(luò)以鑒別青光眼；利用多群判別分析，結(jié)合血清檢驗(yàn)與放射性治療產(chǎn)生的線性函數(shù)，透過ROC曲線分析預(yù)測(cè)C型肝炎病變?yōu)楦斡不母怕?。本文提出以?shù)據(jù)挖掘技術(shù)為基礎(chǔ)，結(jié)合統(tǒng)計(jì)分析與規(guī)則推導(dǎo)理論，對(duì)電子病歷應(yīng)用數(shù)據(jù)挖掘以實(shí)現(xiàn)醫(yī)療診斷輔助的研究。
1．2 數(shù)據(jù)預(yù)處理
1．2．1 數(shù)據(jù)修剪由于數(shù)據(jù)挖掘通常面對(duì)的是數(shù)量龐大的數(shù)據(jù)，為提高知識(shí)挖掘效率，通常會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，有效地簡化或修剪數(shù)據(jù)但不失去原本數(shù)據(jù)中可能隱含的知識(shí)。數(shù)據(jù)修剪的理論依據(jù)主要是刪除與預(yù)計(jì)挖掘結(jié)果較不相關(guān)，或可能誤導(dǎo)挖掘結(jié)果的數(shù)據(jù)，以減少整體的數(shù)據(jù)量與計(jì)算量，并增加挖掘結(jié)果的精確度。數(shù)據(jù)修剪也是數(shù)據(jù)挖掘技術(shù)中一個(gè)重要的研究方向，本文中不做深人探討。針對(duì)布爾型(Boolean)的數(shù)據(jù)項(xiàng)，通?？梢灾苯有藜?。針對(duì)數(shù)值型(Numeric)的數(shù)據(jù)項(xiàng)，采用相關(guān)系數(shù)法來做數(shù)據(jù)修剪，通過衡量兩數(shù)值變量的線性關(guān)系強(qiáng)度及正負(fù)偏離的參數(shù)，來決定數(shù)據(jù)是否保留。
1．2．2 空白數(shù)據(jù)補(bǔ)齊原始數(shù)據(jù)中通常會(huì)存在一部分被標(biāo)示為“BLANK”、“NULL” 的空白數(shù)據(jù)。為確保所分析數(shù)據(jù)的完整性，對(duì)此類數(shù)據(jù)必須予以補(bǔ)齊。處理空白數(shù)據(jù)的方法大致上有以下5種：接忽略：該方法操作簡單，但是當(dāng)空白數(shù)據(jù)量太多時(shí)，數(shù)據(jù)挖掘結(jié)果不具說服力；以手動(dòng)方式填人數(shù)值：該方法過于主觀，數(shù)據(jù)挖掘的結(jié)果不具公信
力；取同屬性數(shù)據(jù)的平均值：該方法在數(shù)據(jù)中有離群點(diǎn)存在時(shí)，數(shù)據(jù)挖掘的結(jié)果可能不具合理性；利用回歸分析或者決策樹等方法預(yù)測(cè)：該方法只能針對(duì)出現(xiàn)過的數(shù)據(jù)進(jìn)行預(yù)測(cè)，否則數(shù)據(jù)挖掘的結(jié)果可能會(huì)不具精確性；尋找最佳分布配對(duì)，并以該分布與其機(jī)率密度函數(shù)產(chǎn)生隨機(jī)數(shù)值：該方法需先求出分布及機(jī)率密度函數(shù)，運(yùn)算過程比較復(fù)雜，但預(yù)測(cè)數(shù)據(jù)的質(zhì)量較好。
1．3 規(guī)則推導(dǎo)
1．3．1 規(guī)則推導(dǎo)方法數(shù)據(jù)分類是數(shù)據(jù)挖掘工作的重要信息處理步驟，依據(jù)所要挖掘知識(shí)的目的及數(shù)據(jù)的性質(zhì)不同，通常的分類方法有：摘要、分群、回歸分析、依賴度模型、關(guān)聯(lián)規(guī)則、相似性搜索等。依據(jù)決策規(guī)則的信息確定性測(cè)量理論，對(duì)一般不確定性信息H (N)的定義如下：kH(Ⅳ) = 一P(n)log P(n)以P (n)為n=8的機(jī)率，k為數(shù)據(jù)集N內(nèi)數(shù)
據(jù)的數(shù)量，針對(duì)某個(gè)問題提問的可能回答結(jié)果的集合為Q= {q ，q ，?q。}時(shí)，對(duì)8所剩余的不確定性(即平均離散條件信息)的定義如下：
qcH(NI Q)=Σ ΣP(q)P(n I q)log P(n I g)g ql 1兩者的差值就代表針對(duì)某個(gè)問題的某個(gè)提問能得到的有價(jià)值的信息，對(duì)某問題的提問就是“規(guī)則(Rule)”，而“規(guī)則推導(dǎo)” 則是從數(shù)據(jù)集中尋找出最佳的、正確的、可了解的分類方法的規(guī)則。較常見的規(guī)則推導(dǎo)方法有：以C4．5算法為代表的決策樹推導(dǎo)，基于自學(xué)習(xí)演算的類神經(jīng)網(wǎng)絡(luò)推導(dǎo)，以及應(yīng)用互斥原理測(cè)算問題不確定性的J—Measure算法。等。
1．3．2 決策樹推導(dǎo) 是一種使用樹狀結(jié)構(gòu)的方法來做分類的推導(dǎo)方法，以節(jié)點(diǎn)代表不同的預(yù)期推導(dǎo)特征，樹枝為推導(dǎo)特征的值，而樹葉則是不同的分類類別。決策樹的生成方法為：確定一個(gè)最佳的特征作為根節(jié)點(diǎn)，所有的數(shù)據(jù)以此根節(jié)點(diǎn)為判斷根據(jù)，進(jìn)行分類，分類在每一個(gè)分支的數(shù)據(jù)再選出最佳的特征作為根節(jié)點(diǎn)，再進(jìn)行分類，形成一棵子
樹，如此的過程一直重復(fù)，直到在一個(gè)分支內(nèi)的所有數(shù)據(jù)都屬于同一個(gè)類別，推導(dǎo)過程結(jié)束。
1．3．3 類神經(jīng)網(wǎng)絡(luò)推導(dǎo) 是一種并行計(jì)算系統(tǒng)，其原理為模仿生物神經(jīng)網(wǎng)絡(luò)，將整個(gè)網(wǎng)絡(luò)大致分為3個(gè)部分：神經(jīng)元(又稱處理單元，Processing Ele．ment)、層(Layer)、網(wǎng)絡(luò)(Network)。多個(gè)相同作用的處理單元可集合形成一個(gè)層，多個(gè)層進(jìn)行堆棧集合，就成為了網(wǎng)絡(luò)。倒傳遞類神經(jīng)網(wǎng)絡(luò)是目前類神經(jīng)網(wǎng)絡(luò)模式中具有代表性，應(yīng)用較廣泛的類神經(jīng)網(wǎng)絡(luò)之一，對(duì)于每一條輸入的數(shù)據(jù)都有一個(gè)對(duì)應(yīng)的期望輸出值，來監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)，學(xué)習(xí)的目標(biāo)為調(diào)整處理單元間的連接權(quán)值以降低網(wǎng)絡(luò)推論輸出值與期望值之間的差距。學(xué)習(xí)過程通常以一次一個(gè)訓(xùn)練范例的方式進(jìn)行，一個(gè)網(wǎng)絡(luò)可以訓(xùn)練范例反復(fù)學(xué)習(xí)，直到網(wǎng)絡(luò)的學(xué)習(xí)達(dá)到收斂。由于類神經(jīng)網(wǎng)絡(luò)需要不斷學(xué)習(xí)與調(diào)整，可適于應(yīng)用在診斷、預(yù)測(cè)等問
題的實(shí)驗(yàn)分析與探討。
1．3．4 L]一Mea S u Fe 運(yùn)用信息互斥的原理，J—Measure算法將數(shù)據(jù)集N中數(shù)據(jù)區(qū)分為數(shù)個(gè)類別，再以各類別中的區(qū)域計(jì)算某信息對(duì)于問題的“熵值” 能夠降低多少，而不是單純將數(shù)據(jù)集N視為一個(gè)類別來處理。因此，該算法可以計(jì)算單一規(guī)則(即某一類別中的某個(gè)區(qū)域)所獲得的信息，獲得更好的推導(dǎo)結(jié)果。
以上幾種規(guī)則推導(dǎo)方法均有其優(yōu)劣勢(shì)，本文將重點(diǎn)對(duì)決策樹、J—Measure兩種規(guī)則推導(dǎo)方法分別應(yīng)用實(shí)驗(yàn)方法予以對(duì)比驗(yàn)證。
2 基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷實(shí)驗(yàn)設(shè)計(jì)

2．1 概述
本次實(shí)驗(yàn)選擇澳洲研究機(jī)構(gòu)的甲狀腺診斷資料為測(cè)試樣本，其實(shí)驗(yàn)流程主要分成3個(gè)階段：資料搜集，從資料服務(wù)器或數(shù)據(jù)庫服務(wù)器取得原始數(shù)據(jù)；將原始數(shù)據(jù)進(jìn)行預(yù)處理，然后分別應(yīng)用不同的分類及規(guī)則推導(dǎo)產(chǎn)生決策規(guī)則；將預(yù)處理后的數(shù)據(jù)與決策規(guī)則進(jìn)行運(yùn)算，提取出對(duì)診斷有輔助的知識(shí)。為提高數(shù)據(jù)統(tǒng)計(jì)應(yīng)用分析的可信度，本次實(shí)驗(yàn)使用了Easy Fit 5．0軟件工具計(jì)算各分組屬性的最佳分布圖及參數(shù)估計(jì)值，并以此產(chǎn)生隨機(jī)數(shù)來取代遺失的數(shù)據(jù)值。
2．2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
本次選擇的數(shù)據(jù)集共有23項(xiàng)屬性，其中目標(biāo)屬性為“Diagnoses”。使用相關(guān)系數(shù)法進(jìn)行數(shù)據(jù)修剪。以，l，為兩數(shù)值的變數(shù)，i取{1，2，3，??n}，X、y為X與y的平均數(shù)，相關(guān)系數(shù)的計(jì)算公式如下：

計(jì)算得到各屙『生與目標(biāo)屙I生的相關(guān)系數(shù)，見表1。

取相關(guān)系數(shù)大于0．1的屬性，并直接刪減布爾型的屬性，對(duì)數(shù)據(jù)集中的屬性精簡為4項(xiàng)，TSH、Tr4、FTI與TBG。為精簡后續(xù)的運(yùn)算量，以直方的使用組數(shù)代替對(duì)某屬性的數(shù)據(jù)進(jìn)行分組的動(dòng)作，將A屬性的數(shù)值在第1組區(qū)問的數(shù)據(jù)編號(hào)為A1，在第2組區(qū)間的數(shù)據(jù)編號(hào)為A2，以此類推，將5 000條記錄精簡為16組，并統(tǒng)計(jì)其各屬性數(shù)據(jù)組
的最大最小值、組間距、遺失數(shù)據(jù)量，然后依據(jù)最佳分布與參數(shù)估計(jì)值，對(duì)屬性TSH、TT4、丌I、TBG產(chǎn)生隨機(jī)數(shù)值取代遺失數(shù)據(jù)。精簡后的4項(xiàng)屬性分組統(tǒng)計(jì)情況，見表2。

2．3 實(shí)驗(yàn)數(shù)據(jù)的規(guī)則產(chǎn)生
2．3．1 決策樹推導(dǎo) 取diagnoses屬性為根節(jié)點(diǎn)，參考現(xiàn)有的診斷信息，以各屬性的最佳分布與分組參數(shù)的值為推導(dǎo)特征判斷條件，得到不同的分類類別，最后產(chǎn)生的決策樹模式，見圖1。整個(gè)決策樹即表示了全部的推導(dǎo)規(guī)則。

2．3．2 J—Me8 s u re規(guī)則推導(dǎo) 主要用于推導(dǎo)關(guān)于自身所屬于的類別(Cm)及其互補(bǔ)類(NOTCm)的信息。本次實(shí)驗(yàn)以AND運(yùn)算來產(chǎn)生規(guī)則，假設(shè)對(duì)于經(jīng)過數(shù)據(jù)修剪后的屬性分別以A、B、C、D、F表示，其中F為目標(biāo)屬性，則其規(guī)則表集合，見表3。

依據(jù)表2、表3，可以枚舉出可用于本次實(shí)驗(yàn)數(shù)據(jù)集的全部J—Measure規(guī)則。

應(yīng)用J—Measure中的規(guī)則匹配度公式，計(jì)算每條規(guī)則的J—info值，得到全部的規(guī)則推導(dǎo)表。挑選其中J—info值較大的規(guī)則作為主要規(guī)則，從而建立適合本次實(shí)驗(yàn)數(shù)據(jù)集的J—Measure規(guī)則集合。J—Measure的規(guī)則匹配度公式如下：

下面是一條J—Measure規(guī)則的例子及說明：“規(guī)則描述：IF(TSH=1 AND TBG=5)THEN diagnoses= 1(J—info =0．008739)”
   該規(guī)則表示通過TSH屬性與TBG屬性來推導(dǎo)屬性diagnoses=1成立，即：若符合TSH與TBG屬性的特征值則推導(dǎo)為患病。而該規(guī)則的J—info值表示此規(guī)則與本次實(shí)驗(yàn)的數(shù)據(jù)集的適合程度較低，那么此規(guī)則不適用作為本次實(shí)驗(yàn)數(shù)據(jù)集的推導(dǎo)規(guī)則。
2．4 推導(dǎo)規(guī)則的應(yīng)用
     以產(chǎn)生候選規(guī)則及用于預(yù)測(cè)計(jì)算的規(guī)則推導(dǎo)表。從整體資料的5 000條記錄中隨機(jī)抽取80％的記錄為基礎(chǔ)數(shù)據(jù)，其余的20％為測(cè)試驗(yàn)證數(shù)據(jù)。對(duì)基礎(chǔ)數(shù)據(jù)應(yīng)用規(guī)則計(jì)算后，以預(yù)測(cè)得到的數(shù)據(jù)與驗(yàn)證數(shù)據(jù)比較得到預(yù)測(cè)準(zhǔn)確率，并重復(fù)實(shí)驗(yàn)10次。實(shí)驗(yàn)結(jié)果顯示，使用決策樹模型所得到的前l(fā)O次平均預(yù)測(cè)準(zhǔn)確率為88．33％，使用J—Measure算法
的前10次實(shí)驗(yàn)平均預(yù)測(cè)準(zhǔn)確率為94．74％，有效地 3驗(yàn)證了本課題的研究價(jià)值。
3 結(jié)語
     因醫(yī)務(wù)人員的失誤導(dǎo)致漏診、誤診是影響醫(yī)療質(zhì)量的最直接因素，如何避免及降低醫(yī)療診斷的失誤是醫(yī)療質(zhì)量管理工作中必須思考的問題。本次實(shí)驗(yàn)研究表明，應(yīng)用所定義的模塊運(yùn)算與規(guī)則推導(dǎo)，針對(duì)甲狀腺腫瘤的預(yù)測(cè)正確率在80％以上，最高可達(dá)95％。由此可見，應(yīng)用數(shù)據(jù)挖掘技術(shù)從大量的電子病歷資料中萃取出有效的診斷知識(shí)，對(duì)于醫(yī)療人員避免問診過程中的失誤，降低疾病診斷過程中的疏忽，可以提供非常有用的參考信息。在本實(shí)驗(yàn)中，因模塊運(yùn)算后的規(guī)則數(shù)量龐大，規(guī)則計(jì)算所花費(fèi)的時(shí)間平均為20分鐘，對(duì)算法的改善優(yōu)化，縮短規(guī)則信息是后續(xù)的重要研究之一。此外，本次研究未對(duì)其他大型數(shù)據(jù)庫做完整測(cè)試，驗(yàn)證本模型的正確程度還需以多種大型數(shù)據(jù)庫樣本測(cè)試。
參考文獻(xiàn)
1 楊克虎，馬彬，田金徽，等．美國醫(yī)療風(fēng)險(xiǎn)監(jiān)管體系的循環(huán)評(píng)價(jià)及其對(duì)我國醫(yī)療風(fēng)險(xiǎn)管理的啟示：關(guān)注病人安
全，預(yù)防醫(yī)療差錯(cuò)，提高醫(yī)療質(zhì)量[J]．中國循證醫(yī)學(xué)雜志，2006，6(7)：514—522．
2 劉巖，程艷敏，劉亞民．醫(yī)療事故鑒定案例251例分析討論與對(duì)策[J]．中華醫(yī)院管理雜志，2008，24(4)：273．
3Markle Foundmion． Connecting for Health：a public—pri—vate collaborative[EB／OL]． [2010—1—5]．http：／／www．conneetingforhealth．or#resources／final—phwg—repo~1．pdf．
4 Frawley，W．J．，Pinatetsky—shopim，G．，Matheus，C．J．．et a1．Knowledge Discovery in Database — an overview[J]．AI Magazine，1992，13(3)：57—70．
5 Reinschmidt，J．，Gottschalk， H．，Kim，H．． IntelligentMiner for Data：enhance your business intelligence [J]．IBM Internation Technical Suppo~ Organization， 1999， 15(4)：9．
6 Fayyad，U． M．，Piatetsky—Shapiro G．，Smyth． P．FromData Mining to Knowledge Discovery：an overview，advancesin knowledge discovery and data mining[M]．Menlo Park，Calif．：AAAI／MIT Press，1996：1—34．
7 Brachman，R． and Anand，T． The Process of KnowledgeDiscovery in Database： a human — centered approach． InAdvances in Knowledge Discovery and Data Mining[M]．Menlo Park，Calif．：AAAI Press，1996：37—58．
8 Clark，P．Machine learning：techniques and recent develop—ments[J]．Artificial Intelligence：concepts and applica—tions in engineering，1990，(8)：65—93．
9 Berthold，M．M ．Intelligent Data Analysis：an introduction[M]．2nd Editien．New York：Springer，2007．
10 Smyth，P．G．．An Information Theoretic Approach to RuleInduction from Databases[J]．IEEE Transactions on Knowl—edge and Data Engineering，1992，4 (4)：301—306．

發(fā)布：2007-04-09 11:18 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：

相關(guān)文章：

上一篇：“十二五”上海區(qū)域醫(yī)療信息化規(guī)劃

下一篇：基層醫(yī)院應(yīng)用電子病歷系統(tǒng)的探討

醫(yī)院管理OA系統(tǒng)

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷研究

泛普門診收費(fèi)管理系統(tǒng)其他應(yīng)用