監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價(jià)咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷研究

申請免費(fèi)試用、咨詢電話:400-8352-114

 

 

 

 

 

 

 

        醫(yī)療質(zhì)量管理醫(yī)院管理工作的核心和實(shí)質(zhì)所在,推進(jìn)與落實(shí)醫(yī)療質(zhì)量管理是減少醫(yī)療安全隱患、遏制醫(yī)患糾紛發(fā)生的重要舉措。醫(yī)學(xué)科學(xué)的特性決定醫(yī)療風(fēng)險(xiǎn)必然存在,醫(yī)療服務(wù)不可能像其他商品生產(chǎn)行業(yè)實(shí)現(xiàn)零缺陷? ,但其中的人為因素是可控和可避免的。以2008年山東省3個(gè)地級(jí)市的醫(yī)療事故鑒定檔案的數(shù)據(jù)統(tǒng)計(jì)為例,其中72.66% 的事故原因可控或可避免 j。醫(yī)方對(duì)病情未做全面考慮,過分依賴經(jīng)驗(yàn)或輔助檢查結(jié)果,造成漏診、誤診或診斷不及時(shí)延誤治療;或?qū)δ承撛谖kU(xiǎn)估計(jì)不足、醫(yī)療記錄不完整、不全面甚至出現(xiàn)錯(cuò)誤,是影響醫(yī)療質(zhì)量的最直接原因如何避免診斷疏忽及錯(cuò)誤,是醫(yī)療管理必須考慮的重要問題。在醫(yī)務(wù)人員的診斷過程中,通常以患者的口述或癥狀表現(xiàn),輔助以檢查結(jié)果作為診斷的依據(jù),但診斷的正確程度基本上依賴于醫(yī)務(wù)人員的臨床經(jīng)驗(yàn)及專業(yè)素質(zhì)。對(duì)已知癥狀未能做出正確的診斷,而導(dǎo)致病情延誤治療或惡化是常見的醫(yī)療質(zhì)量缺陷。隨著信息技術(shù)的發(fā)展,記錄相關(guān)診斷信的載體已逐漸從傳統(tǒng)紙本病歷轉(zhuǎn)變?yōu)殡娮硬v ]。如何從電子病歷數(shù)據(jù)庫中找出診斷項(xiàng)目與診斷結(jié)果之間的關(guān)聯(lián)性,以最簡潔有效的幾個(gè)因素輔助醫(yī)務(wù)人員做出準(zhǔn)確判斷,減少誤診及疏忽,已成為利用電子病歷來提高醫(yī)療質(zhì)量的重要研究課題。 

1 數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀
1。1 概述
      數(shù)據(jù)挖掘泛指從海量的數(shù)據(jù)中分析萃取,以探索得到非顯然的、未知的、潛在的、可能有用的未知信息為主要目的的復(fù)雜活動(dòng),最初在1992年由Frawley等人首次提出 ]。Reinschmidt則認(rèn)為,數(shù)據(jù)挖掘是從數(shù)據(jù)庫中提取有效的、有用的、未知的、可理解的、能作為決策依據(jù)的信息 j。1996年Fayyad等人對(duì)流程進(jìn)一步細(xì)化為5個(gè)步驟 。同
年,Brachman與Anand在Fayyad的研究基礎(chǔ)上將流程細(xì)分為9個(gè)步驟 。通常來說,在確定研究方向或要解決的問題后,數(shù)據(jù)挖掘的工作流程為:原始數(shù)據(jù)資料的搜集;將數(shù)據(jù)資料分組,轉(zhuǎn)換有意義的信息;在信息中甄選出有用的知識(shí),從而實(shí)現(xiàn)“數(shù)據(jù)——信息——知識(shí)”的轉(zhuǎn)變。

      目前數(shù)據(jù)挖掘的各種技術(shù)已被廣泛應(yīng)用在經(jīng)營輔助決策、消費(fèi)行為分析等多個(gè)領(lǐng)域。針對(duì)特定疾病的診斷與預(yù)測也在國內(nèi)外得到一定的應(yīng)用,例如以線性判別分析、主成分分析,結(jié)合類神經(jīng)網(wǎng)絡(luò)以鑒別青光眼;利用多群判別分析,結(jié)合血清檢驗(yàn)與放射性治療產(chǎn)生的線性函數(shù),透過ROC曲線分析預(yù)測C型肝炎病變?yōu)楦斡不母怕?。本文提出以?shù)據(jù)挖掘技術(shù)為基礎(chǔ),結(jié)合統(tǒng)計(jì)分析與規(guī)則推導(dǎo)理論,對(duì)電子病歷應(yīng)用數(shù)據(jù)挖掘以實(shí)現(xiàn)醫(yī)療診斷輔助的研究。
1.2 數(shù)據(jù)預(yù)處理
1.2.1 數(shù)據(jù)修剪 由于數(shù)據(jù)挖掘通常面對(duì)的是數(shù)量龐大的數(shù)據(jù),為提高知識(shí)挖掘效率,通常會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,有效地簡化或修剪數(shù)據(jù)但不失去原本數(shù)據(jù)中可能隱含的知識(shí)。數(shù)據(jù)修剪的理論依據(jù)主要是刪除與預(yù)計(jì)挖掘結(jié)果較不相關(guān),或可能誤導(dǎo)挖掘結(jié)果的數(shù)據(jù),以減少整體的數(shù)據(jù)量與計(jì)算量,并增加挖掘結(jié)果的精確度。數(shù)據(jù)修剪也是數(shù)據(jù)挖掘技術(shù)中一個(gè)重要的研究方向,本文中不做深人探討。針對(duì)布爾型(Boolean)的數(shù)據(jù)項(xiàng),通??梢灾苯有藜?。針對(duì)數(shù)值型(Numeric)的數(shù)據(jù)項(xiàng),采用相關(guān)系數(shù)法 來做數(shù)據(jù)修剪,通過衡量兩數(shù)值變量的線性關(guān)系強(qiáng)度及正負(fù)偏離的參數(shù),來決定數(shù)據(jù)是否保留。
1.2.2 空白數(shù)據(jù)補(bǔ)齊 原始數(shù)據(jù)中通常會(huì)存在一部分被標(biāo)示為“BLANK”、“NULL” 的空白數(shù)據(jù)。為確保所分析數(shù)據(jù)的完整性,對(duì)此類數(shù)據(jù)必須予以補(bǔ)齊。處理空白數(shù)據(jù)的方法大致上有以下5種:接忽略:該方法操作簡單,但是當(dāng)空白數(shù)據(jù)量太多時(shí),數(shù)據(jù)挖掘結(jié)果不具說服力; 以手動(dòng)方式填人數(shù)值:該方法過于主觀,數(shù)據(jù)挖掘的結(jié)果不具公信
力;取同屬性數(shù)據(jù)的平均值:該方法在數(shù)據(jù)中有離群點(diǎn)存在時(shí),數(shù)據(jù)挖掘的結(jié)果可能不具合理性;利用回歸分析或者決策樹 等方法預(yù)測:該方法只能針對(duì)出現(xiàn)過的數(shù)據(jù)進(jìn)行預(yù)測,否則數(shù)據(jù)挖掘的結(jié)果可能會(huì)不具精確性;尋找最佳分布配對(duì),并以該分布與其機(jī)率密度函數(shù)產(chǎn)生隨機(jī)數(shù)值:該方法需先求出分布及機(jī)率密度函數(shù),運(yùn)算過程比較復(fù)雜,但預(yù)測數(shù)據(jù)的質(zhì)量較好。
1.3 規(guī)則推導(dǎo)
1.3.1 規(guī)則推導(dǎo)方法數(shù)據(jù)分類是數(shù)據(jù)挖掘工作的重要信息處理步驟,依據(jù)所要挖掘知識(shí)的目的及數(shù)據(jù)的性質(zhì)不同,通常的分類方法有:摘要、分群、回歸分析、依賴度模型、關(guān)聯(lián)規(guī)則、相似性搜索等。依據(jù)決策規(guī)則的信息確定性測量理論 ,對(duì)一般不確定性信息H (N)的定義如下:kH(Ⅳ) = 一P(n)log P(n)以P (n)為n=8的機(jī)率,k為數(shù)據(jù)集N內(nèi)數(shù)
據(jù)的數(shù)量,針對(duì)某個(gè)問題提問的可能回答結(jié)果的集合為Q= {q ,q ,?q。}時(shí),對(duì)8所剩余的不確定性(即平均離散條件信息)的定義如下:
qcH(NI Q)=Σ ΣP(q)P(n I q)log P(n I g)g ql 1兩者的差值就代表針對(duì)某個(gè)問題的某個(gè)提問能得到的有價(jià)值的信息,對(duì)某問題的提問就是“規(guī)則(Rule)”,而“規(guī)則推導(dǎo)” 則是從數(shù)據(jù)集中尋找出最佳的、正確的、可了解的分類方法的規(guī)則 。較常見的規(guī)則推導(dǎo)方法有:以C4.5算法為代表的決策樹推導(dǎo),基于自學(xué)習(xí)演算的類神經(jīng)網(wǎng)絡(luò)推導(dǎo),以及應(yīng)用互斥原理測算問題不確定性的J—Measure算法 。 等。
1.3.2 決策樹推導(dǎo) 是一種使用樹狀結(jié)構(gòu)的方法來做分類的推導(dǎo)方法,以節(jié)點(diǎn)代表不同的預(yù)期推導(dǎo)特征,樹枝為推導(dǎo)特征的值,而樹葉則是不同的分類類別。決策樹的生成方法為:確定一個(gè)最佳的特征作為根節(jié)點(diǎn),所有的數(shù)據(jù)以此根節(jié)點(diǎn)為判斷根據(jù),進(jìn)行分類,分類在每一個(gè)分支的數(shù)據(jù)再選出最佳的特征作為根節(jié)點(diǎn),再進(jìn)行分類,形成一棵子
樹,如此的過程一直重復(fù),直到在一個(gè)分支內(nèi)的所有數(shù)據(jù)都屬于同一個(gè)類別,推導(dǎo)過程結(jié)束。
1.3.3 類神經(jīng)網(wǎng)絡(luò)推導(dǎo) 是一種并行計(jì)算系統(tǒng),其原理為模仿生物神經(jīng)網(wǎng)絡(luò),將整個(gè)網(wǎng)絡(luò)大致分為3個(gè)部分:神經(jīng)元(又稱處理單元,Processing Ele.ment)、層(Layer)、網(wǎng)絡(luò)(Network)。多個(gè)相同作用的處理單元可集合形成一個(gè)層,多個(gè)層進(jìn)行堆棧集合,就成為了網(wǎng)絡(luò)。倒傳遞類神經(jīng)網(wǎng)絡(luò)是目前類神經(jīng)網(wǎng)絡(luò)模式中具有代表性,應(yīng)用較廣泛的類神經(jīng)網(wǎng)絡(luò)之一,對(duì)于每一條輸入的數(shù)據(jù)都有一個(gè)對(duì)應(yīng)的期望輸出值,來監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí),學(xué)習(xí)的目標(biāo)為調(diào)整處理單元間的連接權(quán)值以降低網(wǎng)絡(luò)推論輸出值與期望值之間的差距。學(xué)習(xí)過程通常以一次一個(gè)訓(xùn)練范例的方式進(jìn)行,一個(gè)網(wǎng)絡(luò)可以訓(xùn)練范例反復(fù)學(xué)習(xí),直到網(wǎng)絡(luò)的學(xué)習(xí)達(dá)到收斂。由于類神經(jīng)網(wǎng)絡(luò)需要不斷學(xué)習(xí)與調(diào)整,可適于應(yīng)用在診斷、預(yù)測等問
題的實(shí)驗(yàn)分析與探討。
1.3.4 L]一Mea S u Fe 運(yùn)用信息互斥的原理,J—Measure算法將數(shù)據(jù)集N中數(shù)據(jù)區(qū)分為數(shù)個(gè)類別,再以各類別中的區(qū)域計(jì)算某信息對(duì)于問題的“熵值” 能夠降低多少,而不是單純將數(shù)據(jù)集N視為一個(gè)類別來處理。因此,該算法可以計(jì)算單一規(guī)則(即某一類別中的某個(gè)區(qū)域)所獲得的信息,獲得更好的推導(dǎo)結(jié)果。
    以上幾種規(guī)則推導(dǎo)方法均有其優(yōu)劣勢,本文將重點(diǎn)對(duì)決策樹、J—Measure兩種規(guī)則推導(dǎo)方法分別應(yīng)用實(shí)驗(yàn)方法予以對(duì)比驗(yàn)證。
2 基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷實(shí)驗(yàn)設(shè)計(jì)

2.1 概述
      本次實(shí)驗(yàn)選擇澳洲研究機(jī)構(gòu)的甲狀腺診斷資料為測試樣本,其實(shí)驗(yàn)流程主要分成3個(gè)階段:資料搜集,從資料服務(wù)器或數(shù)據(jù)庫服務(wù)器取得原始數(shù)據(jù);將原始數(shù)據(jù)進(jìn)行預(yù)處理,然后分別應(yīng)用不同的分類及規(guī)則推導(dǎo)產(chǎn)生決策規(guī)則;將預(yù)處理后的數(shù)據(jù)與決策規(guī)則進(jìn)行運(yùn)算,提取出對(duì)診斷有輔助的知識(shí)。為提高數(shù)據(jù)統(tǒng)計(jì)應(yīng)用分析的可信度,本次實(shí)驗(yàn)使用了Easy Fit 5.0軟件工具計(jì)算各分組屬性的最佳分布圖及參數(shù)估計(jì)值,并以此產(chǎn)生隨機(jī)數(shù)來取代遺失的數(shù)據(jù)值。
2.2 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
   本次選擇的數(shù)據(jù)集共有23項(xiàng)屬性,其中目標(biāo)屬性為“Diagnoses”。使用相關(guān)系數(shù)法進(jìn)行數(shù)據(jù)修剪。以 ,l,為兩數(shù)值的變數(shù),i取{1,2,3,??n},X、y為X與y的平均數(shù),相關(guān)系數(shù)的計(jì)算公式如下:


計(jì)算得到各屙『生與目標(biāo)屙I生的相關(guān)系數(shù),見表1。

      取相關(guān)系數(shù)大于0.1的屬性,并直接刪減布爾型的屬性,對(duì)數(shù)據(jù)集中的屬性精簡為4項(xiàng),TSH、Tr4、FTI與TBG。為精簡后續(xù)的運(yùn)算量,以直方的使用組數(shù)代替對(duì)某屬性的數(shù)據(jù)進(jìn)行分組的動(dòng)作,將A屬性的數(shù)值在第1組區(qū)問的數(shù)據(jù)編號(hào)為A1,在第2組區(qū)間的數(shù)據(jù)編號(hào)為A2,以此類推,將5 000條記錄精簡為16組,并統(tǒng)計(jì)其各屬性數(shù)據(jù)組
的最大最小值、組間距、遺失數(shù)據(jù)量,然后依據(jù)最佳分布與參數(shù)估計(jì)值,對(duì)屬性TSH、TT4、丌I、TBG產(chǎn)生隨機(jī)數(shù)值取代遺失數(shù)據(jù)。精簡后的4項(xiàng)屬性分組統(tǒng)計(jì)情況,見表2。

2.3 實(shí)驗(yàn)數(shù)據(jù)的規(guī)則產(chǎn)生
2.3.1 決策樹推導(dǎo) 取diagnoses屬性為根節(jié)點(diǎn),參考現(xiàn)有的診斷信息,以各屬性的最佳分布與分組參數(shù)的值為推導(dǎo)特征判斷條件,得到不同的分類類別,最后產(chǎn)生的決策樹模式,見圖1。整個(gè)決策樹即表示了全部的推導(dǎo)規(guī)則。

2.3.2 J—Me8 s u re規(guī)則推導(dǎo) 主要用于推導(dǎo)關(guān)于自身所屬于的類別(Cm)及其互補(bǔ)類(NOTCm)的信息。本次實(shí)驗(yàn)以AND運(yùn)算來產(chǎn)生規(guī)則,假設(shè)對(duì)于經(jīng)過數(shù)據(jù)修剪后的屬性分別以A、B、C、D、F表示,其中F為目標(biāo)屬性,則其規(guī)則表集合,見表3。

依據(jù)表2、表3,可以枚舉出可用于本次實(shí)驗(yàn)數(shù)據(jù)集的全部J—Measure規(guī)則。

      應(yīng)用J—Measure中的規(guī)則匹配度公式,計(jì)算每條規(guī)則的J—info值,得到全部的規(guī)則推導(dǎo)表。挑選其中J—info值較大的規(guī)則作為主要規(guī)則,從而建立適合本次實(shí)驗(yàn)數(shù)據(jù)集的J—Measure規(guī)則集合。J—Measure的規(guī)則匹配度公式如下:

下面是一條J—Measure規(guī)則的例子及說明:“規(guī)則描述:IF(TSH=1 AND TBG=5)THEN diagnoses= 1(J—info =0.008739)”
   該規(guī)則表示通過TSH屬性與TBG屬性來推導(dǎo)屬性diagnoses=1成立,即:若符合TSH與TBG屬性的特征值則推導(dǎo)為患病。而該規(guī)則的J—info值表示此規(guī)則與本次實(shí)驗(yàn)的數(shù)據(jù)集的適合程度較低,那么此規(guī)則不適用作為本次實(shí)驗(yàn)數(shù)據(jù)集的推導(dǎo)規(guī)則。
2.4 推導(dǎo)規(guī)則的應(yīng)用
     以產(chǎn)生候選規(guī)則及用于預(yù)測計(jì)算的規(guī)則推導(dǎo)表。從整體資料的5 000條記錄中隨機(jī)抽取80% 的記錄為基礎(chǔ)數(shù)據(jù),其余的20% 為測試驗(yàn)證數(shù)據(jù)。對(duì)基礎(chǔ)數(shù)據(jù)應(yīng)用規(guī)則計(jì)算后,以預(yù)測得到的數(shù)據(jù)與驗(yàn)證數(shù)據(jù)比較得到預(yù)測準(zhǔn)確率,并重復(fù)實(shí)驗(yàn)10次。實(shí)驗(yàn)結(jié)果顯示,使用決策樹模型所得到的前l(fā)O次平均預(yù)測準(zhǔn)確率為88.33% ,使用J—Measure算法
的前10次實(shí)驗(yàn)平均預(yù)測準(zhǔn)確率為94.74%,有效地 3驗(yàn)證了本課題的研究價(jià)值。
3 結(jié)語
     因醫(yī)務(wù)人員的失誤導(dǎo)致漏診、誤診是影響醫(yī)療質(zhì)量的最直接因素,如何避免及降低醫(yī)療診斷的失誤是醫(yī)療質(zhì)量管理工作中必須思考的問題。本次實(shí)驗(yàn)研究表明,應(yīng)用所定義的模塊運(yùn)算與規(guī)則推導(dǎo),針對(duì)甲狀腺腫瘤的預(yù)測正確率在80%以上,最高可達(dá)95% 。由此可見,應(yīng)用數(shù)據(jù)挖掘技術(shù)從大量的電子病歷資料中萃取出有效的診斷知識(shí),對(duì)于醫(yī)療人員避免問診過程中的失誤,降低疾病診斷過程中的疏忽,可以提供非常有用的參考信息。在本實(shí)驗(yàn)中,因模塊運(yùn)算后的規(guī)則數(shù)量龐大,規(guī)則計(jì)算所花費(fèi)的時(shí)間平均為20分鐘,對(duì)算法的改善優(yōu)化,縮短規(guī)則信息是后續(xù)的重要研究之一。此外,本次研究未對(duì)其他大型數(shù)據(jù)庫做完整測試,驗(yàn)證本模型的正確程度還需以多種大型數(shù)據(jù)庫樣本測試。
參考文獻(xiàn)
1 楊克虎,馬彬,田金徽,等.美國醫(yī)療風(fēng)險(xiǎn)監(jiān)管體系的循環(huán)評(píng)價(jià)及其對(duì)我國醫(yī)療風(fēng)險(xiǎn)管理的啟示:關(guān)注病人安
全,預(yù)防醫(yī)療差錯(cuò),提高醫(yī)療質(zhì)量[J].中國循證醫(yī)學(xué)雜志,2006,6(7):514—522.
2 劉巖,程艷敏,劉亞民.醫(yī)療事故鑒定案例251例分析討論與對(duì)策[J].中華醫(yī)院管理雜志,2008,24(4):273.
3Markle Foundmion. Connecting for Health:a public—pri—vate collaborative[EB/OL]. [2010—1—5].http://www.conneetingforhealth.or#resources/final—phwg—repo~1.pdf.
4 Frawley,W.J.,Pinatetsky—shopim,G.,Matheus,C.J..et a1.Knowledge Discovery in Database — an overview[J].AI Magazine,1992,13(3):57—70.
5 Reinschmidt,J.,Gottschalk, H.,Kim,H.. IntelligentMiner for Data:enhance your business intelligence [J].IBM Internation Technical Suppo~ Organization, 1999, 15(4):9.
6 Fayyad,U. M.,Piatetsky—Shapiro G.,Smyth. P.FromData Mining to Knowledge Discovery:an overview,advancesin knowledge discovery and data mining[M].Menlo Park,Calif.:AAAI/MIT Press,1996:1—34.
7 Brachman,R. and Anand,T. The Process of KnowledgeDiscovery in Database: a human — centered approach. InAdvances in Knowledge Discovery and Data Mining[M].Menlo Park,Calif.:AAAI Press,1996:37—58.
8 Clark,P.Machine learning:techniques and recent develop—ments[J].Artificial Intelligence:concepts and applica—tions in engineering,1990,(8):65—93.
9 Berthold,M.M .Intelligent Data Analysis:an introduction[M].2nd Editien.New York:Springer,2007.
10 Smyth,P.G..An Information Theoretic Approach to RuleInduction from Databases[J].IEEE Transactions on Knowl—edge and Data Engineering,1992,4 (4):301—306.

發(fā)布:2007-04-09 11:18    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:

泛普門診收費(fèi)管理系統(tǒng)其他應(yīng)用

醫(yī)院行業(yè)管理系統(tǒng) 醫(yī)院信息管理系統(tǒng) 醫(yī)藥管理軟件 病案管理系統(tǒng) 藥店管理系統(tǒng) 醫(yī)院his系統(tǒng) 醫(yī)院預(yù)約軟件 住院收費(fèi)管理系統(tǒng) 區(qū)域醫(yī)療衛(wèi)生信息化平臺(tái) 社區(qū)醫(yī)療管理系統(tǒng) 門診收費(fèi)管理系統(tǒng) 醫(yī)療衛(wèi)生軟件 新農(nóng)合軟件 醫(yī)院管理系統(tǒng)免費(fèi)版 免費(fèi)醫(yī)院信息管理系統(tǒng) 醫(yī)藥管理軟件免費(fèi)版 免費(fèi)藥店管理系統(tǒng) 醫(yī)院管理系統(tǒng)下載 醫(yī)院信息管理系統(tǒng)下載 醫(yī)藥管理軟件下載 病案管理系統(tǒng)下載 藥店管理系統(tǒng)下載 醫(yī)院his系統(tǒng)下載 醫(yī)療一體化管理系統(tǒng)下載 新農(nóng)合軟件下載 藥品管理系統(tǒng)下載