當(dāng)前位置:工程項目OA系統(tǒng) > 領(lǐng)域應(yīng)用 > 醫(yī)院管理OA系統(tǒng) > 門診收費(fèi)管理系統(tǒng)
基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷研究
醫(yī)療質(zhì)量管理是醫(yī)院管理工作的核心和實(shí)質(zhì)所在,推進(jìn)與落實(shí)醫(yī)療質(zhì)量管理是減少醫(yī)療安全隱患、遏制醫(yī)患糾紛發(fā)生的重要舉措。醫(yī)學(xué)科學(xué)的特性決定醫(yī)療風(fēng)險必然存在,醫(yī)療服務(wù)不可能像其他商品生產(chǎn)行業(yè)實(shí)現(xiàn)零缺陷? ,但其中的人為因素是可控和可避免的。以2008年山東省3個地級市的醫(yī)療事故鑒定檔案的數(shù)據(jù)統(tǒng)計為例,其中72.66% 的事故原因可控或可避免 j。醫(yī)方對病情未做全面考慮,過分依賴經(jīng)驗或輔助檢查結(jié)果,造成漏診、誤診或診斷不及時延誤治療;或?qū)δ承撛谖kU估計不足、醫(yī)療記錄不完整、不全面甚至出現(xiàn)錯誤,是影響醫(yī)療質(zhì)量的最直接原因如何避免診斷疏忽及錯誤,是醫(yī)療管理必須考慮的重要問題。在醫(yī)務(wù)人員的診斷過程中,通常以患者的口述或癥狀表現(xiàn),輔助以檢查結(jié)果作為診斷的依據(jù),但診斷的正確程度基本上依賴于醫(yī)務(wù)人員的臨床經(jīng)驗及專業(yè)素質(zhì)。對已知癥狀未能做出正確的診斷,而導(dǎo)致病情延誤治療或惡化是常見的醫(yī)療質(zhì)量缺陷。隨著信息技術(shù)的發(fā)展,記錄相關(guān)診斷信的載體已逐漸從傳統(tǒng)紙本病歷轉(zhuǎn)變?yōu)殡娮硬v ]。如何從電子病歷數(shù)據(jù)庫中找出診斷項目與診斷結(jié)果之間的關(guān)聯(lián)性,以最簡潔有效的幾個因素輔助醫(yī)務(wù)人員做出準(zhǔn)確判斷,減少誤診及疏忽,已成為利用電子病歷來提高醫(yī)療質(zhì)量的重要研究課題。
1 數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀
1。1 概述
數(shù)據(jù)挖掘泛指從海量的數(shù)據(jù)中分析萃取,以探索得到非顯然的、未知的、潛在的、可能有用的未知信息為主要目的的復(fù)雜活動,最初在1992年由Frawley等人首次提出 ]。Reinschmidt則認(rèn)為,數(shù)據(jù)挖掘是從數(shù)據(jù)庫中提取有效的、有用的、未知的、可理解的、能作為決策依據(jù)的信息 j。1996年Fayyad等人對流程進(jìn)一步細(xì)化為5個步驟 。同
年,Brachman與Anand在Fayyad的研究基礎(chǔ)上將流程細(xì)分為9個步驟 。通常來說,在確定研究方向或要解決的問題后,數(shù)據(jù)挖掘的工作流程為:原始數(shù)據(jù)資料的搜集;將數(shù)據(jù)資料分組,轉(zhuǎn)換有意義的信息;在信息中甄選出有用的知識,從而實(shí)現(xiàn)“數(shù)據(jù)——信息——知識”的轉(zhuǎn)變。
目前數(shù)據(jù)挖掘的各種技術(shù)已被廣泛應(yīng)用在經(jīng)營輔助決策、消費(fèi)行為分析等多個領(lǐng)域。針對特定疾病的診斷與預(yù)測也在國內(nèi)外得到一定的應(yīng)用,例如以線性判別分析、主成分分析,結(jié)合類神經(jīng)網(wǎng)絡(luò)以鑒別青光眼;利用多群判別分析,結(jié)合血清檢驗與放射性治療產(chǎn)生的線性函數(shù),透過ROC曲線分析預(yù)測C型肝炎病變?yōu)楦斡不母怕?。本文提出以?shù)據(jù)挖掘技術(shù)為基礎(chǔ),結(jié)合統(tǒng)計分析與規(guī)則推導(dǎo)理論,對電子病歷應(yīng)用數(shù)據(jù)挖掘以實(shí)現(xiàn)醫(yī)療診斷輔助的研究。
1.2 數(shù)據(jù)預(yù)處理
1.2.1 數(shù)據(jù)修剪 由于數(shù)據(jù)挖掘通常面對的是數(shù)量龐大的數(shù)據(jù),為提高知識挖掘效率,通常會對數(shù)據(jù)進(jìn)行預(yù)處理,有效地簡化或修剪數(shù)據(jù)但不失去原本數(shù)據(jù)中可能隱含的知識。數(shù)據(jù)修剪的理論依據(jù)主要是刪除與預(yù)計挖掘結(jié)果較不相關(guān),或可能誤導(dǎo)挖掘結(jié)果的數(shù)據(jù),以減少整體的數(shù)據(jù)量與計算量,并增加挖掘結(jié)果的精確度。數(shù)據(jù)修剪也是數(shù)據(jù)挖掘技術(shù)中一個重要的研究方向,本文中不做深人探討。針對布爾型(Boolean)的數(shù)據(jù)項,通常可以直接修剪。針對數(shù)值型(Numeric)的數(shù)據(jù)項,采用相關(guān)系數(shù)法 來做數(shù)據(jù)修剪,通過衡量兩數(shù)值變量的線性關(guān)系強(qiáng)度及正負(fù)偏離的參數(shù),來決定數(shù)據(jù)是否保留。
1.2.2 空白數(shù)據(jù)補(bǔ)齊 原始數(shù)據(jù)中通常會存在一部分被標(biāo)示為“BLANK”、“NULL” 的空白數(shù)據(jù)。為確保所分析數(shù)據(jù)的完整性,對此類數(shù)據(jù)必須予以補(bǔ)齊。處理空白數(shù)據(jù)的方法大致上有以下5種:接忽略:該方法操作簡單,但是當(dāng)空白數(shù)據(jù)量太多時,數(shù)據(jù)挖掘結(jié)果不具說服力; 以手動方式填人數(shù)值:該方法過于主觀,數(shù)據(jù)挖掘的結(jié)果不具公信
力;取同屬性數(shù)據(jù)的平均值:該方法在數(shù)據(jù)中有離群點(diǎn)存在時,數(shù)據(jù)挖掘的結(jié)果可能不具合理性;利用回歸分析或者決策樹 等方法預(yù)測:該方法只能針對出現(xiàn)過的數(shù)據(jù)進(jìn)行預(yù)測,否則數(shù)據(jù)挖掘的結(jié)果可能會不具精確性;尋找最佳分布配對,并以該分布與其機(jī)率密度函數(shù)產(chǎn)生隨機(jī)數(shù)值:該方法需先求出分布及機(jī)率密度函數(shù),運(yùn)算過程比較復(fù)雜,但預(yù)測數(shù)據(jù)的質(zhì)量較好。
1.3 規(guī)則推導(dǎo)
1.3.1 規(guī)則推導(dǎo)方法數(shù)據(jù)分類是數(shù)據(jù)挖掘工作的重要信息處理步驟,依據(jù)所要挖掘知識的目的及數(shù)據(jù)的性質(zhì)不同,通常的分類方法有:摘要、分群、回歸分析、依賴度模型、關(guān)聯(lián)規(guī)則、相似性搜索等。依據(jù)決策規(guī)則的信息確定性測量理論 ,對一般不確定性信息H (N)的定義如下:kH(Ⅳ) = 一P(n)log P(n)以P (n)為n=8的機(jī)率,k為數(shù)據(jù)集N內(nèi)數(shù)
據(jù)的數(shù)量,針對某個問題提問的可能回答結(jié)果的集合為Q= {q ,q ,?q。}時,對8所剩余的不確定性(即平均離散條件信息)的定義如下:
qcH(NI Q)=Σ ΣP(q)P(n I q)log P(n I g)g ql 1兩者的差值就代表針對某個問題的某個提問能得到的有價值的信息,對某問題的提問就是“規(guī)則(Rule)”,而“規(guī)則推導(dǎo)” 則是從數(shù)據(jù)集中尋找出最佳的、正確的、可了解的分類方法的規(guī)則 。較常見的規(guī)則推導(dǎo)方法有:以C4.5算法為代表的決策樹推導(dǎo),基于自學(xué)習(xí)演算的類神經(jīng)網(wǎng)絡(luò)推導(dǎo),以及應(yīng)用互斥原理測算問題不確定性的J—Measure算法 。 等。
1.3.2 決策樹推導(dǎo) 是一種使用樹狀結(jié)構(gòu)的方法來做分類的推導(dǎo)方法,以節(jié)點(diǎn)代表不同的預(yù)期推導(dǎo)特征,樹枝為推導(dǎo)特征的值,而樹葉則是不同的分類類別。決策樹的生成方法為:確定一個最佳的特征作為根節(jié)點(diǎn),所有的數(shù)據(jù)以此根節(jié)點(diǎn)為判斷根據(jù),進(jìn)行分類,分類在每一個分支的數(shù)據(jù)再選出最佳的特征作為根節(jié)點(diǎn),再進(jìn)行分類,形成一棵子
樹,如此的過程一直重復(fù),直到在一個分支內(nèi)的所有數(shù)據(jù)都屬于同一個類別,推導(dǎo)過程結(jié)束。
1.3.3 類神經(jīng)網(wǎng)絡(luò)推導(dǎo) 是一種并行計算系統(tǒng),其原理為模仿生物神經(jīng)網(wǎng)絡(luò),將整個網(wǎng)絡(luò)大致分為3個部分:神經(jīng)元(又稱處理單元,Processing Ele.ment)、層(Layer)、網(wǎng)絡(luò)(Network)。多個相同作用的處理單元可集合形成一個層,多個層進(jìn)行堆棧集合,就成為了網(wǎng)絡(luò)。倒傳遞類神經(jīng)網(wǎng)絡(luò)是目前類神經(jīng)網(wǎng)絡(luò)模式中具有代表性,應(yīng)用較廣泛的類神經(jīng)網(wǎng)絡(luò)之一,對于每一條輸入的數(shù)據(jù)都有一個對應(yīng)的期望輸出值,來監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí),學(xué)習(xí)的目標(biāo)為調(diào)整處理單元間的連接權(quán)值以降低網(wǎng)絡(luò)推論輸出值與期望值之間的差距。學(xué)習(xí)過程通常以一次一個訓(xùn)練范例的方式進(jìn)行,一個網(wǎng)絡(luò)可以訓(xùn)練范例反復(fù)學(xué)習(xí),直到網(wǎng)絡(luò)的學(xué)習(xí)達(dá)到收斂。由于類神經(jīng)網(wǎng)絡(luò)需要不斷學(xué)習(xí)與調(diào)整,可適于應(yīng)用在診斷、預(yù)測等問
題的實(shí)驗分析與探討。
1.3.4 L]一Mea S u Fe 運(yùn)用信息互斥的原理,J—Measure算法將數(shù)據(jù)集N中數(shù)據(jù)區(qū)分為數(shù)個類別,再以各類別中的區(qū)域計算某信息對于問題的“熵值” 能夠降低多少,而不是單純將數(shù)據(jù)集N視為一個類別來處理。因此,該算法可以計算單一規(guī)則(即某一類別中的某個區(qū)域)所獲得的信息,獲得更好的推導(dǎo)結(jié)果。
以上幾種規(guī)則推導(dǎo)方法均有其優(yōu)劣勢,本文將重點(diǎn)對決策樹、J—Measure兩種規(guī)則推導(dǎo)方法分別應(yīng)用實(shí)驗方法予以對比驗證。
2 基于數(shù)據(jù)挖掘技術(shù)的輔助醫(yī)療診斷實(shí)驗設(shè)計
2.1 概述
本次實(shí)驗選擇澳洲研究機(jī)構(gòu)的甲狀腺診斷資料為測試樣本,其實(shí)驗流程主要分成3個階段:資料搜集,從資料服務(wù)器或數(shù)據(jù)庫服務(wù)器取得原始數(shù)據(jù);將原始數(shù)據(jù)進(jìn)行預(yù)處理,然后分別應(yīng)用不同的分類及規(guī)則推導(dǎo)產(chǎn)生決策規(guī)則;將預(yù)處理后的數(shù)據(jù)與決策規(guī)則進(jìn)行運(yùn)算,提取出對診斷有輔助的知識。為提高數(shù)據(jù)統(tǒng)計應(yīng)用分析的可信度,本次實(shí)驗使用了Easy Fit 5.0軟件工具計算各分組屬性的最佳分布圖及參數(shù)估計值,并以此產(chǎn)生隨機(jī)數(shù)來取代遺失的數(shù)據(jù)值。
2.2 實(shí)驗數(shù)據(jù)預(yù)處理
本次選擇的數(shù)據(jù)集共有23項屬性,其中目標(biāo)屬性為“Diagnoses”。使用相關(guān)系數(shù)法進(jìn)行數(shù)據(jù)修剪。以 ,l,為兩數(shù)值的變數(shù),i取{1,2,3,??n},X、y為X與y的平均數(shù),相關(guān)系數(shù)的計算公式如下:
計算得到各屙『生與目標(biāo)屙I生的相關(guān)系數(shù),見表1。
取相關(guān)系數(shù)大于0.1的屬性,并直接刪減布爾型的屬性,對數(shù)據(jù)集中的屬性精簡為4項,TSH、Tr4、FTI與TBG。為精簡后續(xù)的運(yùn)算量,以直方的使用組數(shù)代替對某屬性的數(shù)據(jù)進(jìn)行分組的動作,將A屬性的數(shù)值在第1組區(qū)問的數(shù)據(jù)編號為A1,在第2組區(qū)間的數(shù)據(jù)編號為A2,以此類推,將5 000條記錄精簡為16組,并統(tǒng)計其各屬性數(shù)據(jù)組
的最大最小值、組間距、遺失數(shù)據(jù)量,然后依據(jù)最佳分布與參數(shù)估計值,對屬性TSH、TT4、丌I、TBG產(chǎn)生隨機(jī)數(shù)值取代遺失數(shù)據(jù)。精簡后的4項屬性分組統(tǒng)計情況,見表2。
2.3 實(shí)驗數(shù)據(jù)的規(guī)則產(chǎn)生
2.3.1 決策樹推導(dǎo) 取diagnoses屬性為根節(jié)點(diǎn),參考現(xiàn)有的診斷信息,以各屬性的最佳分布與分組參數(shù)的值為推導(dǎo)特征判斷條件,得到不同的分類類別,最后產(chǎn)生的決策樹模式,見圖1。整個決策樹即表示了全部的推導(dǎo)規(guī)則。
2.3.2 J—Me8 s u re規(guī)則推導(dǎo) 主要用于推導(dǎo)關(guān)于自身所屬于的類別(Cm)及其互補(bǔ)類(NOTCm)的信息。本次實(shí)驗以AND運(yùn)算來產(chǎn)生規(guī)則,假設(shè)對于經(jīng)過數(shù)據(jù)修剪后的屬性分別以A、B、C、D、F表示,其中F為目標(biāo)屬性,則其規(guī)則表集合,見表3。
依據(jù)表2、表3,可以枚舉出可用于本次實(shí)驗數(shù)據(jù)集的全部J—Measure規(guī)則。
應(yīng)用J—Measure中的規(guī)則匹配度公式,計算每條規(guī)則的J—info值,得到全部的規(guī)則推導(dǎo)表。挑選其中J—info值較大的規(guī)則作為主要規(guī)則,從而建立適合本次實(shí)驗數(shù)據(jù)集的J—Measure規(guī)則集合。J—Measure的規(guī)則匹配度公式如下:
下面是一條J—Measure規(guī)則的例子及說明:“規(guī)則描述:IF(TSH=1 AND TBG=5)THEN diagnoses= 1(J—info =0.008739)”
該規(guī)則表示通過TSH屬性與TBG屬性來推導(dǎo)屬性diagnoses=1成立,即:若符合TSH與TBG屬性的特征值則推導(dǎo)為患病。而該規(guī)則的J—info值表示此規(guī)則與本次實(shí)驗的數(shù)據(jù)集的適合程度較低,那么此規(guī)則不適用作為本次實(shí)驗數(shù)據(jù)集的推導(dǎo)規(guī)則。
2.4 推導(dǎo)規(guī)則的應(yīng)用
以產(chǎn)生候選規(guī)則及用于預(yù)測計算的規(guī)則推導(dǎo)表。從整體資料的5 000條記錄中隨機(jī)抽取80% 的記錄為基礎(chǔ)數(shù)據(jù),其余的20% 為測試驗證數(shù)據(jù)。對基礎(chǔ)數(shù)據(jù)應(yīng)用規(guī)則計算后,以預(yù)測得到的數(shù)據(jù)與驗證數(shù)據(jù)比較得到預(yù)測準(zhǔn)確率,并重復(fù)實(shí)驗10次。實(shí)驗結(jié)果顯示,使用決策樹模型所得到的前l(fā)O次平均預(yù)測準(zhǔn)確率為88.33% ,使用J—Measure算法
的前10次實(shí)驗平均預(yù)測準(zhǔn)確率為94.74%,有效地 3驗證了本課題的研究價值。
3 結(jié)語
因醫(yī)務(wù)人員的失誤導(dǎo)致漏診、誤診是影響醫(yī)療質(zhì)量的最直接因素,如何避免及降低醫(yī)療診斷的失誤是醫(yī)療質(zhì)量管理工作中必須思考的問題。本次實(shí)驗研究表明,應(yīng)用所定義的模塊運(yùn)算與規(guī)則推導(dǎo),針對甲狀腺腫瘤的預(yù)測正確率在80%以上,最高可達(dá)95% 。由此可見,應(yīng)用數(shù)據(jù)挖掘技術(shù)從大量的電子病歷資料中萃取出有效的診斷知識,對于醫(yī)療人員避免問診過程中的失誤,降低疾病診斷過程中的疏忽,可以提供非常有用的參考信息。在本實(shí)驗中,因模塊運(yùn)算后的規(guī)則數(shù)量龐大,規(guī)則計算所花費(fèi)的時間平均為20分鐘,對算法的改善優(yōu)化,縮短規(guī)則信息是后續(xù)的重要研究之一。此外,本次研究未對其他大型數(shù)據(jù)庫做完整測試,驗證本模型的正確程度還需以多種大型數(shù)據(jù)庫樣本測試。
參考文獻(xiàn)
1 楊克虎,馬彬,田金徽,等.美國醫(yī)療風(fēng)險監(jiān)管體系的循環(huán)評價及其對我國醫(yī)療風(fēng)險管理的啟示:關(guān)注病人安
全,預(yù)防醫(yī)療差錯,提高醫(yī)療質(zhì)量[J].中國循證醫(yī)學(xué)雜志,2006,6(7):514—522.
2 劉巖,程艷敏,劉亞民.醫(yī)療事故鑒定案例251例分析討論與對策[J].中華醫(yī)院管理雜志,2008,24(4):273.
3Markle Foundmion. Connecting for Health:a public—pri—vate collaborative[EB/OL]. [2010—1—5].http://www.conneetingforhealth.or#resources/final—phwg—repo~1.pdf.
4 Frawley,W.J.,Pinatetsky—shopim,G.,Matheus,C.J..et a1.Knowledge Discovery in Database — an overview[J].AI Magazine,1992,13(3):57—70.
5 Reinschmidt,J.,Gottschalk, H.,Kim,H.. IntelligentMiner for Data:enhance your business intelligence [J].IBM Internation Technical Suppo~ Organization, 1999, 15(4):9.
6 Fayyad,U. M.,Piatetsky—Shapiro G.,Smyth. P.FromData Mining to Knowledge Discovery:an overview,advancesin knowledge discovery and data mining[M].Menlo Park,Calif.:AAAI/MIT Press,1996:1—34.
7 Brachman,R. and Anand,T. The Process of KnowledgeDiscovery in Database: a human — centered approach. InAdvances in Knowledge Discovery and Data Mining[M].Menlo Park,Calif.:AAAI Press,1996:37—58.
8 Clark,P.Machine learning:techniques and recent develop—ments[J].Artificial Intelligence:concepts and applica—tions in engineering,1990,(8):65—93.
9 Berthold,M.M .Intelligent Data Analysis:an introduction[M].2nd Editien.New York:Springer,2007.
10 Smyth,P.G..An Information Theoretic Approach to RuleInduction from Databases[J].IEEE Transactions on Knowl—edge and Data Engineering,1992,4 (4):301—306.
- 1電子病歷歸檔系統(tǒng)研究
- 2醫(yī)院電子病歷系統(tǒng)應(yīng)用的研究
- 32010年10月公司成功中標(biāo)五原縣婦幼保健院HIS項目
- 4醫(yī)院信息系統(tǒng)建設(shè)
- 5結(jié)構(gòu)化電子病歷系統(tǒng)應(yīng)用與體會
- 6對電子病歷應(yīng)用存在問題的思考
- 7衛(wèi)生部:推進(jìn)以電子病歷為核心醫(yī)院信息化建設(shè)
- 8電子病歷標(biāo)準(zhǔn)化之爭
- 9臨床路徑在電子病歷中的設(shè)計與實(shí)現(xiàn)
- 10我院電子病歷系統(tǒng)的應(yīng)用促使醫(yī)療質(zhì)控發(fā)生了
- 11北京居民健康檔案5年建立完成
- 122008年4月成功實(shí)施磴口縣婦幼保健院
- 13醫(yī)院更換HIS系統(tǒng)過程中的重點(diǎn)注意事項
- 14適用中小型門診診所收費(fèi)管理軟件有哪些?
- 15醫(yī)院建設(shè)區(qū)域醫(yī)療信息共享平臺
- 16電子病歷與病人健康檔案數(shù)據(jù)交換的研究
- 17基于數(shù)字化的虛擬醫(yī)院構(gòu)建
- 18醫(yī)院門診收費(fèi)管理系統(tǒng)主要功能模塊特點(diǎn)
- 19讓電子病歷“活” 起來
- 20淺談電子病歷應(yīng)用下醫(yī)療糾紛的法醫(yī)學(xué)鑒定
- 21his系統(tǒng)在醫(yī)院臨床及管理中的應(yīng)用
- 22O racle X M L D B和D B 2 p ure X M L在
- 23淺析結(jié)構(gòu)化電子病歷系統(tǒng)的應(yīng)用和體會
- 24電子病歷在臨床應(yīng)用中常見問題
- 25我院監(jiān)控電子病歷質(zhì)量的實(shí)效與經(jīng)驗
- 26淺談電子病歷對診斷學(xué)教學(xué)的影響及對策
- 27電子打印病歷對病案質(zhì)量的影響
- 28美醫(yī)療信息市場規(guī)模兩年內(nèi)預(yù)計將達(dá)500億美元
- 29醫(yī)院HIS系統(tǒng)與LIS系統(tǒng)的集成研究與實(shí)現(xiàn)
- 30在電子病歷中醫(yī)療及護(hù)理動態(tài)表格的設(shè)計
成都公司:成都市成華區(qū)建設(shè)南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓