當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 重慶OA系統(tǒng) > 重慶OA行業(yè)資訊
基于知識(shí)管理的數(shù)字檔案館的數(shù)據(jù)挖掘
申請(qǐng)免費(fèi)試用、咨詢(xún)電話(huà):400-8352-114
來(lái)源:泛普軟件1.數(shù)據(jù)挖掘定義與分類(lèi)
數(shù)字檔案館,作為傳統(tǒng)實(shí)體檔案館在信息時(shí)代的新型組織形式,是實(shí)體檔案館在信息時(shí)代不斷創(chuàng)新和發(fā)展的必然,是迎接知識(shí)經(jīng)濟(jì)時(shí)代挑戰(zhàn),拓展傳統(tǒng)實(shí)體檔案館功能,滿(mǎn)足用戶(hù)需求,提供個(gè)性化、多樣化服務(wù)的關(guān)鍵,也是提高社會(huì)檔案意識(shí)的新契機(jī)。那么,如何從數(shù)字檔案館浩如煙海的大量數(shù)字化資源中提煉、挖掘出有價(jià)值的,對(duì)數(shù)字檔案館進(jìn)行知識(shí)積累、知識(shí)創(chuàng)新有著數(shù)據(jù)支撐作用的有效信息,這是未來(lái)數(shù)字檔案館建設(shè)所面臨的重要課題。數(shù)據(jù)挖掘技術(shù)正是解決這一難題的有效途徑,數(shù)據(jù)挖掘是當(dāng)今計(jì)算機(jī)領(lǐng)域的熱點(diǎn),其成果也廣泛應(yīng)用于圖書(shū)情報(bào)領(lǐng)域,筆者受這些研究的啟發(fā),力圖就數(shù)據(jù)挖掘技術(shù)在基于知識(shí)管理的數(shù)字檔案館中的應(yīng)用進(jìn)行探討。
1.數(shù)據(jù)挖掘定義與分類(lèi)
1.1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一門(mén)很廣義的交叉學(xué)科,脫胎于計(jì)算機(jī),雖然已應(yīng)用到諸多領(lǐng)域,圖書(shū)、情報(bào)界的實(shí)踐也已經(jīng)充分驗(yàn)證其價(jià)值,但在檔案界,數(shù)據(jù)挖掘仍然被當(dāng)成深?yuàn)W的技術(shù)和理論,很多檔案工作者對(duì)個(gè)這概念還是云霧迷蒙,比較模糊。那么什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘(Data Ming),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識(shí)的過(guò)程①。這個(gè)過(guò)程的目的是為了發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的 “知識(shí)金礦”,因此,將數(shù)據(jù)挖掘定義為“數(shù)據(jù)中的知識(shí)挖掘”更為恰當(dāng)②。所以,數(shù)據(jù)挖掘也被人稱(chēng)為知識(shí)挖掘、知識(shí)抽取等。
1.2數(shù)據(jù)挖掘的分類(lèi)
數(shù)據(jù)挖掘可以根據(jù)挖掘任務(wù)的不同,把數(shù)據(jù)挖掘方法分為概念描述、關(guān)聯(lián)分析、分類(lèi)分析、聚類(lèi)分析、偏差檢測(cè)等多種類(lèi)型,具體如下:
1.2.1概念描述(Concept description)
就是通過(guò)分析和比較,將某類(lèi)相互關(guān)聯(lián)的數(shù)據(jù)進(jìn)行匯總,歸納出此類(lèi)對(duì)象的相關(guān)特征,對(duì)關(guān)于此類(lèi)的大量信息進(jìn)行描述,這些描述是抽象的,有意義的。它的類(lèi)型有兩種:特征性描述和區(qū)別性描述。1)特征性描述適用于描述某類(lèi)對(duì)象的共同之處,例如,某檔案館的檔案數(shù)據(jù)庫(kù)中存在大量的用戶(hù)基本信息,其中涉及:姓名、年齡、工作、利用喜好等信息,如果對(duì)歷史研究者進(jìn)行描述,很有可能得出以下結(jié)果:以高校教師、學(xué)生為主,以編修各種志書(shū)、撰寫(xiě)史學(xué)研究文章為目的。2)區(qū)別性描述,用于描述兩個(gè)或多個(gè)類(lèi)對(duì)象之間的差異,例如,對(duì)企業(yè)用戶(hù)和歷史研究者特征進(jìn)行比較,也許能得出以下規(guī)則:主要利用生產(chǎn)管理和科研管理方面的檔案信息,以取得一定經(jīng)濟(jì)效益和社會(huì)效益為目的。
1.2.2關(guān)聯(lián)分析(Association analysis)
就是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間存在的相關(guān)特性,即挖掘出隱藏在數(shù)據(jù)項(xiàng)之間的相互關(guān)系,具體來(lái)說(shuō),若其中兩項(xiàng)數(shù)據(jù)或多項(xiàng)數(shù)據(jù)存在著某種關(guān)聯(lián),其中一項(xiàng)數(shù)據(jù)就能依據(jù)其它數(shù)據(jù)進(jìn)行預(yù)測(cè)。關(guān)聯(lián)分析能發(fā)現(xiàn)用戶(hù)利用不同檔案信息之間的關(guān)聯(lián),分析預(yù)測(cè)用戶(hù)利用模式。
1.2.3分類(lèi)分析(Classification analysis)
就是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)有序的聚合在一起,有助于人們對(duì)事物的全面把握③。分類(lèi)分析可分為結(jié)構(gòu)化數(shù)據(jù)分類(lèi)分析,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),和非結(jié)構(gòu)化數(shù)據(jù)分類(lèi)分析,如文本數(shù)據(jù)。分類(lèi)分析的具體過(guò)程為:用一組特征不同的類(lèi)別為一個(gè)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行分類(lèi),然后找出描述這些數(shù)據(jù)的模型,并根據(jù)這個(gè)模型將數(shù)據(jù)劃分到不同的類(lèi)別中,利用這個(gè)模型可以預(yù)測(cè)未知的數(shù)據(jù)。分類(lèi)分析可以通過(guò)已有用戶(hù)檔案數(shù)據(jù)庫(kù)中的數(shù)據(jù),揭示用戶(hù)特征和用戶(hù)利用行為之間的關(guān)系,并按照影響用戶(hù)行為的程度對(duì)這些數(shù)據(jù)進(jìn)行分類(lèi),用來(lái)預(yù)測(cè)未來(lái)的用戶(hù)行為。
1.2.4聚類(lèi)分析(Clustering analysis)
就是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)劃分為不同數(shù)據(jù)類(lèi)的過(guò)程,它與分類(lèi)分析不同,前者是在預(yù)先不考慮已知分類(lèi)模型的情況下,把數(shù)據(jù)放入不同的分類(lèi)中,聚類(lèi)的目的是根據(jù)最大化類(lèi)內(nèi)的相似性,最小化類(lèi)間的相似性這一原則合理的劃分?jǐn)?shù)據(jù)集合④,簡(jiǎn)單來(lái)說(shuō)就是使類(lèi)內(nèi)的差別最小化,類(lèi)間的差別最大化,這樣就可以把類(lèi)似的數(shù)據(jù)組織在一起并導(dǎo)出某種規(guī)則。
1.2.5偏差檢測(cè)(Deviation detection)
就是通過(guò)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的異常情況對(duì)偏差的數(shù)據(jù)進(jìn)行分析的過(guò)程,重點(diǎn)是發(fā)現(xiàn)數(shù)據(jù)中的異常變化,數(shù)據(jù)庫(kù)中的數(shù)據(jù)變異可能是人為錯(cuò)誤引起的,更有可能是數(shù)據(jù)更新等自然變化的結(jié)果。偏差檢測(cè)的意義在于可以有效排除大量不相關(guān)的數(shù)據(jù)。例如,某檔案館在形成某種編研成果之前,先在用戶(hù)信息數(shù)據(jù)庫(kù)中進(jìn)行檢索,并與檔案館數(shù)據(jù)庫(kù)中的已有資源結(jié)合,再用數(shù)據(jù)挖掘技術(shù)將不想關(guān)的用戶(hù)利用模型排除,把剩下的作為重點(diǎn),制定有針對(duì)性的編研策略。
2.基于知識(shí)管理的數(shù)字檔案館中的數(shù)據(jù)挖掘
前面已經(jīng)介紹了數(shù)據(jù)挖掘的概念及模式,那么基于知識(shí)管理的數(shù)字檔案館的數(shù)據(jù)挖掘應(yīng)該是怎樣的呢?筆者認(rèn)為首先應(yīng)對(duì)數(shù)字檔案館資源、知識(shí)管理和數(shù)據(jù)挖掘的關(guān)系定位。數(shù)字檔案館的知識(shí)資源要被組織和發(fā)現(xiàn),這是數(shù)字檔案館實(shí)現(xiàn)現(xiàn)代化科學(xué)管理,提供快捷、優(yōu)質(zhì)服務(wù)的基礎(chǔ)。對(duì)數(shù)字檔案館實(shí)施知識(shí)管理是應(yīng)對(duì)知識(shí)經(jīng)濟(jì)時(shí)代挑戰(zhàn),最大化數(shù)字檔案館知識(shí)資源潛力,最終實(shí)現(xiàn)數(shù)字檔案館知識(shí)創(chuàng)新的必然要求。沒(méi)有實(shí)施知識(shí)管理的數(shù)字檔案館無(wú)法滿(mǎn)足未來(lái)發(fā)展的需要,缺乏管理對(duì)象的知識(shí)也成了無(wú)源之水。數(shù)據(jù)挖掘是組織和發(fā)現(xiàn)數(shù)字檔案館中知識(shí)資源的有效途徑,為數(shù)字檔案館實(shí)施知識(shí)管理創(chuàng)造了條件,是兩者得以無(wú)縫鏈接的承上啟下階段。這里的數(shù)據(jù)挖掘不能看成是純粹的信息處理技術(shù),它是對(duì)信息處理技術(shù)集群進(jìn)行協(xié)調(diào)和管理的方法和策略?;谥R(shí)管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡(luò)和數(shù)字化資源為基礎(chǔ),立足于多種信息技術(shù)的協(xié)調(diào)和配合,以實(shí)施挖掘算法和挖掘模型為手段,以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識(shí)資源,為實(shí)施知識(shí)管理提供管理對(duì)象為目的,讓數(shù)字檔案館有效利用知識(shí),實(shí)現(xiàn)知識(shí)創(chuàng)新的過(guò)程。
3.基于知識(shí)管理的數(shù)字檔案館中的主要挖掘?qū)ο?/P>
3.1數(shù)字檔案館中的固化資源
這是存在于數(shù)字檔案館中的顯性知識(shí),即記錄于一定物質(zhì)載體上的知識(shí)⑤,包括:已數(shù)字化的館藏資源、現(xiàn)行電子文件、檢索工具、編研成果,與數(shù)字檔案館工作相關(guān)的各種法律法規(guī)、規(guī)章制度、行業(yè)標(biāo)準(zhǔn)等,圍繞數(shù)字檔案館建設(shè)所產(chǎn)生的研究成果、技術(shù)資料及有助于數(shù)字檔案館發(fā)展的其它相關(guān)知識(shí)。
3.2數(shù)字檔案館中的智力資源
這是存在于數(shù)字檔案館中的隱性知識(shí),是存在于檔案館行政管理人員、政策法規(guī)研究人員、信息技術(shù)人員、對(duì)外協(xié)調(diào)人員等頭腦中所儲(chǔ)備的大量非編碼智力資源,包括:各種管理方法、計(jì)算機(jī)處理技術(shù)、處理問(wèn)題的能力等。由于人是知識(shí)管理的核心,是知識(shí)管理中最活躍的最主動(dòng)的因素⑥,所以對(duì)這部分知識(shí)的挖掘也是數(shù)字檔案館知識(shí)挖掘的重點(diǎn)。
3.3用戶(hù)利用行為信息
用戶(hù)的利用行為信息包括兩方面,利用信息和反饋信息。利用信息是用戶(hù)為了解決現(xiàn)實(shí)問(wèn)題,滿(mǎn)足學(xué)術(shù)、科研、生產(chǎn)等需求,在實(shí)施具體利用行為時(shí)所產(chǎn)生的信息,包括:訪(fǎng)問(wèn)內(nèi)容、訪(fǎng)問(wèn)頻率、訪(fǎng)問(wèn)時(shí)間等,它們反映出用戶(hù)對(duì)數(shù)字化資源的個(gè)性化、多樣化需求及利用規(guī)律。反饋信息是在檔案利用這一連續(xù)活動(dòng)中,檔案利用者發(fā)現(xiàn)的問(wèn)題和情況、提出的要求、意見(jiàn)、評(píng)價(jià)和效益等⑦。對(duì)這些數(shù)據(jù)的挖掘,可用于對(duì)用戶(hù)未來(lái)利用趨勢(shì)的分析預(yù)測(cè),以及提出在此基礎(chǔ)上的管理決策,為提高數(shù)字檔案館的服務(wù)水平提供依據(jù)。
- 1合規(guī)性是ITSM考核的根本指標(biāo)
- 2網(wǎng)絡(luò)服務(wù)來(lái)日方長(zhǎng)
- 3人力資源績(jī)效管理實(shí)踐的七大誤區(qū)
- 4如何落實(shí)ITIL理論
- 5IT服務(wù)之客戶(hù)就是上帝
- 6信息技術(shù):給競(jìng)爭(zhēng)情報(bào)打了一針興奮劑
- 7IT治理框架的三個(gè)支柱
- 8未來(lái)ERP項(xiàng)目是顛覆性技術(shù)還是花瓶工程?
- 9杜絕管理漏洞 打響信息化之戰(zhàn)(一)
- 10OA業(yè)內(nèi)魚(yú)龍混雜,忽悠滿(mǎn)天飛,選型的第一步就是將忽悠信息剔除
- 11Web服務(wù)讓CIO們左右為難 選擇.NET還是Java?
- 12無(wú)線(xiàn)網(wǎng)絡(luò)存取 Web services大行其道
- 13IT究竟能給銀行帶來(lái)什么?
- 14鋼鐵業(yè):信息化建設(shè)進(jìn)入成熟期
- 15房地產(chǎn)OA軟件活動(dòng)在愉悅的氣氛中結(jié)束,為重慶房地產(chǎn)行業(yè)各成本管
- 16誰(shuí)將吹響會(huì)計(jì)信息化標(biāo)準(zhǔn)的“沖鋒號(hào)”
- 17互聯(lián)網(wǎng)商業(yè)模式改變 企業(yè)家逃不掉危機(jī)
- 18鋼鐵行業(yè)MES系統(tǒng)整合技術(shù)簡(jiǎn)介
- 19信息化網(wǎng)上零售的根本
- 20建立企業(yè)級(jí)項(xiàng)目管理體系的步驟
- 21動(dòng)態(tài)數(shù)據(jù)監(jiān)控解決視頻監(jiān)控?cái)?shù)據(jù)存儲(chǔ)困境
- 22微軟.NET中比較受關(guān)心的技術(shù)-Web Services
- 23如何與項(xiàng)目中的各種“怪人”溝通
- 24泛普協(xié)同OA辦公軟件適用于廣大中小企業(yè)事業(yè)單位
- 25五個(gè)一:規(guī)?;髽I(yè)最理想的信息化平臺(tái)
- 26Java和.Net:網(wǎng)絡(luò)服務(wù)誰(shuí)主沉浮?
- 27數(shù)據(jù)挖掘與提供信息決策是當(dāng)務(wù)之急
- 28連鎖藥店現(xiàn)狀和信息化建設(shè)思路
- 29ISO20000可以代替ITIL嗎?
- 30重慶房地產(chǎn)CRM系統(tǒng)是支持房地產(chǎn)企業(yè)實(shí)施CRM體系的信息化平臺(tái)
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓