監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計(jì)管理系統(tǒng) | 甲方項(xiàng)目管理系統(tǒng) | 簽約案例 | 客戶案例 | 在線試用
X 關(guān)閉

架起結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間的橋梁(AMT 唐曉輝 編譯)

申請免費(fèi)試用、咨詢電話:400-8352-114

AMTeam.org

什么是“非結(jié)構(gòu)化數(shù)據(jù)”?大家為什么大聲疾呼要求提供結(jié)構(gòu)化數(shù)據(jù)呢?結(jié)構(gòu)化數(shù)據(jù)指的是諸如企業(yè)財(cái)務(wù)賬目和生產(chǎn)數(shù)據(jù)、學(xué)生的分?jǐn)?shù)數(shù)據(jù)等存在邏輯關(guān)系的數(shù)據(jù)和信息,非結(jié)構(gòu)化數(shù)據(jù)的則是一些文本數(shù)據(jù)、圖像聲音等多媒體數(shù)據(jù)等等。非結(jié)構(gòu)化的數(shù)據(jù)通常占到一個組織所有信息的80%~90%,比如:Word和PowerPoint文檔、電子郵件以及企業(yè)網(wǎng)內(nèi)的時事通訊等等。公司的雇員總是抱怨在開始一個新項(xiàng)目的時候總要從頭開始尋找相關(guān)資料,從一長串文件夾中找到他們要的資料總會花費(fèi)他們大量的時間。IT部門正在努力讓用戶能夠獲取并盡量多的使用組織內(nèi)的數(shù)據(jù),想把這些數(shù)據(jù)和組織內(nèi)更多的活動聯(lián)系起來?,F(xiàn)在的熱門話題就是如何克服現(xiàn)有的關(guān)系數(shù)據(jù)庫中面向記錄的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)包之間的差距。企業(yè)中非結(jié)構(gòu)化的電子文檔數(shù)據(jù)越來越多,現(xiàn)在的首要目標(biāo)是要知道一個企業(yè)如何利用所有可能的信息才能使企業(yè)的運(yùn)作更加有效?但是很多公司、企業(yè)卻發(fā)現(xiàn)這并不是一個簡單的任務(wù)。

 首先,處理所有的原始數(shù)據(jù)是一個非常令人生畏的事情;其次,對一個特定的用戶或者任務(wù)而言,并不需要所有的信息,因此很多IT部門開始只關(guān)注那些價值更高的應(yīng)用,這些應(yīng)用只使用到那些更容易“消化”的信息;甚至更為嚴(yán)重的是,一些IT部門只設(shè)計(jì)獲取那些特殊應(yīng)用的信息訪問途徑,這和企業(yè)更高層次的信息訪問目標(biāo)是相違背的。上述這些趨勢可能會打亂企業(yè)的長期的計(jì)劃。

 企業(yè)在信息訪問方面的最大目標(biāo)――對所有信息的智能化訪問――要求企業(yè)能夠支持對很多不同任務(wù)、部門以及涉及到很多個人工作的項(xiàng)目的信息的訪問。知識工作者沒有那么多的時間學(xué)習(xí)很多不同的操作界面或者去很多不同的地方把各種不同的信息收集到一起去完成他們的各種工作。這是我們首先要解決的問題。這種現(xiàn)實(shí)已經(jīng)導(dǎo)致了門戶網(wǎng)站這個概念的出現(xiàn)和實(shí)現(xiàn)。然而門戶網(wǎng)站還不夠,我們想要的并不是僅僅把所有的文檔集中到一點(diǎn)(很多公眾網(wǎng)就是這樣的)。

 “企業(yè)搜索”只能通過瀏覽器一頁一頁的上翻下翻,根本不能滿足企業(yè)現(xiàn)在的信息需求。很多更高級的功能――分類、信息可視化、數(shù)據(jù)挖掘和分析等等――正在被逐步開發(fā)利用,以優(yōu)化企業(yè)的原始資料的搜索。如果這些功能能夠有效的利用,這必將給用戶對信息的訪問帶來極大的便利。

 但是企業(yè)首先必須清楚他們所尋找的是什么?他們已經(jīng)有哪些了?以及他們將如何使用這些信息?為了得到更好的信息訪問,我們有必要明確關(guān)于信息的一些概念和區(qū)別。當(dāng)然,現(xiàn)有的運(yùn)行良好的結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫)與非結(jié)構(gòu)化數(shù)據(jù)(文檔)的區(qū)別很重要。一個企業(yè)也要區(qū)分內(nèi)部和外部需求。通常,項(xiàng)目需求調(diào)查總是說,知識管理系統(tǒng)應(yīng)該把信息需求的各個方面都整合其中,但實(shí)際上這并不是一件簡單的事。

 結(jié)構(gòu)化/非結(jié)構(gòu)化:毫無疑問,用戶希望從關(guān)系數(shù)據(jù)庫中獲取數(shù)據(jù)、從門戶網(wǎng)站上獲取相關(guān)的文檔。但是我們要再次強(qiáng)調(diào)的是:提供很多“高質(zhì)量”的網(wǎng)頁鏈接是一種很不充分的、效率不高的方式。用戶需要內(nèi)容分析技術(shù)以展示模式或者不規(guī)則信息,需要信息可視化功能來顯示并操作有用的知識?!八阉鳌边€遠(yuǎn)遠(yuǎn)不夠,知識工作者需要的是“找到”。

 內(nèi)部網(wǎng)/外部網(wǎng):非常明顯,每個企業(yè)都非常價值的內(nèi)部網(wǎng)絡(luò)信息供企業(yè)內(nèi)部使用,同時企業(yè)也會提供外部網(wǎng)頁或者網(wǎng)站供公眾訪問。挑戰(zhàn)就在于如何讓企業(yè)內(nèi)部人員能夠隨時訪問自己企業(yè)的所有信息并盡可能方便的訪問企業(yè)外部其它地方的信息,同時又要防范企業(yè)外部人員看到他們不應(yīng)該看到的企業(yè)內(nèi)部信息。比如:一個配藥公司的研究人員很想通過自己的賬戶訪問關(guān)于市場的新聞,而他自己的賬戶又可以隨時訪問很多內(nèi)部網(wǎng)的關(guān)于公司配藥方面的極有價值的信息。此時會不會出現(xiàn)什么問題呢?這是我們必須要考慮的問題。

 內(nèi)容/上下文:現(xiàn)在流行的搜索方式――基于內(nèi)容的搜索――只限于文檔內(nèi)“關(guān)鍵詞”的搜索。文檔總是包含很多詞組,這些詞組之間有著各種各樣的關(guān)系?;趦?nèi)容的搜索方式會根據(jù)關(guān)鍵詞給出很多相關(guān)或者不相關(guān)的文檔鏈接。如果一個文檔有各種各樣的關(guān)于上下文的索引,能夠幫助用戶決定一個特殊的資源是否能夠滿足他的需要,這將為用戶帶來很大的便利。比如對研究者而言,每篇文章后面的參考文獻(xiàn)都可能是和他所要研究課題非常相關(guān)的文檔。如果搜索引擎能夠基于參考文獻(xiàn)給出用戶想要的搜索結(jié)果,這也許比基于文檔內(nèi)關(guān)鍵詞給出的成千上萬的搜索結(jié)果更有用。

 操作層/戰(zhàn)略層:一些重要的文檔通常都會存儲起來以支持企業(yè)特定的操作層目標(biāo)的實(shí)現(xiàn)(比如,制藥公司的藥物配方文檔)。這些文檔在使用后都會按規(guī)定或者其它原因而保留、嚴(yán)格的管理起來。查閱、使用這些文檔都有一些困難或者風(fēng)險。而通常,在未來的信息、知識管理中卻不得不花費(fèi)大量的時間和精力來處理這些過去的嚴(yán)格保存的文檔。因此很多項(xiàng)目在進(jìn)行中只去找一些很容易獲得的信息。這是一個嚴(yán)重的錯誤。制定相關(guān)措施,定期公布一些保密的文檔也是非常重要的。

 我們都知道“知識就是力量”,但是普遍存在的一種現(xiàn)象就是:一旦某些文檔或者信息產(chǎn)生,它們就有可能在組織內(nèi)保存起來、不再使用,這種情況給組織帶來不必要的損失。很多CIO和CEO們對此也無能為力,不知道如何是好。對于一個有前瞻性的組織來說,答案就是增加能夠廣泛使用并行之有效的信息(各種形式、組織內(nèi)各個部門的信息)檢索方式。這也是信息時代我們要努力實(shí)現(xiàn)的一個目標(biāo)。

作者聯(lián)系方式:tangxh99@mails.tsinghua.edu.cn


發(fā)布:2007-03-25 10:39    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
上海OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢