當(dāng)前位置:工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 廣西OA系統(tǒng) > 南寧OA系統(tǒng) > 南寧OA快博
數(shù)據(jù)挖掘技術(shù)在中小企業(yè)福州OA中的應(yīng)用研究
申請(qǐng)免費(fèi)試用、咨詢電話:400-8352-114
來源:泛普軟件數(shù)據(jù)挖掘技術(shù)在中小企業(yè)福州OA中的應(yīng)用研究1
0 引 言
在現(xiàn)代企業(yè)的激烈競(jìng)爭(zhēng)環(huán)境中,銷售業(yè)績(jī)的好壞直接關(guān)系到一個(gè)企業(yè)的生存與發(fā)展。隨著企業(yè)規(guī)模的不斷擴(kuò)大和經(jīng)營(yíng)管理的逐漸完善提升,企業(yè)的管理決策人員必然關(guān)注產(chǎn)品的銷售業(yè)績(jī)總體情況、產(chǎn)品的聯(lián)合銷售情況和銷售退貨等面向企業(yè)級(jí)的有價(jià)值的信息。以ERI, 為代表的事務(wù)型處理系統(tǒng)雖然在處理日常的業(yè)務(wù)工作方面顯示出強(qiáng)大的能力,但是在決策分析中,只能提供較為簡(jiǎn)單的記錄查詢,管理決策者更需要從日積月累的龐大的業(yè)務(wù)數(shù)據(jù)中獲取隱藏的知識(shí),提高積壓數(shù)據(jù)的利用率。
數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)的一個(gè)基本步驟,是指從數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、潛在的和有用信息的非平凡過程。關(guān)聯(lián)規(guī)則是一種重要的數(shù)據(jù)挖掘模式,其最權(quán)威的定義是國際商業(yè)機(jī)器(International Busines Machines,IBM)公司科學(xué)家R.Agrawal等人提出的,是數(shù)據(jù)之間一種簡(jiǎn)單實(shí)用的規(guī)則。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值的描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的知識(shí)。本文描述了如何建立數(shù)據(jù)集市,使用數(shù)據(jù)挖掘技術(shù),應(yīng)用關(guān)聯(lián)規(guī)則挖掘算法發(fā)現(xiàn)銷售數(shù)據(jù)中不同產(chǎn)品(類)之間的聯(lián)系,找出銷售行為模式的過程,并對(duì)挖掘算法應(yīng)用過程中出現(xiàn)的問題進(jìn)行了探討。
本文分析的是廣東某衛(wèi)浴企業(yè)福州OA的銷售數(shù)據(jù)。該福州OA系統(tǒng)是筆者所在研究中心實(shí)施的中小企業(yè)信息化示范項(xiàng)目。
1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)
1.1 概念
設(shè)I={i1,i2,…,im}是項(xiàng)的集合。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使T屬于I。每一個(gè)事務(wù)都有一個(gè)標(biāo)識(shí),稱為TID。設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)A屬于T。關(guān)聯(lián)規(guī)則是形如A→B的蘊(yùn)涵式,其中,B為項(xiàng)集,A屬于I,B屬于I,并且A∩B=Φ。假設(shè)規(guī)則A→B的支持度是s,則s是D中事務(wù)包含A∪B的百分比。如果規(guī)則A→B的置信度是c,即c是D中包含A的事務(wù)同時(shí)也包含B的百分比。即:
support(A→B)=P(A∪B)
confidence(A→B)=P(B︱A)
同時(shí)滿足最小支持度閾值(min_support)的最小置信度闌值(min_confidence)的規(guī)則稱作強(qiáng)規(guī)則。
項(xiàng)的集合稱為項(xiàng)集(Itemset)。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。如果項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集(Frequent Itemset)。
1.2 Apriori算法
Apriori算法是一種經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)字挖掘中尋找頻繁項(xiàng)集的算法。Apriori算法的基本思想是利用頻繁項(xiàng)集的向下封閉性(即頻繁項(xiàng)集的子集也是頻繁項(xiàng)集)尋找頻繁項(xiàng)集。為了生成所有頻繁項(xiàng)集,使用了遞推的方法。首先產(chǎn)生所有1-項(xiàng)集C1,即候選1-項(xiàng)集,再從中找出所有的頻繁1-項(xiàng)集L1,然后根據(jù)頻繁1-項(xiàng)集確定候選2-項(xiàng)集C2,再從C2中找出頻繁2-項(xiàng)集L2,依次下去,直到不再有候選項(xiàng)集為止。其過程如下。
1)單趟掃描數(shù)據(jù)庫D計(jì)算出各個(gè)1-項(xiàng)集的支持度,從而得出頻繁1-項(xiàng)集構(gòu)成的集合L1。
2)為了產(chǎn)生頻繁k-項(xiàng)集構(gòu)成的集合Lk,預(yù)先生成一個(gè)候選項(xiàng)集Ck,Lk屬于Ck,其中項(xiàng)集Ck由聯(lián)合運(yùn)算實(shí)現(xiàn)。聯(lián)合算法:若p,q∈Lk-1,p={p1,p2,…,pk-1},q={q1,q2,…,qk-1},并且當(dāng)1≤i≤k-1時(shí),有pi=qi;當(dāng)i=k-1時(shí),有pk-1≠qk-1,,則p∪q={p1,p2,…,pk-2,pk-1,qk-1}是候選k-項(xiàng)集的集合Ck中的元素。
3)剪枝 。 Ck是Lk的超集,即Ck中的項(xiàng)集可能是頻繁的,也可能是非頻繁的,但所有的頻繁k-項(xiàng)集都包含在Ck中。應(yīng)用Apriori性質(zhì),如果一個(gè)候選k-項(xiàng)集的(k-1)-項(xiàng)子集不在Lk-1中,則該候選集也不可能是頻繁的,從而可以從Ck中刪除。
4)將Ck中不滿足最小支持度的項(xiàng)集刪除,形成由頻繁k-項(xiàng)集構(gòu)成的集合Lk。
2 銷售數(shù)據(jù)集市的設(shè)計(jì)
2.1 邏輯模型設(shè)計(jì)
數(shù)據(jù)倉庫是建立在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上,因此在數(shù)據(jù)倉庫的邏輯設(shè)計(jì)中采用關(guān)系模型。邏輯模型設(shè)計(jì)的主要工作是確定主題的公共碼鍵和屬性組,確定關(guān)系模型中的事實(shí)表和維表,識(shí)別事實(shí)數(shù)據(jù)和維數(shù)據(jù),通過公共碼鍵將表聯(lián)系在一起,形成一個(gè)完整的主題。
數(shù)據(jù)集市是部門級(jí)的,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之部門級(jí)數(shù)據(jù)倉庫。
銷售數(shù)據(jù)集市的維度表包括產(chǎn)品維表、客戶維表和時(shí)間維表;事實(shí)表數(shù)據(jù)除了指向各維表的外鍵之外,應(yīng)包括銷售數(shù)量、銷售金額和退貨數(shù)量。使用星型模式來描述銷售數(shù)據(jù)集市的邏輯模型(見圖1)。
圖1 銷售數(shù)據(jù)集市邏輯模型
有了數(shù)據(jù)結(jié)構(gòu)模型之后,便可以對(duì)事實(shí)表和維表進(jìn)行詳細(xì)的設(shè)計(jì),包括其中的字段名、類型和功能描述,還有表間主外鍵的對(duì)應(yīng)關(guān)系。
其中三個(gè)維度表中的主鍵在事實(shí)表中都有與之對(duì)應(yīng)的外鍵,以相同的字段名表示,通過主外鍵的相連,構(gòu)成如圖1所示的以事實(shí)表為中心,維表在周邊的星型模型。
- 1金融危機(jī)下用福州OA改善企業(yè)現(xiàn)金流量
- 2中小企業(yè)福州OA提高成功率的關(guān)鍵策略
- 3強(qiáng)訊呼叫中心服務(wù)于北京郵電大學(xué)網(wǎng)絡(luò)教育學(xué)院
- 4“貴州茅臺(tái)鎮(zhèn)”商標(biāo)引爭(zhēng)議 茅臺(tái)起訴十多家酒企
- 5中小企業(yè)抗擊金融危機(jī)要打持久戰(zhàn)
- 6如何走出“偽商業(yè)智能”的陷阱?
- 7企業(yè)物流供應(yīng)鏈管理相關(guān)綜述
- 8十種方法幫助中小企業(yè)戰(zhàn)勝出口危機(jī)
- 9“知識(shí)管理”是信息化的奢侈品嗎?
- 10SaaS大幅增長(zhǎng) 超越傳統(tǒng)引領(lǐng)存儲(chǔ)
- 11面向再造的企業(yè)信息化初探
- 12買房最容易觸碰六大雷區(qū) 勿讓優(yōu)惠沖昏頭
- 13漢肯薩繆爾森出任沃爾沃汽車集團(tuán)新CEO
- 142012年中國家具行業(yè)“遇難” 金屬家具出口卻突增
- 15保證企業(yè)福州OA項(xiàng)目成功實(shí)施的十大要素
- 16企業(yè)從功能出發(fā)為ERP系統(tǒng)選型 需注意四點(diǎn)
- 17房?jī)r(jià)走勢(shì)不明買房易陷10大誤區(qū) 專家為你破解
- 18網(wǎng)友評(píng)論:金融危機(jī)程序員應(yīng)該如何應(yīng)對(duì)
- 19樣板間看上去很美 牢記三大注意事項(xiàng)避免上當(dāng)
- 20住建部:房?jī)r(jià)不會(huì)全面反彈 限購政策將繼續(xù)執(zhí)行
- 21企業(yè)降低IT成本的20個(gè)小建議
- 22異地高考方案年底出臺(tái) 天津?qū)W籍房驟然走俏
- 23企業(yè)SOA項(xiàng)目部署中的幾個(gè)關(guān)鍵問題
- 24企業(yè)信息門戶的技術(shù)架構(gòu)和基本功能
- 25改進(jìn)IT服務(wù)管理流程的十七個(gè)步驟
- 26以生產(chǎn)為核心 掌握制造業(yè)ERP選型切入點(diǎn)
- 27縱觀國外流程管理的技術(shù)演進(jìn)
- 28SaaS是中國管理模式的助推器
- 29從福州OA四大失敗案例看全面預(yù)算的機(jī)遇
- 30商務(wù)智能掌控后ERP 時(shí)代之BI開始盈利
成都公司:成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓