第一篇:數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿9--遺傳算法)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第九章
基于遺傳算法的數(shù)據(jù)挖掘
面向?qū)傩缘臄?shù)據(jù)挖掘方法是基于邏輯的,神經(jīng)網(wǎng)絡(luò)挖掘方法是基于方程的,而本章要介紹的遺傳算法,則是一種基于十字表的數(shù)據(jù)挖掘方法。它也是一種典型的知識發(fā)現(xiàn)方法。
遺傳算法是模擬生物在自然環(huán)境中的遺傳和進(jìn)化過程而形成的一種自適應(yīng)全局優(yōu)化概率搜索算法。它最早由美國密執(zhí)安大學(xué)的Holland教授提出,起源于60年代對自然和人工自適應(yīng)系統(tǒng)的研究。70年代De Jong基于遺傳算法的思想在計算機(jī)上進(jìn)行了大量的純數(shù)值函數(shù)優(yōu)化計算實(shí)驗。在此基礎(chǔ)上,由Goldberg在80年代對其進(jìn)行了歸納總結(jié),形成了遺傳算法的基本框架。9.1 遺傳算法概要
對于一個求函數(shù)最大值的優(yōu)化問題(最小值類同),一般可描述為如下的數(shù)學(xué)規(guī)劃模型:
?maxf(X)?
?s.t.X?R
(9-1)
?R?U?式中,X?[x1,x2,?,xn]T為決策變量;f(X)為目標(biāo)函數(shù)(線性或非線性;離散或連續(xù);單峰或多峰);U為基本空間;R為U上的一個子集。滿足約束條件的解X稱為可行解,集合R表示由所有滿足約束條件的解組成的一個集合,叫做可行解集合。
圖1 最優(yōu)優(yōu)問題的可行解及可行解集合
傳統(tǒng)的求最優(yōu)解或近似最優(yōu)解的方法主要有:枚舉法、分枝定界法、1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
啟發(fā)式算法和搜索算法。隨著問題種類的不同,以及問題規(guī)模的擴(kuò)大,要尋找到一種能以有限的代價來解決上述最優(yōu)化問題的通用方法仍是一個難題。而遺傳算法正好能為此類問題提供一個有效途徑和通用框架,開創(chuàng)了一種新的全局優(yōu)化搜索算法。
遺傳算法是模擬生物進(jìn)化過程的計算模型,它是自然遺傳學(xué)和計算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計算方法。
生物的進(jìn)化過程主要是通過染色體之間的交叉和變異來完成的。在遺傳算法中,將n維決策向量X用n個記號Xi,i?1,2,?,n所組成的符號串來表示X:
X?X1X2?Xn?X?[X1,X2,?,Xn]T
把每一個Xi,i?1,2,?,n看作一個遺傳基因,它的所有可能取值稱為等位基因。這樣,X就可看作是由n個遺傳基因所組成的一個染色體(或個體)。對于每個個體,要按照一定的規(guī)則確定出其適應(yīng)度。個體的適應(yīng)度與其對應(yīng)的個體表現(xiàn)型X的目標(biāo)函數(shù)值相關(guān)聯(lián),X越接近于目標(biāo)函數(shù)的最優(yōu)點(diǎn),其適應(yīng)度越大;反之適應(yīng)度越小。所有染色體X就組成了問題的搜索空間。
生物的進(jìn)化是以集團(tuán)為主體的。與此對應(yīng),遺傳算法的運(yùn)算對象是由M個個體所組成的集合,稱為群體。與生物一代一代的自然進(jìn)化過程類似,遺傳算法的運(yùn)算過程也是一個反復(fù)迭代過程,第t代群體記為P(t),經(jīng)過一代遺傳和進(jìn)化后,得到第t?1代群體,也是由多個個體組成的集合,記為P(t?1)。這個群體不斷地經(jīng)過遺傳和進(jìn)化操作,并且每次都按優(yōu)勝劣汰的規(guī)則將適應(yīng)度較高的個體更多的遺傳到下一代,這樣最終在群體中將會得到一個優(yōu)良的個體X,它達(dá)到或接近于問題的最優(yōu)解X*。
遺傳算法中最優(yōu)解的搜索過程也模仿生物的這種進(jìn)化過程。使用所謂的遺傳算子作用于群體P(t)中,進(jìn)行下述的遺傳操作,從而得到新一 2
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
代群體P(t?1)。主要操作有:
? 選擇:根據(jù)各個個體的適應(yīng)度,按照一定的規(guī)則或方法,從第t代群體P(t)中選擇出一些優(yōu)良的個體遺傳到下一代群體P(t?1)中; ? 交叉:將群體P(t)內(nèi)的各個個體隨機(jī)搭配成對,對每一對個體,以某個概率(稱為交叉概率)交換它們之間的部分染色體; ? 變異:對群體P(t)中的每一個個體,以某一概率(稱為變異概率)改變某一個或某一些基因座上的基因值為其他的等位基因。遺傳算法的運(yùn)算步驟為:
(1)初始化:設(shè)置進(jìn)化代數(shù)計數(shù)器t?0;設(shè)置最大進(jìn)化代數(shù)T;隨機(jī)生成M個個體作為初始群體P(0);
(2)個體評價:計算群體P(t)中各個個體的適應(yīng)度;(3)選擇運(yùn)算:將選擇算子作用于群體;(4)交叉運(yùn)算:將交叉算子作用于群體;
(5)變異運(yùn)算:將變異算子作用于群體。群體P(t)經(jīng)過選擇、交叉、變異運(yùn)算之后得到下一代群體P(t?1);
(6)終止條件判斷:若t?T,則t?t?1,轉(zhuǎn)到步驟二;若t?T,則以進(jìn)化過程中所得到的具有最大適應(yīng)度的個體作為最優(yōu)解輸出,終止計算。
遺傳算法的執(zhí)行過程如下圖所示:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
圖1 遺傳算法的執(zhí)行過程
9.2 遺傳算法的特點(diǎn)
與傳統(tǒng)的優(yōu)化算法:單純形法、梯度法、動態(tài)規(guī)劃法和分枝定界法相比,遺傳算法是一類可用于復(fù)雜系統(tǒng)優(yōu)化計算的魯棒性搜索算法。其特點(diǎn)主要有:
? 遺傳算法以決策變量的編碼作為運(yùn)算對象。而傳統(tǒng)的優(yōu)化算法往往是直接利用決策變量的實(shí)際值本身來進(jìn)行優(yōu)化計算; ? 遺傳算法直接以目標(biāo)函數(shù)值作為搜索信息。而傳統(tǒng)的優(yōu)化算法不僅需要利用目標(biāo)函數(shù)值,而且往往需要目標(biāo)函數(shù)的導(dǎo)數(shù)值等其他一些輔助信息才能確定搜索方向;
? 遺傳算法同時使用多個搜索點(diǎn)的搜索信息。而傳統(tǒng)的優(yōu)化算法往往從解空間中的一個初始點(diǎn)開始最優(yōu)解的迭代搜索過程; ? 遺傳算法使用概率搜索技術(shù)。而傳統(tǒng)的優(yōu)化算法往往使用的是確定性的搜索方法,一個搜索點(diǎn)到另一個搜索點(diǎn)的轉(zhuǎn)移有確定的轉(zhuǎn)移方法和轉(zhuǎn)移關(guān)系,這種確定性往往也有可能使得搜索永遠(yuǎn)達(dá)不到最優(yōu)點(diǎn),因而限制了算法的應(yīng)用范圍。
9.3 遺傳算法的應(yīng)用
遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問題的通用框架,它不依賴于問題的具體領(lǐng)域,對問題的種類有很強(qiáng)的魯棒性,所以廣泛應(yīng)用于很
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
多學(xué)科。
(1)優(yōu)化函數(shù)(2)組合優(yōu)化(3)生產(chǎn)調(diào)度問題(4)自動控制(5)機(jī)器人學(xué)(6)圖像處理(7)人工生命(8)遺傳編碼(9)機(jī)器學(xué)習(xí)
9.4 遺傳算法的構(gòu)成要素及形式定義
構(gòu)成遺傳算法的要素主要有:染色體編碼方法、個體適應(yīng)度評價、遺傳算子、基本遺傳算法的運(yùn)行參數(shù)。
(1)染色體編碼方法
在實(shí)現(xiàn)對一個問題用遺傳算法進(jìn)行求解之前,必須先對問題的解空間進(jìn)行編碼,以便于它能夠由遺傳算法進(jìn)行操作。最常用的編碼方法是二進(jìn)制編碼、浮點(diǎn)數(shù)編碼、格雷碼編碼、符號編碼等。
如,二進(jìn)制編碼方法是遺傳算法中最常用的一種編碼方法,它使用的編碼符號集是由二進(jìn)制符號集0和1所組成的二值符號集{0,1},它所構(gòu)成的個體基因型是一個二進(jìn)制編碼符號串。
二進(jìn)制編碼符號串的長度與問題所要求的求解精度有關(guān)。假設(shè)某一參數(shù)的取值范圍是[Umin,Umax],若用長度為l的二進(jìn)制編碼符號串來表示該參數(shù),則它總共能夠產(chǎn)生2l種不同的編碼,即為:
00000000...00000000=0 ——> Umin 00000000...00000001=1 ——> Umin?1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
.....11111111...11111111=2*2*2…2-1——>Umax 則二進(jìn)制編碼的編碼精度為:
s?Umax?Umin l2?1假如,對于x∈[0,1023],若用10位長的二進(jìn)制編碼來表示該參數(shù)的話,則下述符號串:
X:
0 0 1 0 1 0 1 1 1 1
就可表示一個個體,它所對應(yīng)的參數(shù)值為x=175。此時的編碼精度s=1。
(2)適應(yīng)度函數(shù)
在遺傳算法中,模擬自然選擇的過程主要通過評估函數(shù)和適應(yīng)度函數(shù)來實(shí)現(xiàn)的。前者是用來評估一個染色體的優(yōu)劣的絕對值,后者是用來評估一個染色體相對于整個群體的優(yōu)劣的相對值的大小。
但在遺傳算法中,評估函數(shù)和適應(yīng)度函數(shù)的計算與應(yīng)用比較相近,所以一般文獻(xiàn)中常混為一談。
(3)遺傳算子
基本遺傳算法使用下列三種遺傳算子:
? 選擇算子:按照某種策略從父代中挑選個體進(jìn)入中間群體,如使用比例選擇;
? 交叉算子:隨機(jī)地從中間群體中抽取兩個個體,并按照某種交叉策略使兩個個體互相交換部分染色體碼串,從而形成兩個新的個體。如使用單點(diǎn)交叉;
? 變異算子:通常按照一定的概率(一般較小),改變?nèi)旧w中某些基因的值。
(4)基本遺傳算法的運(yùn)行參數(shù)
基本遺傳算法有下述4個運(yùn)行參數(shù)需要提前設(shè)定:(目前無合理的理論依據(jù))
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
? M:群體大小:即群體中所含個體的數(shù)量,一般取20-100; ? T:遺傳算法的終止進(jìn)化代數(shù),一般取為100-500; ? pc:交叉概率:一般取為0.4-0.99; ? pm:變異概率:一般取為0.0001-0.1。基本遺傳算法的形式定義為:
SGA?(C,E,P0,M,?,?,?,T)
其中,C---個體的編碼方法;
E---個體適應(yīng)度評價函數(shù);
P0---初始群體;
M---群體大小;
?---選擇算子;
?---交叉算子;
?---變異算子;
T---遺優(yōu)越性運(yùn)算終止條件。9.5 遺傳算法的數(shù)學(xué)理論
1.模式
定義:模式表示一些相似的模塊,它描述了在某些位置上具有相似結(jié)構(gòu)特征的個體編碼串的一個子集。
不失一般性,以二進(jìn)制編碼為例,個體是由二值字符集V={0,1}中的元素所組成的一個編碼串,而模式卻是由三值字符集V??{0,1,*}中的元素所組成的一個編碼串,其中“*”表示通配符,它既可被當(dāng)作“1”,也可被當(dāng)作“0”。如,H=1***001*就是一個模式,串A=10100011與B=10110010都是與模式H相匹配的字符串,稱為兩者相似。
定義:模式H的第一個和最后一個常量之間的距離稱為模式的定義長度,記為?(H)。
定義:模式中常量的個數(shù)稱為模式的階數(shù),記為O(H)。
如上例中,?(H)?6,O(H)?4。再如?(*****1**)?1,O(*******1)?1 顯然,當(dāng)字符串的長度固定時,模式的階數(shù)越高,能與該模式匹配的字符串(稱為樣本)數(shù)就越少,因而該模式的確定性也就越高。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
2.模式定理
在引入模式的概念之后,遺傳算法的實(shí)質(zhì)可看作是對模式的一種運(yùn)算。對基本遺傳算法而言,也就是某一模式H的各個樣本經(jīng)過選擇運(yùn)算、交叉運(yùn)算、變異運(yùn)算之后,得到一些新的樣本和新的模式。
假設(shè)在進(jìn)化過程中的第t代時,當(dāng)前群體P(t)中能與模式H匹配的個體數(shù)(樣本數(shù))記為m(H,t),下一代群體P(t?1)中能與模式H匹配的個體數(shù)記為m(H,t?1)。則在選擇算子、交叉算子、變異算子的連續(xù)作用下,模式H的樣本數(shù)m(H,t)的變化情況分析如下:(1)選擇算子的作用
基本遺傳算法中的選擇算子使用的是比例選擇算子。將當(dāng)前群體中適應(yīng)度的總和記為F(t)??F(Ai),在這個算子作用下,與模式H所匹配
i的各個個體Ai能夠平均復(fù)制M?m(H,t?1)?
F(Ai)個個體到下一代群體中,即 F(t)M?f(H,t)?F(t)Ai?H?P(t)M?F(Ai)??F(t)Ai?H?P(t)M?f(H,t)f(H,t)?m(H,t)?m(H,t)_F(t)F(t)
(9-2)
F(t)?式中,f(H,t)是第t代群體中模式H所隱含個體的平均適應(yīng)度;
_F(t)M是第t代群體的平均適應(yīng)度。
若再假設(shè)模式H的平均適應(yīng)度總是高出群體平均適應(yīng)度的倍,則(9-2)式可改寫為
m(H,t?1)?m(H,t)(1?C)
(9-3)由此可見,m(H,t?1)為一等比級數(shù)。其通項公式為
m(H,t)?m(H,0)(1?C)t
(9-4)顯然,有
? 若C>0,則m(H,t)呈指數(shù)級增長;
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
? 若C<0,則m(H,t)呈指數(shù)級減少。
由此可得如下結(jié)論:在選擇算子作用下,對于平均適應(yīng)度高于群體平均適應(yīng)度的模式,其樣本數(shù)將呈指數(shù)級增長;反之,呈指數(shù)級減少。(2)交叉算子的作用
以單點(diǎn)交叉算子為例,見圖所示的一個模式。
隱含在該模式中的樣本與其他個體進(jìn)行交叉操作時,根據(jù)交叉點(diǎn)的位置不同,有可能破壞該模式,也可能不破壞該模式而使其繼續(xù)生存到下一代群體中。下面估算該模式生存概率ps的下界。
顯然,當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式的定義長度之內(nèi)時,將有可能破壞該模式;而當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式定義長度之外時,肯定不會破壞該模式。則由交叉概率pc發(fā)生時,模式H的生存概率的下界為
ps?1?pc??(H)l?(9-5)
這樣,經(jīng)過選擇算子和交叉算子作用之后,模式H的樣本數(shù)滿足下式:
m(H,t?1)?m(H,t)?(1?C)?[1?pc??(H)l?1]
(9-6)
由式(9-6)知,在其他值固定的情況下(C>0)
? ?(H)越小,則m(H,t)越呈指數(shù)增長; ? ?(H)越大,則m(H,t)越不容易呈指數(shù)增長。(3)變異算子的作用
這里,以常用的基本位變異算子為例進(jìn)行研究。
若某一模式被破壞,則必然是模式描述形式中通配符“*”之處的某一基因發(fā)生了變化,其發(fā)生概率是:
1?(1?pm)O(H)當(dāng)pm??1時,有:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1?(1?pm)O(H)?O(H)?pm
由此可知,在變異算子作用下,模式H的生存概率大約是:
ps?1?O(H)?pm
(9-7)顯然知
? O(H)越小,模式H越易于生存; ? O(H)越大,模式H越易被破壞。
綜合上面的各式,并忽略一些極小項,則比例選擇算子、單點(diǎn)交叉算子、基本位變異算子的連續(xù)作用下,群體中模式H的子代樣本數(shù)為:
m(H,t?1)?m(H,t)?f(H,t)F(t)_?[1?pc?(H)l?1?O(H)?pm]
(9-8)
[模式定理] 遺傳算法中,在選擇、交叉和變異算子的作用下,具有低價、短的定義長度,并且平均適應(yīng)度高于群體平均適應(yīng)度的模式將按指數(shù)級增長。
模式定理闡述了遺傳算法的理論基礎(chǔ),說明了模式的增長規(guī)律,同時也給遺傳算法的應(yīng)用提供指導(dǎo)作用。9.6 積木塊假設(shè)與遺傳算法欺騙問題
1.積木塊假設(shè)
具有模式定理中所述的呈指數(shù)增長的模式稱為積木塊或基因塊。之所以稱為積木塊,是由于遺傳算法的求解過程并不是在搜索空間中逐一地測試各個基因的枚舉組合,而是通過一些較好的模式,像搭積木一樣,將它們拼接在一起,從而逐漸地構(gòu)造出適應(yīng)度越來越高的個體編碼串。
模式定理說明了積木塊的樣本呈指數(shù)增長,亦即說明了用遺傳算法尋找最優(yōu)樣本的可能性,但它并未指明遺傳算法一定能夠?qū)ふ业阶顑?yōu)樣本。
[積木塊假設(shè)] 個體的基因塊通過選擇、交叉、變異等遺傳算子作用,能夠拼接在一起,形成適應(yīng)度更高的個體編碼。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
注:積木塊假設(shè)已得到完整而嚴(yán)密的數(shù)學(xué)證明,但大量的應(yīng)用實(shí)踐也已說明了其有效性。
2.遺傳算法欺騙問題(GA Deceptive Problem)
應(yīng)用實(shí)踐表明,存在著一類用遺傳算法難以求解的問題,這類稱為“GA-難”的問題往往不滿足積木塊假設(shè),即由基因塊之間的拼接,往往會欺騙遺傳算法,使其進(jìn)化過程偏離最優(yōu)解。
原因:各種研究結(jié)果表明,屬于“GA-難”的問題一般包含有孤立的最優(yōu)點(diǎn),即在這個最優(yōu)點(diǎn)周圍是一些較差的點(diǎn),從而使得遺傳算法較難通過基因之間的相互拼接而達(dá)到這個最優(yōu)點(diǎn)的模式。實(shí)際上,目前也尚無解決這類問題的較好方法或策略。所幸的是,現(xiàn)實(shí)所遇到的各種應(yīng)用問題中,很少有這種奇怪的性質(zhì)。9.7 基于遺傳算法的數(shù)據(jù)挖掘示例
【示例】從200名腦出血和腦血栓病例中,按如下屬性:“病人的既往史”、“起病方式”、“局部癥狀”、“病理反射”、“膝腱反射”和“病情發(fā)展”等六個方面,找出這兩類病人的識別規(guī)則。其中
(1)病人的既往史
包括:高血壓(有01,無00)、動脈硬化(有01,無00);(2)起病方式
快(01)、慢(00);(3)局部證狀
偏癱(是01,否00)
瞳孔不等大(是01,否00)
兩便失禁(是01,否00)
語言障礙(是01,否00)
意識障礙(無00,深度01,輕度10)
(4)病理反射
陽(01),陰(00)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(5)膝腱反射
無(00),活躍(01),不活躍(10)
(6)病情發(fā)展
快(01),慢(00)
則可選30個病例作為訓(xùn)練樣本,100個作為測試樣本。
a)采用二進(jìn)制編碼方式。每個訓(xùn)練樣本是由11個特征和1個類別組成,每個特征和類別都由2位二進(jìn)制字符表示。那么,將樣本編碼成二進(jìn)制字符串的消息就是一個由22位條件和2位結(jié)論組成的二元組。如,消息M=[***00101,01] b)假設(shè)訓(xùn)練集是由15個腦出血和15個腦血栓患者組成30個訓(xùn)練樣本。本實(shí)驗在對30個訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,得到12條規(guī)則,學(xué)習(xí)終止于第170代。
(參見P201《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》,陳文偉、黃金才編,人民郵電出版社,2004)
c)獲取如下的7條主要規(guī)則:
(1)if 高血壓=有∧瞳孔不等大=是∧膝腱反射=不活躍 then 腦出血(11)
(2)if 瞳孔不等大=是∧語言障礙=是 then 腦出血(12)
(3)if 高血壓=有∧起病方式=快∧意識障礙=深度 then 腦出血(13)(4)if 高血壓=有∧病情發(fā)展=快 then 腦出血(15)
(5)if 高血壓=有∧動脈硬化=有∧起病方式= 慢 then 腦血栓(13)(6)if 動脈硬化=有∧病情發(fā)展=慢 then 腦血栓(15)(7)if 動脈硬化=有∧意識障礙=無 then 腦血栓(12)以上括號內(nèi)的數(shù)值表示該規(guī)則的適應(yīng)值。
第二篇:數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第7章
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)是反映人腦結(jié)構(gòu)及功能的一種數(shù)學(xué)模型,它是由大量的簡單處理單元經(jīng)廣泛并行互連形成的一種網(wǎng)絡(luò)系統(tǒng)。用以模擬人類進(jìn)行知識的表示與存儲以及利用知識進(jìn)行推理的行為。它是對人腦系統(tǒng)的簡化、抽象和模擬,具有人腦功能的許多特征。
目前,人工神經(jīng)網(wǎng)絡(luò)已在模式分類、機(jī)器視覺、機(jī)器聽覺、智能計算、機(jī)器人控制、信號處理、組合優(yōu)化問題求解、聯(lián)想記憶、編碼理論、醫(yī)學(xué)診斷、金融決策、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛應(yīng)用。
7.1 基于知識的神經(jīng)網(wǎng)絡(luò)(KBANN)
神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘的困難之一是,對經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果很難給出直觀的解釋。許多學(xué)者試圖將專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計出兼有專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)的混合系統(tǒng)。其中,基于知識的神經(jīng)網(wǎng)絡(luò)就是其中最有代表性的一種系統(tǒng)。
基于知識的神經(jīng)網(wǎng)絡(luò)包含如下四個階段:
① 規(guī)則庫表示階段:提取原始的領(lǐng)域知識并將其組織成規(guī)則庫;(屬人工智能內(nèi)容)
② 映射階段:將上述規(guī)則庫中的每條規(guī)則映射成一個小的子網(wǎng)絡(luò),全體子網(wǎng)絡(luò)就構(gòu)成了一個原始網(wǎng)絡(luò)結(jié)構(gòu);
③ 學(xué)習(xí)階段:用訓(xùn)練樣本對上述網(wǎng)絡(luò)進(jìn)行訓(xùn)練;(應(yīng)用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法)④ 規(guī)則提取階段:將上述訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)再映射成規(guī)則庫。
其典型結(jié)構(gòu)圖為:
圖1 基于知識的神經(jīng)網(wǎng)絡(luò)的信息流程
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1)原始規(guī)則庫轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(1)合取規(guī)則
在與肯定條件相對應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為?,在與否定條件相對應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為??,在與結(jié)論相對應(yīng)的神經(jīng)元的閾值設(shè)置為(2P?1)?/2,其中P是肯定條件的個數(shù)。經(jīng)驗表明,在KBANN中,?通常設(shè)置為4能取得較好的效果。如,規(guī)則
A:B,C,D,not(E)
圖2 合取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示間圖
(2)析取規(guī)則
KBANN對與每個析取條件相對應(yīng)的連接權(quán)設(shè)置為?,對與結(jié)論相對應(yīng)的神經(jīng)元閾值設(shè)置為?/2。如,規(guī)則
圖3 析取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示意圖
2)知識庫轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示例
設(shè)(a)為規(guī)則庫;(b)為規(guī)則的層次結(jié)構(gòu),其中,實(shí)線代表必要關(guān)系,虛線表示抑制關(guān)系;(c)為由規(guī)則庫轉(zhuǎn)化而來的神經(jīng)網(wǎng)絡(luò),其中,為了處理析取規(guī)則而引入X和Y結(jié)點(diǎn),實(shí)線連接代表權(quán)重均設(shè)置為?,它代表規(guī)則庫中的依賴關(guān)系;細(xì)線代表有待進(jìn)一步學(xué)習(xí)的連接權(quán),它反映知識的精化。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
7.2 基于KBANN的規(guī)則提取方法
基于KBANN在數(shù)據(jù)挖掘中的作用集中體現(xiàn)在規(guī)則提取階段,這一問題在神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域十分活躍。這里,主要給出一些從前饋網(wǎng)絡(luò)(如,多層感知器MLP)中提取規(guī)則的方法。幾乎所有的規(guī)則提取方法都假設(shè)經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,要么處于活躍狀態(tài),要么處于不活躍狀態(tài)。
1.有代表性的規(guī)則提取方法
(1)LRE方法
用LRE方法對MLP進(jìn)行規(guī)則提取主要兩步:
? 每一步,對網(wǎng)絡(luò)中的每個隱層結(jié)點(diǎn)和輸出結(jié)點(diǎn)搜索不同的輸入組合,使得輸入加權(quán)和大于當(dāng)前結(jié)點(diǎn)的閾值;
? 對每一個組合產(chǎn)生一條規(guī)則,其前件是各個輸入條件的合取。如,Either、KT和Subset算法就是LRE方法中有代表性的三種方法。它們的特點(diǎn):生成的規(guī)則均較容易理解,但這三種方法有如下缺點(diǎn):① 搜索空間大,故搜索效率低;② 前后生成的規(guī)則有可能發(fā)生重復(fù);③ 不能保證所有有用的規(guī)則均被產(chǎn)生出來。
針對Subset算法的缺點(diǎn),Towell等提出了MofN方法,該算法的基本思想是將所有權(quán)值分成若干個等價類,在每個等價類中成員的作用基本相似,因而可以相互互換。MofN方法通過六個步驟,從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,它們分別是:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
① 分類---即將連接權(quán)分成若干等價類; ②平均---即將每個等價類中的權(quán)值平均化; ③ 去除---即去除對神經(jīng)元的作用較小的等價類;
④ 優(yōu)化---即在去除了部分連接權(quán)后,對神經(jīng)元的閾值進(jìn)行優(yōu)化; ⑤ 提取---即從經(jīng)優(yōu)化的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則; ⑥ 簡化---即將上述規(guī)則簡化,使其更易于理解。
(2)黑箱方法
黑箱方法僅考慮從前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的行為來提取規(guī)則。所以稱之為黑箱是因為在提取規(guī)則時不考慮神經(jīng)網(wǎng)絡(luò)的類型和結(jié)構(gòu),主要關(guān)心輸入和輸出間的映射關(guān)系。
(3)提取模糊規(guī)則
在模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)的研究中,有些模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)中包含模糊規(guī)則的提取和精化方法。
(4)從遞歸網(wǎng)絡(luò)中提取規(guī)則
該方法將遞歸網(wǎng)絡(luò)的狀態(tài)和有限自動機(jī)的狀態(tài)相對應(yīng),可提高神經(jīng)網(wǎng)絡(luò)的泛化能力。
2.一些新規(guī)則的提取方法
本節(jié)主要介紹Taha和Ghosh的最新研究工作,其中包含三種規(guī)則提取方法:
(1)二值輸入輸出規(guī)則提取算法(BIO-RE)
該方法屬于一種簡單的黑箱方法,它對二值輸入的神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)則提取,若原始輸入不是二值的,則必須先將其二值化:
yi???1ifxi??i
?0otherwise其中,xi為原始輸入;?i為閾值;yi是與xi相對應(yīng)的二值化輸入。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
圖4 感知器模型
它的算法為:
輸入:經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)
輸出:規(guī)則(庫)
步驟:
① 給出對應(yīng)于各二值輸入模式的神經(jīng)網(wǎng)絡(luò)輸出O(Y)?{oj(Y)|oj?{0,1}};
② 將二值輸入和輸出相對應(yīng),構(gòu)成一個真值表;
③ 由上式真值表生成相應(yīng)的布爾函數(shù),即所需的規(guī)則(庫)。
BIO-RE算法所提取的規(guī)則有如下一般形式:
IF [Not]輸入變量 [[And] [Not]輸入變量]* → 結(jié)論j 其中,[·]---表示任選項;[·]*---表示可重復(fù)0次或n次。
若最終提取的規(guī)則為
IfY1AndNoYt2ThenO1 則必須將其改寫為
IfX1??1AndX2??2ThenO1
由此可見,一個“真”二值輸入變量(如,Y1)表示“X1??1”;一個否定的二值輸入變量(如,NotY2)表示“X2??2”
此法當(dāng)輸入輸出本來就是二值的,或經(jīng)二值化后不會顯著影響其性能且輸入變量不太大時,用BIO-RE算法是合適的,否則此方法就不太適用。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(2)部分規(guī)則提取算法(Partial-RE)
針對BIO-RE算法的不足,Partial-RE算法僅關(guān)心主要的連接權(quán)的組合,對每個隱層結(jié)點(diǎn)或輸出層結(jié)點(diǎn)j,將輸入結(jié)點(diǎn)j的正負(fù)連接權(quán)按降序排列,形成兩個集合。然后從最大的正連接權(quán)開始,比如從第i個結(jié)點(diǎn)進(jìn)入的連接權(quán)最大,該算法判斷在不考慮其他結(jié)點(diǎn)輸入的情況下,能否使結(jié)點(diǎn)j激活。若存在這樣的結(jié)點(diǎn)j,則生成一條規(guī)則
cf
IfNodei???Nodej
其中,cf表示該條規(guī)則的置信度:
1?,若響應(yīng)函數(shù)為Sigmoid型n_??1?exp(?wjixi??j??)?i?1?n_?
cf??min(1,?wjixi??j??),若響應(yīng)函數(shù)為線性閾值函數(shù)
i?1??1,若響應(yīng)函數(shù)為階躍函數(shù)????這里,wji為輸入xi與結(jié)點(diǎn)j間的連接權(quán);?j為結(jié)點(diǎn)j的閾值;?稱為置信參數(shù),是一個小正數(shù)(0.1???0.3)。
若發(fā)現(xiàn)結(jié)點(diǎn)i足夠強(qiáng)使得結(jié)點(diǎn)j被激活,則結(jié)點(diǎn)i即被標(biāo)記,今后當(dāng)考察結(jié)點(diǎn)j時,結(jié)點(diǎn)i將不被考慮。Partial-RE算法繼續(xù)檢查剩余的正連接權(quán),直到發(fā)現(xiàn)一個帶正連接權(quán)的結(jié)點(diǎn)不能單獨(dú)激活結(jié)點(diǎn)j時為止。
必須注意:Partial-RE算法假定所有的輸入均有相同的取值范圍,這樣它們對隱層結(jié)點(diǎn)的影響僅由權(quán)值決定。因此,必須對原始輸入變量先進(jìn)行量化:
zi?_1.0x?u1.0?exp(?(i2i))2?i
其中,zi是原始輸入變量xi經(jīng)量化后的值;?i為輸入X的標(biāo)準(zhǔn)均方差,ui是X的均值。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
此外,該算法還尋找負(fù)權(quán)結(jié)點(diǎn),在激活時,則產(chǎn)生如下規(guī)則:
IfcfNotNodeg???Nodej
不僅如此,該算法還尋找正權(quán)和負(fù)權(quán)的組合,并激活隱層或輸出層結(jié)點(diǎn),則產(chǎn)生如下規(guī)則:
cf
IfNodeiAndNotNodeg???Nodej
當(dāng)所有的規(guī)則都生成后,將它們改寫成如下形式:
IfXi??icfAndXg??g???Consequentj
實(shí)驗結(jié)果表明,Partial-RE算法比較適合于規(guī)模較大的問題,因為此時提取所有規(guī)則是一個NP-完全問題,而提取一部分最重要的規(guī)則是切實(shí)可行的辦法。
(3)全部規(guī)則提取算法(Full-RE)
Full-RE算法與Partial-RE算法相比,它可以從連續(xù)輸入、歸一化輸入及二值化輸入等各種神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,具有較好的普適性。
對每個隱層結(jié)點(diǎn)j,F(xiàn)ull-RE算法首先生成以下中間規(guī)則:
cf
If(?wjiXi??j??)???Consequentj
_由于存在一組Xi滿足中間規(guī)則,這樣就必須知道Xi的取值范圍。每個輸入特征Xi?(ai,bi)可以用k個小區(qū)間來離散化為
Di?{di,0?ai,di,1,?,di,k?1,di,k?bi}
當(dāng)Full-RE算法發(fā)現(xiàn)離散化存在多組解時,它將根據(jù)連接權(quán)的符號選擇Xi的最大或最小離散化值。若wji是負(fù)的,則Full-RE算法選擇Xi的最大離散化值,否則選擇Xi的最小離散化值。離散化后形成下列線性規(guī)化問題:
Minimizewj1D1?wj2D2???wjnDn 使得
____
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
___
wj1D1?wj2D2???wjnDn??j?? 且Di?{di,0?ai,di,1,?,di,k?1,di,k?bi},1?i?n。
可以用任何一種求解線性規(guī)劃問題的工具來求解該線性規(guī)劃問題,從而得到X的取值范圍。假設(shè)一個可行解為x1?e1和x2?e2,從輸入X1和X2到結(jié)點(diǎn)j的連接權(quán)分別是正數(shù)和負(fù)數(shù),則Full-RE算法如下規(guī)則:
IfX1?e1cfAndX2?e2???hj
其中,ai?ei?bi。隱層和輸出層間提取的規(guī)則可以表示為
cf
Ifh1Andh2???Ok
Full-RE算法將中間規(guī)則和隱層與輸出層間提取的規(guī)則復(fù)合形成新的規(guī)則,復(fù)合的方法是對每個隱層結(jié)點(diǎn)hj,將hj替換為中間規(guī)則中后件為hj的前件,最終形成的規(guī)則的一般形式為
cf
If簡單布爾表達(dá)式[And簡單布爾表達(dá)式]*???結(jié)論j
值得注意的是,由于由Full-RE算法提取的規(guī)則中對前提條件的個數(shù)不作限制,而僅對相鄰層間規(guī)則中的前提條件個數(shù)作限制。所以,當(dāng)輸入特征是二值時,就不需要二值化過程。7.3 基于ANN的數(shù)據(jù)挖掘示例
《吳一帆,基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法.caj,長沙電力學(xué)院學(xué)
報,2002(4)》
第三篇:數(shù)據(jù)挖掘與電子商務(wù)
數(shù)據(jù)挖掘與電子商務(wù)
姓名:龔洪虎
學(xué)號:X2009230111
[摘 要] 企業(yè)的競爭優(yōu)勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢為競爭優(yōu)勢,是企業(yè)制勝于市場的一個法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
一、電子商務(wù)和數(shù)據(jù)挖掘簡介。
電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時也叫知識發(fā)現(xiàn)的過程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計算機(jī)語言、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個不同領(lǐng)域和階段。
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個②
記錄都賦予一個類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其他數(shù)據(jù)庫中的記錄進(jìn)行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點(diǎn)就是從一個數(shù)據(jù)倉庫開始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時候不斷發(fā)現(xiàn)更好的行為模式,并將其運(yùn)用于未來的決策當(dāng)中。
三、選擇數(shù)據(jù)挖掘技術(shù)的兩個重要依據(jù)。
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個性的知識、必然和偶然的知識、獨(dú)立和關(guān)聯(lián)的知識、現(xiàn)實(shí)和預(yù)測的知識等,所有這些知識經(jīng)過分析,能對客戶的消費(fèi)行為如心理、能力、動機(jī)、需求、潛能等做出統(tǒng)計和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:
1.分類與預(yù)測方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動中,分類是一項非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中某一個,以便用于預(yù)測,也就是利用歷史數(shù)據(jù)記錄,自動推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對未來數(shù)據(jù)進(jìn)行預(yù)測。
2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個體按照相似性原則歸成若干類別。對電子商務(wù)來說,客戶聚類可以對市場細(xì)分理論提供有力的支持。市場細(xì)分的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個性化的服務(wù)。
3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過程。可采用多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動中,采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,他針對的是電子商務(wù)活動中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大,可把匯集操作結(jié)果預(yù)先計算并存儲起來,以便用于決策支持系統(tǒng)使用。
4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲大量的售貨數(shù)據(jù)和客戶資料,對這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購買行為,幫助管理者規(guī)劃市場,確定商品的種類、價格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對象在統(tǒng)計意義上的需滿足的最低程度,如電子商務(wù)活動中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實(shí)用,因為研究對象存在一種層次關(guān)系,如面包、蛋糕屬西點(diǎn)類,而西點(diǎn)又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關(guān)鍵。基于數(shù)據(jù)挖掘技術(shù),實(shí)時、全面、準(zhǔn)確地掌握企業(yè)資源信息,通過分析歷史的財務(wù)數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫存、提高庫存周轉(zhuǎn)率、提高資金使用率等。通過對Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準(zhǔn)確地把握市場動態(tài),極大地提高企業(yè)對市場變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。
例如:美國運(yùn)通公司(American Express)有一個用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過對這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運(yùn)通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營的重要課題。基于數(shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開展客戶行為的分析與預(yù)測,對客戶進(jìn)行分類。有助于客戶盈利能力分析,尋找潛在的有價值的客戶,開展個性化服務(wù),提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習(xí)慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計,推出滿足不同客戶的個性化網(wǎng)頁。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時間有可能購買該種商品, 以及什么樣的人會購買什么型號的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時,在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評價市場性能,制定個性化營銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過呼叫中心優(yōu)化與客戶溝通的渠道,提高對客戶的響應(yīng)效率和服務(wù)質(zhì)量,促
①進(jìn)客戶關(guān)系管理的自動化和智能化。
三、結(jié)束語
電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢,促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應(yīng)用前景。
參考文獻(xiàn):
(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》 鐘連福;
(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國電子商務(wù)研究中心;
(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務(wù)發(fā)展研究報告》北京郵電大學(xué)出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴(yán)瑜筱。①
第四篇:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得.
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得
通過數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的這門課的學(xué)習(xí),掌握了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的一些基礎(chǔ)知識和基本概念,了解了數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。下面談?wù)勎覍?shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得以及閱讀相關(guān)方面的論文的學(xué)習(xí)體會。
《淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個主題對應(yīng)一個客觀分析的領(lǐng)域,他可為輔助決策集成多個部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)極少更新的。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時間一般為5年至10年,主要用于進(jìn)行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大。
數(shù)據(jù)倉庫的特點(diǎn)如下:
1、數(shù)據(jù)倉庫是面向主題的;
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,它在商業(yè)領(lǐng)域取得了巨大的成功。
作為一個系統(tǒng),數(shù)據(jù)倉庫至少包括3個基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲和管理;信息訪問。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術(shù)上來說是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識的過程。
數(shù)據(jù)開采技術(shù)的目標(biāo)是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘的主要任務(wù)有廣義知識;分類和預(yù)測;關(guān)聯(lián)分析;聚類。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在金融信息化中的應(yīng)用》論文主要通過介紹數(shù)據(jù)額倉庫與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應(yīng)用。在金融信息化的應(yīng)用方面,金融機(jī)構(gòu)利用信息技術(shù)從過去積累的、海量的、以不同形式存儲的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對它們進(jìn)行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢預(yù)測,找出對決策有價值的信息,以防范銀行的經(jīng)營風(fēng)險、實(shí)現(xiàn)銀行科技管理及銀行科學(xué)決策。
現(xiàn)在銀行信息化正在以業(yè)務(wù)為中心向客戶為中心轉(zhuǎn)變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎(chǔ)上向以客為中心的方向轉(zhuǎn)變。銀行信息化要適應(yīng)競爭環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術(shù)對傳統(tǒng)過程進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)信息共享、資源整合綜合利用,把銀行的各項作用統(tǒng)一起來,優(yōu)勢互補(bǔ)統(tǒng)一調(diào)配各種資源,為銀行的客戶開發(fā)、服務(wù)、綜理財、管理、風(fēng)險防范創(chuàng)立堅實(shí)的基礎(chǔ),從而適應(yīng)日益發(fā)展的數(shù)據(jù)技術(shù)需要,全面提高銀行競爭力,為金融創(chuàng)新和提高市場反映能力服務(wù)。沃爾瑪利用信息技術(shù)建設(shè)的數(shù)據(jù)倉庫,在1997年圣誕節(jié)進(jìn)行市場技術(shù)建立的數(shù)據(jù)倉庫,即分析顧客最可能一起購買那些商品,結(jié)果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉庫系統(tǒng)
第五篇:數(shù)據(jù)挖掘與分析心得體會
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時代大步跨入信息時代的歷程中做出貢獻(xiàn)。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為:“從數(shù)據(jù)中挖掘知識”,不過后者顯得過長了些。而“挖掘”一詞確是生動形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示六個步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個步:
1、探索性數(shù)據(jù)分析:當(dāng)數(shù)據(jù)剛?cè)〉脮r,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個壽命周期,包括從市場調(diào)研到售后服務(wù)和最終處置的各個過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對目標(biāo)應(yīng)用有意義的模式和知識。或者可以說:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個信息迅速膨脹的時代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的的模式下,并且通常駐留在單個站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機(jī)分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。
時變的:數(shù)據(jù)存儲從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點(diǎn)算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。基于網(wǎng)格的方法:STING(統(tǒng)計信息網(wǎng)格),CLIQUE
6、廣泛應(yīng)用
作為一個應(yīng)用驅(qū)動的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學(xué),衛(wèi)生保健信息學(xué),金融,數(shù)字圖書館和數(shù)字政府等。
7、學(xué)習(xí)總結(jié)
數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當(dāng)中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因為數(shù)據(jù)挖掘的發(fā)展會有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。
對于數(shù)據(jù)挖掘的學(xué)習(xí),還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識。包括統(tǒng)計學(xué)、概率論,機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個繁復(fù)的過程,需要我們長此以往的研究!