第一篇:數據挖掘關聯規則實驗報告
實驗七
關聯規則
1.實驗目標
? 使用SSAS進行關聯規則挖掘實驗
2.實驗要求
(1)按“實驗內容”完成操作,并記錄實驗步驟;
(2)回答“問題討論”中的思考題,并寫出本次實驗的心得體會;(3)完成實驗報告。
3.實驗內容
生成市場籃方案。Adventure Works 的市場部希望改進公司的網站以促進越區銷售。在更新網站之前,需要根據客戶的在線購物籃中已有的其他產品創建一個可預測客戶購買需求的數據挖掘模型。這些預測還有助于市場部將可能被集中購買的項統一放置在網站的一個位置上。通過實驗,創建關聯規則模型,可預測可能出現在購物籃中的其他項或客戶想要放入購物籃的項。
4.實驗步驟
(1)創建市場籃挖掘模型結構
1.在 Business Intelligence Development Studio 的解決方案資源管理器中,右鍵單擊“挖掘結構”,再選擇“新建挖掘結構”。此時,系統將打開數據挖掘向導。
2.在“歡迎使用數據挖掘向導”頁上,單擊“下一步”。
3.在“選擇定義方法”頁上,確保已選中“從現有關系數據庫或數據倉庫”,再單擊“下一步”。4.在“選擇數據挖掘技術”頁的“您要使用何種數據挖掘技術?”下,選中“Microsoft 關聯規則”,再單擊“下一步”。
“選擇數據源視圖”頁隨即顯示。默認情況下,“可用數據源視圖”下的 Adventure Works DW 為選中狀態。
5.單擊“下一步”。
6.在“指定表類型”頁上,選中 vAssocSeqOrders 表旁的“事例”復選框,選中
vAssocSeqLineItems 表旁邊的“嵌套”復選框,再單擊“下一步”(注意先在視圖中建立兩個表之間的關聯)。
7.在“指定定型數據”頁上,依次清除 CustomerKey 旁邊的“鍵”復選框和 LineNumber
旁邊的“鍵”和“輸入”復選框。
8.選中 Model 列旁邊的“鍵”和“可預測”復選框。然后,系統也將自動選中“輸入”復選框。
9.單擊“下一步”。
10.在“指定列的內容和數據類型”頁上,單擊“下一步”。11.在“完成向導”頁的“挖掘結構名稱”中,鍵入 Association。12.在“挖掘模型名稱”中,鍵入 Association,再單擊“完成”。
(2)調整關聯模型的參數和處理關聯模型
在處理上一個任務中與“關聯”挖掘結構一起創建的初始挖掘模型之前,必須更改以下兩個參數的默認值:Support 和 Probability。Support 定義規則被視為有效前必須存在的事例百分比。Probability 定義關聯被視為有效前必須存在的可能性。
調整關聯模型的參數步驟如下:
1.打開數據挖掘設計器的“挖掘模型”選項卡。
2.右鍵單擊設計器網格中的“關聯”列,然后選擇“設置算法參數”。
系統將打開“算法參數”對話框。
3.在“算法參數”對話框的“值”列中,設置以下參數:
MINIMUM_PROBABILITY = 0.1 MINIMUM_SUPPORT = 0.01 4.單擊“確定”。
處理關聯模型步驟如下:
1.在 Business Intelligence Development Studio 的“挖掘模型”菜單上,選擇“處理挖掘結構和所有模型”。
系統將打開“處理挖掘結構關聯”對話框中,單擊“關閉”。
(3)瀏覽市場籃模型
使用數據挖掘設計器的“挖掘模型查看器”選項卡中的 Microsoft 關聯查看器瀏覽該模型。瀏覽模型時,可以輕松地查看可能同時出現的產品,并可瀏覽項之間的關系。還可以篩選出較弱的關聯,并對新浮現的模式有一個總體的概念。
Microsoft 關聯查看器包含三個選項卡:“項集”、“規則”和“依賴關系網絡”。
“項集”選項卡
“項集”選項卡顯示與 Microsoft 關聯算法發現的項集相關的三種重要信息:支持度(發生項集的事務的數量)、大小(項集中項的數量)以及項集的實際構成。根據算法參數的設置方式,算法可以生成大量的項集。使用“項集”選項卡頂部的控件,可以篩選查看器,使其僅顯示包含指定的最小支持度和項集大小的項集。
也可以使用“篩選項集”框來篩選查看器中顯示的項集。例如,若要僅查看包含有關 Mountain-200 自行車信息的項集,可在“篩選項集”中輸入 Mountain-200。您將在查看器中看到,只有包含“Mountain-200”字樣的項集被顯示。查看器中返回的每個項集都包含有關銷售 Mountain-200 自行車事務的信息。例如,在“支持度”列中包含值 710 的項集表示:在所有事務中,710 個購買 Mountain-200 自行車的人也購買了 Sport-100 自行車。
“規則”選項卡
“規則”選項卡顯示與算法發現的規則相關的以下信息。? ? 概率 規則發生的可能性。
重要性 用于度量規則的有用性,值越高則意味著規則越有用。只看概率可能會產生誤解。例如,如果每個事務都包含一個 x 項,規則 y 預測 x 發生的概率為 1,即 x 一定會發生。即使規則的準確性很高,但這并未傳達很多信息,因為不管 y 如何,每個事務都會包含 x。? 規則 規則的定義。
像使用“項集”選項卡一樣,可以篩選規則,以便僅顯示最關心的規則。例如,如果只想查看包含 Mountain-200 自行車的規則,可在“篩選規則”框中輸入 Mountain-200。查看器將僅顯示包含“Mountain-200”字樣的規則。每條規則都可以根據事務中其他項的發生情況來預測某個項的發生情況。例如,由第一個規則可知:如果一個人購買了 Mountain-200 自行車和水壺,則此人還會購買 Mountain 水壺套的概率為 1。
“相關性網絡”選項卡
使用“相關性網絡”選項卡,可以研究模型中不同項的交互。查看器中的每個節點表示一個項;例如,Mountain-200 = Existing 節點表示事務中存在 Mountain-200。通過選擇節點,可以使用選項卡底部的彩色圖例來確定模型中的項與其他的項的相互確定關系。
滑塊與規則的概率關聯。上下移動滑塊可以篩選出弱關聯。例如,在“顯示”框中,選擇“僅顯示屬性名稱”,再單擊 Mountain Bottle Cage 節點。查看器顯示,Mountain 水壺套預測了水壺和 Mountain-200 自行車,而水壺和 Mountain-200 自行車也預測了 Mountain 水壺套。這意味著,這些項有可能同時在事務中出現。也就是說,如果某個客戶購買了自行車,則他也可能會購買水壺套和水壺。
5.實驗結果及問題討論
(1)根據實驗結果給出市場部統一放置在網站的一個位置上的可能被集中購買的項的建議。通過項集與規則圖,我們可以看出各商品之間的關聯程度,及這種關聯程度的可信度,通過綜合來達到相關聯商品的相互促銷
通過點擊依賴關系網絡圖中的各項,觀察其周圍與之相關的其他項的數量,數量越多。說明此項影響其他銷售的項目越多,我們就可對此項進行促銷,還可將相互影響的物品放在
一起,形成相互促銷。(2)寫出自己對關聯規則的理解。
對于那些很難直接看出關系的各項交易,我們可以通過查詢其交易的相關性,即購買此種產品會連帶購買另一產品的概率,來發現其隱藏的關系,從而通過產品位置的調整或相互促銷,來提高銷售量
第二篇:數據挖掘實驗報告
大數據理論與技術讀書報告
—--— -K 最近鄰分類算法 指導老師 :
陳 莉
學生姓名
:
李陽帆
學 學
號 號
:
:
201531 46 7
專 專
業 :
計算機技術
日
期
:
:
20 16年 8月 月 31 日
摘 摘要
數據挖掘就是機器學習領域內廣泛研究得知識領域,就是將人工智能技術與數據庫技術緊密結合, 讓計算機幫助人 們從龐大得數據中智能地、自動地提取出有價值得知識模式,以滿足人們不同應用得需要。
K K近鄰算法(KNN)就是基于統計得分類方法,就是大數據理論與分析得分類算法中比較常用得一種方法。該算法具有直觀、無需先驗統計知識、無師學習等特點,目前已經成為數據挖掘技術得理論與應用研究方法之一。本文主要研究了 K K
近鄰分類算法, 首先簡要地介了 紹了數據挖掘中得各種分類算法,詳細地闡述了 K近鄰算法得基本在 原理與應用領域,最后在 mat lab 環境里仿真實現,并對實驗結果進行分析,提出了改進得方法。
關鍵詞:K
近鄰,聚類算法,權重,復雜度,準確度
1、、引言......................................................................................0 2、、義 研究目得與意義誤錯? 錯誤!未定義書簽。
3、、算法想 思想誤錯? 錯誤!未定義書簽。
4、、現 算法實現 1?4、1
置 參數設置誤錯? 錯誤!未定義書簽。
4、2 集 數據集 1?4驟、3實驗步驟誤錯? 錯誤!未定義書簽。、4 析 實驗結果與分析誤錯? 錯誤!未定義書簽。
5、、思 總結與反思誤錯? 錯誤!未定義書簽。
附件1 1誤錯? 錯誤!未定義書簽。
1、、引言 隨著數據庫技術得飛速發展,人工智能領域得一個分支—— 機器學習得研究自 20 世紀 50 年代開始以來也取得了很大進展。用數據庫管理系統來存儲數據,用機器學習得方法來分析數據,挖掘大量數據背后得知識,這兩者得結合促成了數據庫中得知識發現(Knowledge Discovery in Databases,簡記 KDD)得產生,也稱作數據挖掘(Data Ming,簡記 DM)。
數據挖掘就是信息技術自然演化得結果。信息技術得發展大致可以描述為如下得過程:初期得就是簡單得數據收集與數據庫得構造;后來發展到對數據得管理,包括:數據存儲、檢索以及數據庫事務處理;再后來發展到對數據得分析與理解,這時候出現了數據倉庫技術與數據挖掘技術。數據挖掘就是涉及數據庫與人工智能等學科得一門當前相當活躍得研究領域。
數據挖掘就是機器學習領域內廣泛研究得知識領域,就是將人工智能技術與數據庫技術緊密結合,讓計算機幫助人們從龐大得數據中智能地、自動地抽取出有價值得知識模式,以滿足人們不同應用得需要[1].目前,數據挖掘已經成為一個具有迫切實現需要得很有前途得熱點研究課題。
2、、研究目得與意義 近鄰方法就是在一組歷史數據記錄中尋找一個或者若干個與當前記錄最相似得歷史紀錄得已知特征值來預測當前記錄得未知或遺失特征值[14]。近鄰方法就是數據挖掘分類算法中比較常用得一種方法。K近鄰算法(簡稱 KNN)就是基于統計得分類方法[15]。KNN 分類算法根據待識樣本在特征空間中 K 個最近鄰樣本中得多數樣本得類別來進行分類,因此具有直觀、無需先驗統計知識、無師學習等特點,從而成為非參數分類得一種重要方法。
大多數分類方法就是基于向量空間模型得。當前在分類方法中,對任意兩個向量:
x=與存在 3 種最通用得距離度量:歐氏距離、余弦距離[16]與內積[17]。有兩種常用得分類策略:一種就是計算待分類向量到所有訓練集中得向量間得距離:如 K近鄰選擇 K 個距離最小得向量然后進行綜合,以決定其類別。另一種就是用訓練集中得向量構成類別向量,僅計算待分類向量到所有類別向量得距離,選擇一個距離最小得類別向量決定類別得歸屬。很明顯,距離計算在分類中起關鍵作用。由于以上 3 種距離度量不涉及向量得特征之間得關系,這使得距離得計算不精確,從而影響分類得效果。
3、、算法 思想 K 最近鄰(K-Nearest Neighbor,KNN)算法,就是著名得模式識別統計學方法,在機器學習分類算法中占有相當大得地位.它就是一個理論上比較成熟得方法。既就是最簡單得機器學習算法之一,也就是基于實例得學習方法中最基本得,又就是最好得文本分類算法之一.其基本思想就是:假設每一個類包含多個樣本數據,而且每個數據都有一個唯一得類標記表示這些樣本就是屬于哪一個分類,KNN就就是計算每個樣本數據到待分類數據得距離,如果一個樣本在特征空間中得 k 個最相似(即特征空間中最鄰近)得樣本中得大多數屬于某一個類別,則該樣本也屬于這個類別。該方法在定類決策上只依據最鄰近得一個或者幾個樣本得類別來決定待分樣本所屬得類別.K—最臨近分類方法存放所有得訓練樣本,在接受待分類得新樣本之前不需構造模型,并且直到新得(未標記得)樣本需要分類時才建立分類.K-最臨近分類基于類比學習,其訓練樣本由N維數值屬性描述,每個樣本代表 N 維空間得一個點。這樣,所有訓練樣本都存放在 N維模式空間中.給定一個未知樣本,k—最臨近分類法搜索模式空間,找出最接近未知樣本得K 個訓練樣本。這 K 個訓練樣本就是未知樣本得 K 個“近鄰”.“臨近性”又稱為相異度(Dissimilarity),由歐幾里德距離定義,其中兩個點 X(x 1,x 2 ,?x n)與 Y(y 1 ,y 2,?yn)得歐幾里德距離就是:
未知樣本被分配到K個最臨近者中最公共得類.在最簡單得情況下,也就就是當K=1時,未知樣本被指定到模式空間中與之最臨近得訓練樣本得類.4、、算法實現 4、、1 1 參數設置 K 值得設定 K 值設置過小會降低分類精度;若設置過大,且測試樣本屬于訓練集中包含數據較少得類,則會增加噪聲,降低分類效果。通常,K值得設定采用交叉檢驗得方式(以 K=1為基準),通過查找相關資料,K一般低于訓練樣本數得平方根,本實驗中得訓練樣本數為 100個,因此選取 k=7。、2 數據集 本文得實驗數據采用軟木塞得數據集,軟木塞得樣本可分為三類,分別用1,2,3代表,共 150 個樣本,我們選取其中得 100 個樣本為訓練集,其余得 50 個樣本為測試集。每個樣本均包含10 維特征,由于用 10 維特征計算量太大,本實驗得目得主要就是明白 K-最近鄰算法得思想,重點不在計算,因此我們選取其中得兩個屬性作為
本實驗得數據,實驗數據得部分截圖如圖 1 所示。
圖 1、部分實驗數據、3 實驗步驟 第一步,初始化距離為最大值。
第二步,計算未知樣本與每個訓練樣本得距離 dist。
第三步,得到目前 K 個最臨近樣本中得最大距離 maxdist。
第四步,如果dist小于 maxdist,則將該訓練樣本作為 K-最近鄰樣本.第五步,重復步驟 2、3、4,直到未知樣本與所有訓練樣本得距離都算完.第六步,統計K—最近鄰樣本中每個類標號出現得次數。
第七步,選擇出現頻率最大得類標號作為未知樣本得類標號。、4 實驗結果與分析 按照上述實驗步驟,在matlab中仿真實現k-近鄰分類算法得結果如下圖2所示,圖中得第一列數據表示樣本編號,第二列與第三列表示軟如塞數據得兩位特征得值,第三列得數字表示本實驗得分類結果圖,第四列表示樣本實際所屬類別。
圖 3 中列出了詳細錯誤信息.第一行與第一列表示樣本類別,第 i 行第 j 列得元素表示第 i類樣本被分為第 j 類樣本得個數(2≤i,j≤4),第五列表示每類樣本分類錯誤總數,第六列表示錯誤率。由圖中數據易得,本實驗得平均正確率為 86、7%。
圖 2、7—最近鄰分類結果圖
圖 3、錯誤統計圖
KNN 方法雖然從原理上也依賴于極限定理,但在類別決策時,只與極少量得相鄰樣本有關。因此,采用這種方法可以較好地避免樣本得不平衡問題。另外,由于 KNN方法主要靠周圍有限得鄰近得樣本,而不就是靠判別類域得方法來確定所屬類別得,因此對于類域得交叉或重疊較多得待分樣本集來說,KNN 方法較其她方法更為適合。
該方法得不足之處就是計算量較大,因為對每一個待分類得文本都要計算它到全體已知樣本得距離,才能求得它得 K個最近鄰點.目前常用得解決方法就是事先對已知樣本點進行剪輯,事先去除對分類作用不大得樣本。該算法比較適用于樣本容量比較大得類域得自動分類,而那些樣本容量較小得類域采用這種算法比較容易產生誤分。
5、、總結與反思 模式分類在現實領域有著非常廣泛得應用。
K近鄰算法就是模式分類算法中一類常用得算法。本文針對傳統得 KNN 算法得不足之處,提出了兩點改進措施。
1、針對 KNN 算法得計算量大、速度慢得缺點,對訓練數據采用了預處理得方法.首先采用某一聚類方法對訓練數據進行分類,然后再與 K近鄰方法相結合來判斷待測樣本得類別。現有得方法都就是經過聚類之后確定類別,按一定得規則挑選出來具有代表性得數據。然后再將這些挑選出來得數據作為訓練樣本.但這類方法能去除得數據非常有限,因此對計算量大得改進不大,而本文提出得新得算法:在聚類之后,首先計算出來各個類別得中心,然后只需要考慮待測樣本與聚類中心得距離就可以.然后再根據最終得到得距離得大小判斷該點所屬得類別。通過實例驗證表明,該方法在算法得時間復雜度方面有一定得改進。
2、關于準確度得問題,我們主要就是舍棄了原來常用得歐式距離得計算公式,主要考慮了屬性對分類得影響,在歐式距離得計算中引入了權值.盡管權值得確定在一定程度上增加了計算時間得代價,但就是從改進分類準確率上來說仍然就是必要得,尤其就是在數據中無關屬性比較多,傳統得分類算法誤差較大得情況下學習特征權值尤其適用。權值得確定也已經有了不少得方法,如可以通過神經網絡來確定權值等。本文從訓練樣本出發,逐一統計計算每一個屬性對分類結果得影響,根據影響得大小來確定權值。通過實例驗證,可知這種方法得到得權值與其她常用得方法相比,在分類準確度方面有一定得提高。
參考文獻
[ [1 1] ] 鄧箴, , 包宏、用模擬退火改進得
KNN 分類算法 [J ]。計算機與應用化學,2 010,27(3)
:3 03--307.[2 2 ]郭躬德,黃杰,陳黎飛、基于
K NN
模型得增量學習算法 [J ]。模式識別與人工智能,20 10 ,23(5):70 1-7 7 07。
[ 3 ]黃杰,郭躬德,陳黎飛、增量
K K N N 模型得修剪策略研究[J J ].小型微型計算機系統,201 1, , 5(5):
5- 849.[ [ 4] ] 李歡,焦建民.簡化得粒子群優化快速
KNN 分類算法[J J ]。計算機工程與應用,2 008,4 4(3 2)):
57--5 5 9。
[ [5 5 ]王曉曄, , 王正歐.K -最近鄰分類技術得改進算法[J J ]。電子與信息學報,2005,27 7(3):4 87 7 — 49 1.
[ 6 ] Gu o
Gongde, W ang Hui, Be ll
D D,e t al.U sin g K NN model for aut t o ma ti i c
tex t
ca t egori za a t ion [ J ]、Soft
putin g — A F u sion o f
F F oun dat i on, M e thodo lo gi es
and d
A pplicatio n,200 6, ,1 1 0(5):42 2 3--430.[ [7 7 ]余小鵬,周德翼。一種自適應k-最近鄰算法得研究 [J].,計算機應用研究,2006(2): 7 70 0 -7 7 2。
附件 1:
源代碼
KNN、m
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %
KNN、m
K-最近鄰分類算法 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% A=x ls rea d('E : 上課\機器學習模式識別課件 數據\COR K_ STOPPEx RS、xls",2); f=zer os(150,5); f f(:, 1:2)=A(1 :150, 3:4); f1 =A(1 :50,3 :4); f2= A(51:100,3 :4);f3= A(101:15 0, 3:4);c cl s= zero s(1 50,10);o for
i= 1:150
for j =1:1 50
c ls(i,j)=norm(f(i,1:2)-f(j,1 :2));
end end % 對計算出得每個樣本與其她 150 個樣本(包括自己)得距離排序,選 K=10 arr ay= zeros(300,11); f or ii =1:150
[val ue,inde x]=sort(cl s(i i, :));
arra y(2 *ii— 1,:)=val ue(1: 11);
a rray(2 *ii, :)=in dex(1 :1 1); end 類 %對每個樣本分類 fo r ii= 1:150
a11=length(f ind(array(2 *i i,:)〈50));
a12=l ength(f ind(arr ay(2*ii,:)〉50 &a rr ay(2*i i,:)〈100)); ;
a13=len gth(find(a rray(2 *ii,:)〉1 00 &array(2 *i i,:)<15)
0));
if(max(max(a11,a12),a13)==a11)
f(ii,3)=1;
else if(max(max(a11,a12),a1 3)==a12)
f(ii,3)=2;
els e
f(i i,3)=3 ;
end
en d
end % 錯誤計算 e rro r=ze ro s(3,5);for
i=1 :50
if(f(i,3)= =2)
error(1,2)= error(1,2)+1 ;
end
if(f(i,3)==3)
err or(1,3)= erro r(1,3)+1 ;
end
if(f(5 0+i,3)==1)
er ror(2,1)=erro r(2,1)+ 1;
end
if(f(5 0+i, 3)==3)
err or(2,3)=e rror(2,3)+1 ;
en d
if(f(100+ i,3)==1)
error(3,1)= erro r(3,1)+1;
end
i f(f(100+i, 3)== 2)
er ror(3,2)=er ro r(3,2)+ 1;
end
e nd for
k =1:3 %D 第四列表示錯誤數 err or(k,4)=err or(k,1)+err or(k,2)+e rro r(k,3);error(k,5)=err or(k,4)/50 ; en d
第三篇:數據倉庫與數據挖掘實驗報告,演示范文
《數據挖掘》大作業
院(系)名稱:信 息 技 術 學 院 專
業 年 級:11 級網絡工程(物聯網方向)
學
號:111124092 學 生
姓 名:朱
玉
jxjk 目錄 目錄.....................................................................................................................................I 第 1 章 數據倉庫和數據挖掘簡介......................................................................................1 1.1 數據簡介.............................................................................................................................................1 1.2 數據挖掘技術.....................................................................................................................................1 第 2 章 創建數據倉庫..........................................................................................................2 2.1 數據....................................................................................................................................................2 2.1.1 數據屬性結構........................................................................................................................................2 2.1.2 數據庫的相關處理................................................................................................................................3 2.1.3 實驗的開發平臺....................................................................................................................................3 2.2 數據庫的結構模塊簡介....................................................................................................................3 第 3 章 數據挖掘過程..........................................................................................................3 3.1 關聯規則............................................................................................................................................3 3.1.1 關聯規則挖掘過程圖解.........................................................................................................................3 3.1.2 決策樹挖掘過程圖解...........................................................................................................................24 3.1.3 聚類分析挖掘過程圖解.......................................................................................................................26 3.2 數據集挖掘結果..............................................................................................................................28 3.2.1 超市交易關聯規則的挖掘結果...........................................................................................................28 3.2.2 影響小學生自控能力調查數據集決策樹的挖掘結果.......................................................................31 3.2.3 影響小學生自控能力因素調查數據集聚類分析的挖掘結果............................................................33 第四章 數據倉庫和數據挖掘總結....................................................................................38 4.1 關聯規則總結...................................................................................................................................38 4.2 決策樹總結.......................................................................................................................................38 4.3 聚類分析總結...................................................................................................................................40
jxjk 第 1 章 數據倉庫和數據挖掘簡介 1.1 數據簡介
我的數據集是由兩個不同的數據庫組成,因為做關聯規則的時候,影響小學生自控能力的因素分析調查分析數據庫,不具備關聯規則一對多的條件,因此,我用了課本上的的超市交易數據集。所以做關聯規則的超市數據集,在這里我就不多介紹了。
做決策樹,聚類分析所用的數據集影響小學生自控能力的因素分析調查分析數據庫主要父母文化程度,家庭經濟狀況,教師要求,民族,年紀,年齡,師生關系,是否單親,是否是獨生子女,興趣,性別,姓名,學號,性格,自控能力屬性組成。此表是用來調查影響小學生自控能力的因素有哪些。此數據集做決策樹的目的是,可以根據小學生的基本情況大致了解他的自控能力。此數據集做聚類分析,可以從中挖掘出小學生基本情況的分類。
1.2 數據挖掘技術 關聯規則、決策樹、聚類分析。
jxjk
第 2 章 創建數據倉庫 2.1 數據
2.1.1 數據屬性結構 如表 2-1、2-2 所示。
表 表 2 2--1 超市數據交易表
表 表 2 2--2 影響小 學生自控能力的因素分析調查表
jxjk
2.1.2 數據庫的相關處理 1.創建數據庫 2.數據集導入 3.設置主鍵 4.創建數據庫關系圖 2.1.3 實驗的開發平臺 1.實驗設備:PC 2.主要開發軟件:SQL Sever 2005 3.輔助軟件:Office
2.2 數據庫的結構模塊簡介 本數據庫有兩個數據集組成,超市交易數據集和 影響小學生自控能力的因素分析調查表兩個數據集。超市交易中有 ID 和 Items 兩個屬性;影響小學生自控能力的因素分析調查表數據集中有年級、學號、姓名、年齡、性別、民族、是否單親、是否獨生子女、父母文化程度、家庭經濟狀況、是否為班委、教師要求、師生關系、興趣、性格、自控能力等屬性。
第 3 章 數據挖掘過程 3.1 關聯規則 3.1.1 關聯規則挖掘過程圖解
1.商業智能項目創建過程圖解
jxjk
2.數據源的創建過程圖解
jxjk
jxjk
jxjk
jxjk
jxjk
3.數據源視圖創建過程圖解
jxjk
jxjk
jxjk
jxjk
4.數據集挖掘結構創建過程圖解
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
5.設置算法參數
6.處理挖掘結構過程圖解
jxjk
jxjk
3.1.2 決策樹挖掘過程圖解 決策樹的挖掘過程與關聯規則基本上相同,但有些是不同的,因此,我把不同過程的圖解在下面給出。
1.創建挖掘結構過程中挖掘數據所用的列的選項
jxjk
2.算法參數設置
jxjk
3.1.3 聚類分析挖掘過程圖解 聚類分析的挖掘過成與決策樹、關聯規則也基本上相同,因此,我把不同過程的圖解和決策樹一樣也在下面給出。
1.挖掘數據集時所用到的屬性
jxjk
2.算法參數設置
jxjk
3.2 數據集挖掘結果 3.2.1 超市交易關聯規則的挖掘結果
1.項集
jxjk
2.鉆取
3.規則
jxjk
4.依賴關系網絡
jxjk
3.2.2 影響小學生自控能力調查數據集決策樹的挖掘結果 1.決策樹
2.依賴關系網絡
jxjk
jxjk
3.2.3 影響小學生自控能力因素調查數據集聚類分析的挖掘結果
jxjk
1.分類關系圖
2.分類剖面圖
jxjk
3.分類特征
jxjk
4.分類對比
jxjk
jxjk
第四章 數據倉庫和數據挖掘總結 4.1 關聯規則總結
從超市交易數據集中能挖掘到:能夠推測到顧客買商品的時候,大概會買那些商品。比如根據下圖:
從此挖掘結果中能夠看到,顧客買 cream 也可能會買 bread。
4.2 決策樹總結
從影響小學生自控能力因素調查表數據集中能夠挖掘出:小學生的自控能力與哪些因素有關聯,關聯是否很強,或者根據小學生的基本情況大概能判斷出小學生的自控能力的傾向。比如一下幾個圖:
jxjk
從以上幾個圖片可以看出,影響小學生的自控能力的因素有興趣、父母文化程度、年級、家庭經濟情況、性別、是否是獨生子女、教師要求、是否為班委,影響小學生自控能力的最強因素
jxjk
是興趣因素,最弱的是性別。
4.3 聚類分析總結
從影響小學生自控能力因素調查表數據集中能夠挖掘出:影響小學生自控能力的調查對象中的基本分類,還有分類中的傾向。
第四篇:客戶關系管理論文:客戶關系管理 零售業 數據挖掘 關聯規則
客戶關系管理論文:基于關聯規則的零售業CRM的設計和實現
【中文摘要】隨著我國零售行業競爭日益激烈,尤其是大型超市越來越多,傳統的營銷模式已經不適應現代的新形勢了。客戶關系管理(CRM)作為一種“以客戶為核心”的支持有效市場推廣、營銷和服務過程的重要經營策略,越來越受到企業重視,有效做好客戶關系管理對于企業提升競爭力起著很重要的作用。而在客戶關系管理系統的基礎上加入數據挖掘技術,可以透過數理模式來分析商家在營銷過程中產生的大量資料,劃分出不同類型的客戶或不同的市場,分析出消費者的愛好和行為的方法,幫助商家保住原有客戶,開發新客戶,進一步提升客戶的滿意度。本文在傳統客戶關系管理系統的基礎上,整合了數據挖掘(關聯規則)及手機平臺的應用,使得系統能夠更有效地完成數據分析,更深度地挖掘潛在客戶,更及時地為使用者反饋信息。本論文從以下幾個方面進行了研究:(1)針對大型超市的工作流程,設計開發了一個大型超市零售業務的CRM,包括客戶管理和智能分析等子系統,包含有客戶資料查詢、商品銷量分析、商品銷售關聯分析和客戶消費關聯分析等等功能。(2)在客戶消費關聯分析中,使用數據挖掘中的關聯規則Apriori算法對客戶消費的商品進行了挖掘,建立了客戶消費方式模型,根據客戶選擇規...【英文摘要】With the increasingly fierce competition of China’s retail industry, especially the wide spread of large
supermarket, the traditional marketing mode cannot adapt to the new situation today.Customer Relationship Management(CRM), an important kind of management tactic, are now attached great importance to which means take the customer as the core to support effective market promotion, marketing and service process.Effecting the CRM effectively plays a very important role in enhancing enterprise’s competiti...【關鍵詞】客戶關系管理 零售業 數據挖掘 關聯規則
【英文關鍵詞】CRM Retail Industry Data mining Association rules 【索購全文】聯系Q1:138113721 Q2:139938848 【目錄】基于關聯規則的零售業CRM的設計和實現6-71113-1614-16ABSTRACT7-8
第1章 緒論11-17
摘要1.1 引論1.2 系統開發背景11-131.3.1 國外現況13-14
1.3 國內外研究狀況1.3.2 國內現況
第2章 客戶1.4 本文的內容和組織結構16-17關系管理與數據挖掘理論17-2517-19
2.1 客戶關系管理
2.1.2 2.1.1 客戶關系管理的基本內涵17-18零售業客戶關系管理的特點18-1919-212.2.1 數據挖掘的定義19
2.2 數據挖掘技術
2.2.2 數據挖掘與知
2.3 基于識發現19-202.2.3 數據挖掘的方法20-21關聯規則的數據挖掘21-242.3.1 關聯規則的概述
21-2224-252.3.2 關聯規則挖掘22-242.4 本章小結
3.1 3.1.2 3.2.1 第3章 零售業CRM系統的分析與設計25-47
3.1.1 功能性需求分析25-26
3.2 總體設計27-36需求分析25-27非功能性需求分析26-27設計思想27-31框架結構33-35臺的選擇36-3936-37
3.2.2 算法模型31-333.2.4 業務數據流35-363.3.1 ADO.NET開發技術
3.2.3 系統的3.3 開發平3.3.2.NET Framework開發技術37-39
3.4.1 操作型數據與分析型數據
3.4 數據設計39-4539-413.4.2 數據庫設計41-453.5 零售業CRM系統
第4章 零售
4.2 4.4 進4.6 系功能模塊設計45-46業CRM系統的實現47-58短信平臺模塊49-50銷存管理模塊54-55統管理模塊57望58-6059-60項目63-64
3.6 本章小結46-47
4.1 客戶管理模塊47-494.3 智能分析模塊50-544.5 報表打印模塊55-57
4.7 本章小結57-58第5章 總結與展5.1 總結58-59參考文獻60-63
致謝64
5.2 今后工作展望攻讀碩士學位期間參加的科研
第五篇:《時間序列數據分析挖掘》課程實驗報告模板
《時間序列數據分析挖掘》
課程實驗報告
實驗名稱: | |
姓 名: | |
學 號: | |
上課類型: | 平臺課/專業課 |
日 期: |
一、實驗內容
實驗內容包含要進行什么實驗,實驗的目的是什么,實驗用到的算法及其原理的簡單介紹。
1.1實驗
1.2實驗
1.3實驗
二、實驗設計
若實驗內容皆為指定內容,則此部分則可省略;若實驗內容包括自主設計模型等內容,則需要在此部分寫明設計思路、流程,并畫出模型圖并使用相應的文字進行描述。
三、實驗環境及實驗數據集
簡單介紹實驗環境和涉及的數據集
四、實驗過程
實驗過程包括在編寫代碼時一些需要注意的事項,可附代碼片段進行說明;還應該包括在訓練模型時進行的一些步驟、參數設置等內容。
注:為了代碼片段盡量的美觀、統一,建議附代碼片段時只附加關鍵的片段,不要全部粘貼,并盡量使用下面提供的網站進行代碼高亮等格式轉換后再粘貼。
http://www.planetb.ca/syntax-highlight-word
4.1實驗
4.2實驗
4.3實驗
五、實驗結果
實驗結果包括程序運行結果以及對結果的分析,盡量用圖表展示實驗結果,并且通過結果進行相關的分析。
5.1結果
5.2結果
5.3結果
六、實驗心得體會
這部分主要包含自己做實驗過程中遇到的困難以及解決辦法,通過做實驗自己有哪些收獲和體會,以及不足等等。
七、參考文獻
參考文獻主要包含實驗過程中涉及到的參考資料或者借鑒別人的材料等,如果沒有可以不寫。
八、附錄
需要補充說明的內容,如無可略。
實驗報告編寫要求
1.正文要求小四號宋體,行間距1.5倍;
2.英文要求小四號Times New Roman;
3.在實驗內容、實驗過程、實驗結果三部分需要針對當次實驗不同的實驗內容分別填寫(模版以實驗一為例),實驗設計中如有必要也可以分開填寫;
4.實驗報告配圖的每幅圖應有編號和標題,編號和標題應位于圖下方處,居中,中文用五號宋體;
5.表格應為三線表,每個表格應有編號和標題,編號和標題應寫在表格上方正中,距正文段前0.5倍行距。表格中量與單位之間用“/”分隔,編號與標題中的中文用五號宋體;
6.圖、表、公式、算式等,一律用阿拉伯數字分別依序連續編排序號。其標注形式應便于互相區別,可分別為:圖1、表2、公式(5)等。