第一篇:數(shù)據(jù)挖掘 二手車評估與預測
二手車的評估與預測
摘 要:面對著中國汽車行業(yè)未來的龐大市場和二手車市的放寬政策和對新機動車輛上牌管制的限制,在二手車發(fā)展興盛的今天,二手車市場將要迎來新一輪的發(fā)展機遇和挑戰(zhàn),機遇是二手車在中國未來的汽車行業(yè)發(fā)展地位的日趨重要性,另一發(fā)面也提出了新的要求,這迫使二手車行業(yè)不得不整理出一套新的鑒定評估二手車的技術,這套技術足以有效制定出該二手車的實際現(xiàn)存的價值和合理的價格,合理的價格也是推動市場穩(wěn)步發(fā)展的導向。正確的二手車鑒定技術能夠使二手車行業(yè)更穩(wěn)健的發(fā)展,而目前在二手車市場上存在著二手評估車的盲目性、二手車信息的滯后性和交易雙方信息的不對等性等突出特點,這不僅會對買二手車的人士造成經(jīng)濟上的損失,而且會讓這個行業(yè)很難走的更遠或者出現(xiàn)道德危機。這就需要二手車評估技術的推陳出新,因此二手車的評估時刻影響著以后二手車市場的發(fā)展規(guī)模和前景,而作為4S店二手車的發(fā)展更是顯而易見,其特點是客戶信賴度更高,要求的技術更加全面,對車輛的鑒定也是有一套屬于自己的方法了理論。科學的二手車鑒定與評估方法是二手車市場健康發(fā)展的前提。
關鍵詞:二手車、二手車信息、評估方法、價值、決策樹 一 二手車市場的現(xiàn)狀
從整體局勢來講我國二手車市場目前存在的問題有①鑒定評估缺乏統(tǒng)一標準;②誠信問題
(車輛檔案未實現(xiàn)數(shù)據(jù)共享,二手車交易市場不掌握車輛的檔案,消費者難以從交易市場中獲取欲購車輛的購置、使用、維修、保險理賠等檔案資料。);③售后服務不到位;④新車頻繁降價,增加了二手車的經(jīng)營風險;⑤二手車信貸的欠缺
從二手車自身的角度來講,品牌二手車目前會給傳統(tǒng)二手車市場帶來一定沖擊,這種沖擊是良性沖擊,是一種逼迫傳統(tǒng)二手車市場升級的有效方式,這源自于以下幾個因素:
一、傳統(tǒng)二手車市場名聲不好,消費者購車時對車況總是有所顧慮,事故車坑害顧客的事件時有發(fā)生,出現(xiàn)糾紛后消費者往往無人可找,相對而言品牌二手車有主機廠作保障、名聲較好,消費者也能更信得過。
二、傳統(tǒng)二手車服務理念、服務態(tài)度、服務水平較差,基本上尚未脫離簡單粗暴現(xiàn)象,眾多消費者在購車時往往容易被服務人員“嚇到”,當然近兩年來情況有所好轉,這完全得益于品牌二手車帶給人們的全新服務感受,使得傳統(tǒng)二手車經(jīng)營者不得不改善服務質量。
三、售后保障全無,消費者在傳統(tǒng)二手車市場購車,基本沒有任何售后保障,小問題不值得回來找商家,大問題商家肯定無解,而品牌認證二手車的售后質保策略則免去了眾多消費者的憂慮,二手車也可以安心。
四、收車價格較低,有過銷售二手車經(jīng)歷的人往往都知道,傳統(tǒng)二手車市場的收車商戶報價都是非常低的,眾多售車人都感覺到自己車賣的并不滿意,當前市場品牌二手車的收車價格一般都相對較高,并且品牌二手車經(jīng)營店還有4S店置換車源保障,車輛來源基本不成問題,還有一些二手車拍賣機構的不斷出現(xiàn)也從中提升了二手車的銷售價值,和品牌二手車相比,傳統(tǒng)二手車商收車難,收到好車更難。隨著市面上大量車主到了車輛更新時期,收車難的問題從2009年下半年開始變的容易了許多。
同時,隨著電子商務的飛速發(fā)展,為網(wǎng)上售車提供了現(xiàn)實基礎,目前目前已有某些品牌的4S店在網(wǎng)上進行售賣展示,信用好的二手車經(jīng)營主體開設網(wǎng)絡4S店進行網(wǎng)上售車也成為可能。
總體看來,品牌二手車現(xiàn)階段引領著傳統(tǒng)二手車市場行業(yè)不斷突破自我,探求更高模式的二手車服務理念,在這個過程中肯定會對傳統(tǒng)二手車行業(yè)造成沖擊;品牌二手車之間的競爭短時間內不會出現(xiàn),但是是可預見的事實,未來的二手車市場將出現(xiàn)傳統(tǒng)二手車、品牌二手車以及電子商務二手車三方共存的經(jīng)營場面。至于輸贏得失則各有千秋,二手車經(jīng)營領域也必將細化,不同的經(jīng)營模式滿足不同的消費主體,不同的經(jīng)營模式之間互有競爭,互有補充。
二手車的 二 二手車評級依據(jù)及目的
二手車評估工作和其他工作一樣,在評估是必須有正確科學的依據(jù),這樣才能得出正確的結論。二手車評估的依據(jù)是指評估工作所遵循和法律,法規(guī),經(jīng)濟行為文件以及其他參考資料。一般包括理論,行為依據(jù),法律依據(jù),產(chǎn)權依據(jù)和取價依據(jù)論等。
二手車評估的目的是未了正確反映二手車的價值及變動,為將要發(fā)生的經(jīng)濟行為提供公平的價值尺度,其目的的回答是為什么要對二手車進行鑒定評估。同時,他告訴二手車評估機構市場在哪里,到哪里去尋找評估業(yè)務。在二手車評估市場,二手車評估的主要目的可分為兩大類:一類為變動二手車產(chǎn)權,另一類為不變動二手車產(chǎn)權。
三 實證分析
(一)對樣本數(shù)據(jù)的說明
根據(jù)實際數(shù)據(jù)對二手車進行分析,預測怎樣的二手車的接受程度高,更有發(fā)展情景。本文所使用的數(shù)據(jù)來源于老師提供的二手車數(shù)據(jù)。解釋變量包括6個變量buying into 購買時價格、maint into 維修保養(yǎng)價格、doors into 門的數(shù)量、persons into 容納人數(shù)、safety into 汽車安全性、lug_boot into 后備箱大小和1連續(xù)變量Class into 購買時可接受程度。各變量的定義如下: buying into 購買時價格 maint into 維修保養(yǎng)價格
Old Value New Value Value Label Old Value New Value Value Label
high 1 high high 1 high low 2 low low 2 low med 3 med med 3 med vhigh 4 vhigh vhigh 4 vhigh
doors into 門的數(shù)量 persons into 容納人數(shù)
Old Value New Value Value Label Old Value New Value Value Label 2doors 1 2doors 2persons 1 2persons 3doors 2 3doors 4persons 2 4persons 4doors 3 4doors more 3 more 5more 4 5more
safety into 汽車安全性 Class into 購買時可接受程度 Old Value New Value Value Label Old Value New Value Value Label
high 1 high acc 1 acc low 2 low good 2 good med 3 med unacc 3 unacc vgood 4 vgood
lug_boot into 后備箱大小 Old Value New Value Value Label
big 1 big med 2 med small 3 small
對Class into 購買時可接受程度與其他六個變量做相關性分析: 4003002001000vhighhighmedlowaccunacc4003002001000highvhighmedlowaccunacc40030020010002doors3doors4doors5moreaccunacc60040020002persons4personsmoreaccunaccsafety6004002000smallmedbigaccunacc10005000highmedlowaccunacc
結果表明汽車安全性高,安全性低幾乎沒有人會愿意買,后備箱的大小更傾向于中等,容納人數(shù)較多的更受歡迎,只能容納兩個人的幾乎沒有人又興趣,同時二手車的購買價格和維修保養(yǎng)價格過高人們的接受都會下降,對于汽車的門的需求沒有什么特別的要求。(二)CHAID 決策樹的實證分析
選擇最小父節(jié)點個案數(shù)為10,最小子節(jié)點個案數(shù)為5。模型摘要表:
樹形圖
使用CHAID方法,Class into(購買時可接受程度)是safety into(汽車安全性)的最佳預測變量,對于safety into(汽車安全性)較低,(汽車安全性)是對Class into(購買時可接受程度)唯一起作用的預測變量,對于安全性差的汽車是不會有人愿意買的,從圖像可以看出其下沒有任何子節(jié)點,因而此節(jié)點被視為終端節(jié)點。對于安全性中等和較高的類別在通過容納人數(shù),購買時的價格,維修保養(yǎng)的價格,后備箱的大小以及汽車門的數(shù)量來進行進一步的劃分。從決策樹的最后一行節(jié)點68是容納人數(shù)為4個人,購買時價格較高,后備箱大小一般,維修保養(yǎng)價格不是特別高的情況下對于汽車門的數(shù)量為3的判斷不是特別的理想,但是模型所有的節(jié)點都已考慮進去,故不能再進行劃分,同理節(jié)點74也是。(三)模型評價:
從收益圖表顯示該模型十分良好,從一端到另一端時,積累收益率圖表將始終以0%開始且以100%結束。
指數(shù)圖表也表示該模型十分良好。累積指數(shù)圖表趨向于從100%以上開始,然后逐漸下降到100%。對于良好的模型,指數(shù)值應正好從高于100%開始,在移動過程中保持較高的穩(wěn)定水平,然后驟降至100%,對于未提供任何信息的模型,整個圖表的線將始終保持在100%左右。
同時從風險和分類表中輸出結果顯示,該模型的所預測類別的個案錯誤率為2.5%,對二手車進行錯誤分類的“風險”為2.5%,同時分類表中的結果與風險估計一致。該表顯示模型對約97.5%的類別進行了正確分類。故我們選擇的模型在大體上做出了正確的判斷。預測值
上表中的PredictedValue表示的是每個個案的因變量預測值,PredictedValue_1表示的是個案屬于購買時可接受程度非常好,PredictedValue_2表示的是個案屬于購買時可接受程度還好,PredictedValue_1表示的是個案屬于購買時可接受程度不好,PredictedValue_1表示的是個案屬于購買時可接受程度非常不好,對于預測值是在每個個案的終端節(jié)點具有最高個案比例的類別,故從截圖的一部分中可以看出對于第一個節(jié)點,預測值為3(可接受程度還好),因為他的終端節(jié)點中有100%的個案的可接受程度還好,而對于第13個節(jié)點72%的個案屬于可接受程度非常好,28%認為可接受程度并不怎么好,所以認為第13個節(jié)點的可接受程度非常好。
四 二手車評價的意義以及前景
隨著二手的交易量的逐年的增多,規(guī)范的二手車市場發(fā)展才能加大舊車的交易量,指定合理的二手車的各種規(guī)范交易制度,才能為廣大群眾降低經(jīng)濟損失,使人們能夠真正認可二手車,這樣才能從根本上促進二手車市場的發(fā)展。
第二篇:數(shù)據(jù)挖掘與電子商務
數(shù)據(jù)挖掘與電子商務
姓名:龔洪虎
學號:X2009230111
[摘 要] 企業(yè)的競爭優(yōu)勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢為競爭優(yōu)勢,是企業(yè)制勝于市場的一個法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務中的應用。
[關鍵詞] 數(shù)據(jù)挖掘 方法 電子商務 應用
隨著網(wǎng)絡技術和數(shù)據(jù)庫技術的成熟,傳統(tǒng)商務正經(jīng)歷一次重大變革,向電子商務全速挺進。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術作為電子商務的重要應用技術之一,將為正確的商業(yè)決策提供強有力的支持和可靠的保證,是電子商務不可缺少的重要工具。
一、電子商務和數(shù)據(jù)挖掘簡介。
電子商務是指個人或企業(yè)通過Internet網(wǎng)絡,采用數(shù)字化電子方式進行商務數(shù)據(jù)交換和開展商務業(yè)務活動。目前國內已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結算等多種類型的電子商務形式。電子商務正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時也叫知識發(fā)現(xiàn)的過程。
而電子商務中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術從www的資源(即Web文檔)和行為(即We服務)中自動發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項綜合技術涉及到Internet技術學、人工智能、計算機語言、信息學、統(tǒng)計學等多個領域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領域的理論和技術。比較典型的數(shù)據(jù)挖掘方法有關聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應用到以客戶為中心的企業(yè)決策分析和管理的各個不同領域和階段。
1.關聯(lián)分析。關聯(lián)分析,即利用關聯(lián)規(guī)則進行數(shù)據(jù)挖掘。關聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關聯(lián)分析相似,但側重點在于分析數(shù)據(jù)間的前后序列關系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個②
記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其他數(shù)據(jù)庫中的記錄進行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結果。
應用數(shù)據(jù)挖掘技術,較為理想的起點就是從一個數(shù)據(jù)倉庫開始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時候不斷發(fā)現(xiàn)更好的行為模式,并將其運用于未來的決策當中。
三、選擇數(shù)據(jù)挖掘技術的兩個重要依據(jù)。
數(shù)據(jù)挖掘使用的技術很多,其中主要包括統(tǒng)計方法、機器學習方法、和神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細分為回歸分析、判別分析、聚類分析、探索性分析等。機器學習方法可細分為歸納學習方法(決策樹、規(guī)則歸納)、基于范例學習、遺傳算法等。神經(jīng)網(wǎng)絡方法可細分為錢箱神經(jīng)網(wǎng)絡(BP算法)、自組織神經(jīng)網(wǎng)絡等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向屬性的歸納方法。由于每一種數(shù)據(jù)挖掘技術都有其自身的特點和實現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應用問題密切相關,因此成功的應用數(shù)據(jù)挖掘技術以達到目標過程本身就是一件很復雜的事情,本文主要從挖掘任務和可獲得的數(shù)據(jù)兩個角度來討論對數(shù)據(jù)挖掘技術的選擇。
三、數(shù)據(jù)挖掘在電子商務中的應用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務客戶的的共性和個性的知識、必然和偶然的知識、獨立和關聯(lián)的知識、現(xiàn)實和預測的知識等,所有這些知識經(jīng)過分析,能對客戶的消費行為如心理、能力、動機、需求、潛能等做出統(tǒng)計和正確地分析,為管理者提供決策依據(jù)。具體應用如下:
1.分類與預測方法在電子商務中的應用。在電子商務活動中,分類是一項非常重要的任務,也是應用最多的技術。分類的目的是構造一個分類函數(shù)或分類模型,通常稱作分類器。分類器的構造方法通常由統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法等。這些方法能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中某一個,以便用于預測,也就是利用歷史數(shù)據(jù)記錄,自動推導出給定數(shù)據(jù)的推廣描述,從而對未來數(shù)據(jù)進行預測。
2.聚類方法在電子商務中的應用。聚類是把一組個體按照相似性原則歸成若干類別。對電子商務來說,客戶聚類可以對市場細分理論提供有力的支持。市場細分的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務網(wǎng)站可以為客戶提供個性化的服務。
3.數(shù)據(jù)抽取方法在電子商務中的應用。數(shù)據(jù)抽取的目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過程。可采用多維數(shù)據(jù)分析方法和面向屬性的歸納方法。在電子商務活動中,采用維數(shù)據(jù)分析方法進行數(shù)據(jù)抽取,他針對的是電子商務活動中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大,可把匯集操作結果預先計算并存儲起來,以便用于決策支持系統(tǒng)使用。
4.關聯(lián)規(guī)則在電子商務中的應用。管理部門可以收集存儲大量的售貨數(shù)據(jù)和客戶資料,對這些歷史數(shù)據(jù)進行分析并發(fā)現(xiàn)關聯(lián)規(guī)則。如分析網(wǎng)上顧客的購買行為,幫助管理者規(guī)劃市場,確定商品的種類、價格、質量等。通常關聯(lián)規(guī)則有兩種:有意義的關聯(lián)規(guī)則和泛化關聯(lián)規(guī)則,有意義的關聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對象在統(tǒng)計意義上的需滿足的最低程度,如電子商務活動中的客戶數(shù)量、客戶消費能力、消費方式等。后者即用戶規(guī)定的關聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實用,因為研究對象存在一種層次關系,如面包、蛋糕屬西點類,而西點又屬于食品類,有了層次關系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關鍵。基于數(shù)據(jù)挖掘技術,實時、全面、準確地掌握企業(yè)資源信息,通過分析歷史的財務數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關鍵點和主要活動的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫存、提高庫存周轉率、提高資金使用率等。通過對Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準確地把握市場動態(tài),極大地提高企業(yè)對市場變化的響應能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質資源和信息資源,合理協(xié)調企業(yè)內外部資源的關系,產(chǎn)生最佳的經(jīng)濟效益。促進企業(yè)發(fā)展的科學化、信息化和智能化。
例如:美國運通公司(American Express)有一個用于記錄信用卡業(yè)務的數(shù)據(jù)庫,數(shù)據(jù)量達到54億字符,并仍在隨著業(yè)務進展不斷更新。運通公司通過對這些數(shù)據(jù)進行挖掘,制定了“關聯(lián)結算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心, 分析客戶、了解客戶并引導客戶的需求已成為企業(yè)經(jīng)營的重要課題。基于數(shù)據(jù)挖掘技術,企業(yè)將最大限度地利用客戶資源,開展客戶行為的分析與預測,對客戶進行分類。有助于客戶盈利能力分析,尋找潛在的有價值的客戶,開展個性化服務,提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習慣和興趣,從而改善網(wǎng)站結構設計,推出滿足不同客戶的個性化網(wǎng)頁。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費者是男性還是女性,學歷、收入如何, 有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關商品后多長時間有可能購買該種商品, 以及什么樣的人會購買什么型號的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對目標客戶發(fā)送的廣告的有效性和回應率將得到大幅度的提高, 推銷的成本將大大降低。同時,在客戶數(shù)據(jù)挖掘的基礎上,企業(yè)可以發(fā)現(xiàn)重點客戶和評價市場性能,制定個性化營銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學的依據(jù)。通過呼叫中心優(yōu)化與客戶溝通的渠道,提高對客戶的響應效率和服務質量,促
①進客戶關系管理的自動化和智能化。
三、結束語
電子商務是現(xiàn)代信息技術發(fā)展的必然結果,也是未來商業(yè)運作模式的必然選擇。利用數(shù)據(jù)挖掘技術,充分發(fā)揮企業(yè)的獨特優(yōu)勢,促進管理創(chuàng)新和技術創(chuàng)新,使企業(yè)在在電子商務的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應用前景。
參考文獻:
(1)《淺談數(shù)據(jù)挖掘在電子商務中的運用》 鐘連福;
(2)《電子商務中商業(yè)數(shù)據(jù)的挖掘方法》 中國電子商務研究中心;
(3)《在電子商務中如何正確有使用數(shù)據(jù)挖掘技術》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務中的應用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅強:數(shù)據(jù)挖掘在電子商務上的應用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務發(fā)展研究報告》北京郵電大學出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務》 鄧鯤鵬,周延杰,嚴瑜筱。①
第三篇:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘學習心得.
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘學習心得
通過數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的這門課的學習,掌握了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的一些基礎知識和基本概念,了解了數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。下面談談我對數(shù)據(jù)倉庫與數(shù)據(jù)挖掘學習心得以及閱讀相關方面的論文的學習體會。
《淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標準,每個主題對應一個客觀分析的領域,他可為輔助決策集成多個部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進入數(shù)據(jù)倉庫的數(shù)據(jù)極少更新的。數(shù)據(jù)倉庫內的數(shù)據(jù)時間一般為5年至10年,主要用于進行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大。
數(shù)據(jù)倉庫的特點如下:
1、數(shù)據(jù)倉庫是面向主題的;
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫;
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務處理的需求,它在商業(yè)領域取得了巨大的成功。
作為一個系統(tǒng),數(shù)據(jù)倉庫至少包括3個基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲和管理;信息訪問。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術上來說是從大量的、不完全的、有噪音的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識的過程。
數(shù)據(jù)開采技術的目標是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關系,從而服務于決策。數(shù)據(jù)挖掘的主要任務有廣義知識;分類和預測;關聯(lián)分析;聚類。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術在金融信息化中的應用》論文主要通過介紹數(shù)據(jù)額倉庫與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應用。在金融信息化的應用方面,金融機構利用信息技術從過去積累的、海量的、以不同形式存儲的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對它們進行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢預測,找出對決策有價值的信息,以防范銀行的經(jīng)營風險、實現(xiàn)銀行科技管理及銀行科學決策。
現(xiàn)在銀行信息化正在以業(yè)務為中心向客戶為中心轉變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎上向以客為中心的方向轉變。銀行信息化要適應競爭環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術對傳統(tǒng)過程進行集成和優(yōu)化,實現(xiàn)信息共享、資源整合綜合利用,把銀行的各項作用統(tǒng)一起來,優(yōu)勢互補統(tǒng)一調配各種資源,為銀行的客戶開發(fā)、服務、綜理財、管理、風險防范創(chuàng)立堅實的基礎,從而適應日益發(fā)展的數(shù)據(jù)技術需要,全面提高銀行競爭力,為金融創(chuàng)新和提高市場反映能力服務。沃爾瑪利用信息技術建設的數(shù)據(jù)倉庫,在1997年圣誕節(jié)進行市場技術建立的數(shù)據(jù)倉庫,即分析顧客最可能一起購買那些商品,結果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉庫系統(tǒng)
第四篇:數(shù)據(jù)挖掘與分析心得體會
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時代的步伐不斷邁進,大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識的需求!而數(shù)據(jù)挖掘便應運而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時代大步跨入信息時代的歷程中做出貢獻。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應當更正確的命名為:“從數(shù)據(jù)中挖掘知識”,不過后者顯得過長了些。而“挖掘”一詞確是生動形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示六個步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術之大量,應用范圍之廣泛都將會是前所未有的;而數(shù)據(jù)挖掘任務之重也一直并存。這些問題將繼續(xù)激勵數(shù)據(jù)挖掘的進一步研究與改進!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。
數(shù)據(jù)分析有極廣泛的應用范圍。典型的數(shù)據(jù)分析可能包含以下三個步:
1、探索性數(shù)據(jù)分析:當數(shù)據(jù)剛取得時,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內在規(guī)律。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質量管理體系的支持過程。在產(chǎn)品的整個壽命周期,包括從市場調研到售后服務和最終處置的各個過程都需要適當運用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關方法來挖掘出有效的,對目標應用有意義的模式和知識。或者可以說:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個信息迅速膨脹的時代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級數(shù)據(jù)分析技術:數(shù)據(jù)倉庫和聯(lián)機分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的的模式下,并且通常駐留在單個站點上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
集成的:通常,構造數(shù)據(jù)倉庫是將多個異構數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術,確保命名約定,編碼結構,屬性度量等的一致性。
時變的:數(shù)據(jù)存儲從歷史的角度提供信息。數(shù)據(jù)倉庫中的關鍵結構都隱式或顯式地包含時間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務處理、恢復和并發(fā)控制機制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡、支持向量機等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。基于網(wǎng)格的方法:STING(統(tǒng)計信息網(wǎng)格),CLIQUE
6、廣泛應用
作為一個應用驅動的領域,數(shù)據(jù)挖掘融匯來自其他一些領域的技術。這些領域包括統(tǒng)計學、機器學習、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學科特點大大促進了數(shù)據(jù)挖掘的成功和廣泛應用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應用,如商務智能,Web搜索,生物信息學,衛(wèi)生保健信息學,金融,數(shù)字圖書館和數(shù)字政府等。
7、學習總結
數(shù)據(jù)挖掘技術已經(jīng)形成很廣泛的應用空間,而目前JDMP的版本也在完善當中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因為數(shù)據(jù)挖掘的發(fā)展會有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進。
對于數(shù)據(jù)挖掘的學習,還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識。包括統(tǒng)計學、概率論,機器學習等。數(shù)據(jù)挖掘是個繁復的過程,需要我們長此以往的研究!
第五篇:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫--教學大綱
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫(教學大綱)
Data mining and data warehouse
課程編碼:05405140 學分: 2.5 課程類別: 專業(yè)方向課 計劃學時: 48 其中講課:32 實驗或實踐: 上機:16 適用專業(yè):信息管理與信息系統(tǒng)、電子商務 推薦教材:
陳文偉,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程,清華大學出版社,2008 參考書目:
1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).機械工業(yè)出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(第2版),陳京民 編著,電子工業(yè)出版社,2007.11 5.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,蘇新寧 等編著,清華大學出版社,2006.4 6.數(shù)據(jù)挖掘Clementine應用實務,謝邦昌 主編,機械工業(yè)出版社,2008.4
課程的教學目的與任務
本課程將系統(tǒng)介紹數(shù)據(jù)挖掘的基本概念、基本原理和應用基礎,通過課堂講授、實例分析,提高學生數(shù)據(jù)挖掘技術的認識,熟悉基本工具應用,并掌握設計和開發(fā)數(shù)據(jù)挖掘算法和系統(tǒng)的初步能力。
課程的基本要求
1、了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應用范圍,以及主要數(shù)據(jù)挖掘工具
2、了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結構,以及如何評價OLAP工具;掌握多維分析的基本分析動作。
3、了解數(shù)據(jù)質量,掌握數(shù)據(jù)預處理方法,4、掌握數(shù)據(jù)挖掘的定性歸納技術、關聯(lián)挖掘、聚類分析、分類方法、預測方法、文本挖掘、WEB挖掘
5、熟練掌握數(shù)據(jù)挖掘軟件Clementine在各類挖掘任務中的應用。各章節(jié)授課內容、教學方法及學時分配建議(含課內實驗)
第一章.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述 建議學時:2 [教學目的與要求] 了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應用范圍,以及主要數(shù)據(jù)挖掘工具。[教學重點與難點] 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 1.1 為什么要數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的應用示例 1.3 數(shù)據(jù)挖掘方法簡介
1.4 數(shù)據(jù)挖掘與其他學科的關系 1.5 商務智能的三大塊 1.6 常用數(shù)據(jù)挖掘工具簡介
第二章 數(shù)據(jù)倉庫技術
建議學時:4 [教學目的與要求] 了解數(shù)據(jù)倉庫的概念,區(qū)分與傳統(tǒng)數(shù)據(jù)庫技術的不同;掌握數(shù)據(jù)倉庫存儲的抽取、轉換和裝載
[教學重點與難點] 數(shù)據(jù)倉庫存儲的抽取、轉換和裝載;數(shù)據(jù)倉庫存儲的數(shù)據(jù)模型 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 2.1 數(shù)據(jù)倉庫的概念
2.2 數(shù)據(jù)倉庫存儲的數(shù)據(jù)模型 2.3 數(shù)據(jù)倉庫的體系結構
2.4 數(shù)據(jù)倉庫應用的抽取、轉換和裝載
第三章 數(shù)據(jù)倉庫開發(fā)模型
建議學時:4 [教學目的與要求] 了解數(shù)據(jù)倉庫開發(fā)模型的概念,了解數(shù)據(jù)倉庫開發(fā)過程,掌握數(shù)據(jù)倉庫三種概念模型:星型模式、雪花模式、或事實星座模式,掌握數(shù)據(jù)粒度概念,元數(shù)據(jù)概念。
[教學重點與難點] 數(shù)據(jù)倉庫三種概念模型,數(shù)據(jù)粒度概念,元數(shù)據(jù)概念 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 3.1 數(shù)據(jù)倉庫開發(fā)模型的概念
3.2 數(shù)據(jù)倉庫的概念模型 3.3 數(shù)據(jù)倉庫的邏輯模型 3.4 數(shù)據(jù)倉庫的物理模型 3.5 數(shù)據(jù)倉庫的生成
3.6 數(shù)據(jù)倉庫的使用和維護
3.7 數(shù)據(jù)倉庫的粒度、聚集和分割 3.8 元數(shù)據(jù)
第四章 聯(lián)機分析處理(OLAP)技術 建議學時:4 [教學目的與要求] 了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結構,以及如何評價OLAP工具;掌握多維分析的基本分析動作。[教學重點與難點] OLAP 的體系結構;多維分析的基本分析動作 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 4.1 從OLTP 到 OLAP 4.2 OLAP 的基本概念
4.3 多維分析的基本分析動作 4.4 OLAP 的數(shù)據(jù)組織 4.5 OLAP 的體系結構 4.6 OLAP 工具及評價
4.7 Codd 關于 OLAP 產(chǎn)品的十二條評價準則
第五章 數(shù)據(jù)挖掘的原理與技術 建議學時:4 [教學目的與要求] 了解為什么要數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與其他學科的關系,熟悉常用數(shù)據(jù)挖掘方法和工具,掌握數(shù)據(jù)挖掘的原理與技術。
[教學重點與難點] 數(shù)據(jù)挖掘的原理與技術,數(shù)據(jù)挖掘與其他學科的關系 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 5.1 知識發(fā)現(xiàn)的過程
5.2 數(shù)據(jù)挖掘的方法和技術 5.3 數(shù)據(jù)挖掘的知識表示
第六章 數(shù)據(jù)的獲取和管理 建議學時:4 [教學目的與要求] 了解數(shù)據(jù)的數(shù)據(jù)獲取和管理,掌握數(shù)據(jù)質量的多維度量,掌握數(shù)據(jù)預處理方法 [教學重點與難點] 數(shù)據(jù)質量,數(shù)據(jù)預處理方法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 6.1 數(shù)據(jù)倉庫的數(shù)據(jù)獲取 6.2 數(shù)據(jù)管理 6.3 系統(tǒng)管理 6.4 數(shù)據(jù)的預處理
6.5 數(shù)據(jù)質量的多維度量 6.6 數(shù)據(jù)預處理的主要方法
第七章 定性歸納
建議學時:2 [教學目的與要求] 了解數(shù)據(jù)挖掘的定性歸納技術,掌握ID3算法、C5.0算法。[教學重點與難點] ID3算法、C5.0算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 7.1 基本概念 7.2 數(shù)據(jù)泛化 7.3 屬性相關分析 7.4 挖掘概念對比描述
7.5 挖掘大數(shù)據(jù)庫的描述型統(tǒng)計信息
第八章 關聯(lián)挖掘
建議學時:2 [教學目的與要求] 了解關聯(lián)挖掘和的方法,掌握Apriori算法 [教學重點與難點] Apriori算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 8.1 基本概念
8.2 單維布爾邏輯關聯(lián)規(guī)則挖掘 8.3 多層關聯(lián)規(guī)則挖掘 8.4 多維關聯(lián)規(guī)則挖掘
8.5 關聯(lián)規(guī)則聚類系統(tǒng)(ARCS)8.6 關聯(lián)規(guī)則其它內容
第九章
聚類分析
建議學時:2 [教學目的與要求] 了解什么是聚類分析、聚類和分類的區(qū)別,掌握聚類分析的算法。[教學重點與難點] 聚類分析的算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 9.1 什么是聚類分析
9.2 聚類分析中的數(shù)據(jù)類型 9.3 主要聚類算法的分類
第十章 分類 建議學時:2 [教學目的與要求] 了解什么是數(shù)據(jù)挖掘的分類,掌握KNN(K-Nearest Neighbor)分類和Bayes分類 [教學重點與難點] KNN(K-Nearest Neighbor)分類和Bayes分類 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 10.1 10.2 10.3 10.4 10.5
第十一章 預測 建議學時:2 [教學目的與要求] 了解預測算法,掌握回歸預測、廣義線性GenLin模型預測、支持向量機預測 [教學重點與難點] 回歸預測、廣義線性GenLin模型預測、支持向量機預測 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內 容] 11.1 11.2 預測的基本知識 預測的數(shù)據(jù)準備 分類的基本知識 決策樹分類 支持向量機分類
KNN(K-Nearest Neighbor)分類 Bayes分類 11.3 11.4 11.5 11.6
預測的主要方法 回歸預測
廣義線性GenLin模型預測 支持向量機預測
撰稿人:蔡永明 審核人: