第一篇:基于股票時間序列數據的關聯規則挖掘研究
南昌大學2003級碩士學位論文
文獻綜述報告
基于股票時間序列數據的關聯規則挖掘研究
Study on Mining Association Rules from Stock Time Series Data
系
別: 計算機科學與技術系 專
業: 計算機應用技術 研究方向: 人工智能 研 究 生: 汪廷華 導
師: 程從從(教授)
2005年03月
一.引言
隨著計算機信息系統的日益普及,大容量存儲技術的發展以及條形碼等數據獲取技術的廣泛應用,人們在日常事務處理和科學研究中積累了大量的各種類型的數據。在這些數據中,有很大一部分是呈現時間序列(time series)類型的數據。所謂時間序列數據就是按時間先后順序排列各個觀測記錄的數據集[1],如金融證券市場中每天的股票價格變化;商業零售行業中,某項商品每天的銷售額;氣象預報研究中,某一地區的每天氣溫與氣壓的讀數;以及在生物醫學中,某一癥狀病人在每個時刻的心跳變化等等。然而,我們應該注意到:時間序列數據不僅僅是歷史事件的記錄,更重要的是蘊藏這些數據其中不顯現的、有趣的模式。隨著時間推移和時間序列數據的大規模增長,如何對這些海量數據進行分析處理,挖掘其背后蘊藏的價值信息,對于我們揭示事物發展規律變化的內部規律,發現不同事物之間的相互關系,為人們正確認識事物和科學決策提供依據具有重要的實際意義。
時間序列數據分析按照不同的任務有各種不同的方法,一般包括趨勢分析、相似性搜索、與時間有關數據的序列模式挖掘、周期模式挖掘等[2]。本綜述是針對證券業中股票時間序列分析的,試圖通過列舉、分析有關證券業中股票時間序列數據分析的原理、方法與技術,著重探討數據挖掘中基于股票時間序列數據的關聯規則挖掘的概念、原理技術、實施過程及存在的障礙和問題,以期能有新的發現和領悟。
二.股票時間序列傳統研究方法概述
隨著我國市場經濟建設的發展,人們的金融意識和投資意識日益增強。股票市場作為市場經濟的重要組成部分,正越來越多地受到投資者的關注。目前股票投資已經是眾多個人理財中的一種重要方式。不言而喻,如果投資者能正確預測股票價格、選準買賣時機,無疑會給投資者帶來豐厚的收益。于是,在股票的預測和分析方面出現了大量的決策分析方法和工具,以期能有效地指導投資者的投資決策。目前,我國股市用得較多的方法概括起來有兩類[3]:一類是基本分析和技術分析,另一類是經濟統計分析。1.基本分析和技術分析
在股票市場上,當投資者考慮是否投資于股票或購買什么股票時,一般可以運用基本分析的方法對股市和股票進行分析;而在買賣股票的時機把握上,一般可以運用技術分析的方法[4]。
基本分析指的是通過對影響股票市場供求關系的基本因素(如宏觀政治經濟形勢、金融政策、行業變動、公司運營財務狀況等)進行分析,來確定股票的真正價值,判斷未來股市走勢,是長期投資者不可或缺的有效分析手段。
技術分析是完全根據股市行情變化而加以分析的方法,它通過對歷史資料(成交價和成交量)進行分析,來判斷大盤和個股價格的未來變化趨勢,探討股市里投資行為的可能轉折,從而給投資者買賣股票的信號,適合于投資者作短期投資。目前技術分析常用的工具是各種各樣的走勢圖(K線圖、分時圖)和技術指標(MA、RSI、OBV等)。2.經濟統計學分析
主要針對時間序列數據進行數學建模和分析。傳統的時間序列數據分析已經是一個發展得相當成熟的學科,有著一整套分析理論和工具,是目前時間序列數據分析的主要方法,它主要用經濟統計學的理論和方法對經濟變量進行描述、分析和推算。傳統時間序列數據分析的研究目的在于[5]:
●分析特定的數據集合,建立數學模型,進行模式結構分析和實證研究; ●預測時間序列的未來發展情況。
傳統的時間序列數據分析最基本的理論是40年代分別由Norbor Wiener和Andrei Kolmogomor提出的。20世紀70年代,G.P.Box和G.M.Jenkins發表專著《時間序列分析:預測和控制》,對平穩時間序列數據提出了自回歸滑動平均模型(ARMA),以及一整套的建模、估計、檢驗和控制方法,使得時序數據分析得以廣泛運用于各種工程領域。其基本思想是根據各隨機變量間的依存關系或自相關性,從而由時間序列的過去值及現在值來預測出未來的值。該模型以證券市場為非有效市場為前提,當期的股票價格變化不僅受當期隨機因素的沖擊,而且受前期影響。換句話說,就是歷史信息會對當前的股票價格產生一定程度的影響。采用的方 1 法一般是在連續的時間流中截取一個時間窗口(一個時間段),窗口內的數據作為一個數據單元,然后讓這個時間窗口在時間流上滑動,以獲得建立模型所需要的訓練集[6]。
[7]基于股票時間序列是一種混沌時間序列的認知,提出一種新穎的非線性時間序列預測模型,即滑動窗口二次自回歸(MWDAR)模型,該模型使用部分的歷史數據及其二次項構造自回歸模型,模型參數用最小二乘法估計。其基本理論基礎是:一個線性模型不能描述混沌時間序列的全局性特征,但在一個小的時間間隔內,系統的行為卻可以用某種線性模型近似。[8]則提出了一種基于嵌入理論和確定集上的預測誤差的混沌時間序列預測方法,并探討了在股票價格預測上的應用。
可以看出,經濟統計學為問題的探索解決方案提供了有用而實際的框架;模型是經濟統計學的核心,模型的選擇和計算往往被認為是次要的,是建立模型的枝節。經濟統計學本質上是從事“確定性”分析的,可以說統計方法是“目標驅動”的。但是,在大量數據集中往往存在一些未被人們預期到但又具有價值的信息,人們為發現大量數據中隱藏的規律和模式,就需要新的具有“探索性”的分析工具。顯然,數據挖掘就是這樣的一門工具。
三.數據挖掘技術應用于股票時間序列分析的研究現狀
數據挖掘(DM,Data Mining),也稱為數據庫中的知識發現(KDD,Knowledge Discovery in Database)是數據庫技術和機器學習等人工智能技術相結合的產物,是一門新興的數據智能分析技術[9]。20世紀80年代末,隨著數據庫、互聯網技術的迅速發展以及管理信息系統(MIS)和網絡數據中心(IDC)的推廣應用,數據的存取、查詢、描述統計等技術已日臻完善,但高層次的決策分析、知識發現等實用技術還很不成熟,導致了“信息爆炸”但“知識貧乏”的現象。到了90年代,人們提出在數據庫基礎上建立數據倉庫,應用機器學習和統計分析相結合的方法處理數據,這兩者的結合促成了數據挖掘技術的誕生。
所謂數據挖掘,簡單地說,就是從大量數據中提取或挖掘知識[2];詳細一點可以描述為主要利用某些特定的知識發現算法,在一定的運算效率的限制下,從大量的數據中抽取出潛在的、有價值的知識(模型、規則和趨勢)的過程。挖掘算法的好壞直接影響到知識發現的質量和效率,因此目前大多數研究都集中于數據挖掘算法及其應用上。1.相關技術介紹(1)關聯規則挖掘
關聯規則是美國IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出來的KDD研究的一個重要課題[10]。關聯規則挖掘本質是從大量的數據中或對象間抽取關聯性,它可以揭示數據間的依賴關系,根據這種關聯性就可以從某一數據對象的信息來推斷另一對象的信息。它可以做如下形式化定義:
設I = {i1,i2,...,im}是一組項的集合(例如一個商場的物品),D是一組事務集(稱之為事務數據庫)。D中的每個事務T是項的集合,且滿足T?I。稱事務T支持物品集X,如果X?T。關聯規則是如下形式的一種蘊含式:X→Y,其中X?I,Y?I,且X∩Y= ?。
(1)稱關聯規則X→Y在事務數據庫D中具有大小為s的支持度,如果物品集X∪Y的支持度為s%,即support(X→Y)=P(X U Y)。
(2)稱規則X→Y在事務數據庫D中具有大小為c的可信度,如果D中支持物品集X的事務中有c%的事務同時也支持物品集Y,即confidence(X→Y)=P(Y|X)。
從語義的角度來分析,規則的可信度表示這條規則的正確程度;支持度表示用這條規則可以推出百分之幾的目標,即這一規則對于整體數據的重要程度。用戶可以定義二個閾值,要求數據挖掘系統所生成的規則的支持度和可信度都不小于給定的閾值。這樣,就用蘊含式、支持度和可信度唯一標識了每一個挖掘出來的關聯規則。
已知事物數據庫D,關聯規則的挖掘問題就是產生支持度與置信度分別大于用戶給定的最小閾值的所有關聯規則。該問題分兩步來求解:第一步是找出事務數據庫D中所有滿足條件的具有用戶指定最小支持度的項目集。具有最小支持度的項目集稱為頻繁項集。第二步是從頻繁項集中構造可信度不低于用戶要求的規則。形式地,對于每一個頻繁項目集A,找出A的所有非空子集a,如果比率support(A)/support(a)≥min_conf 2(可信度),就生成關聯規則a→(A-a)。
識別或發現所有的頻繁項集是關聯規則挖掘算法的核心,也是計算量最大的部分。目前已有不少挖掘頻繁項集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法[11],其核心是利用這樣一個性質:頻繁項集的所有非空子集都是頻繁的。基于這樣的先驗知識,Apriori使用一種“逐層搜索“的迭代方法,k-項集用于探索(k+1)項集。首先找出頻繁1-項集,記作L1;用L1找頻繁2-項集L2;而L2用于找L3,如此下去,直到不能找到頻繁k-項集。
雖然Apriori算法能最終挖掘出所有的關聯規則,但由于處理的數據量非常大,因而算法的效率顯得十分重要。后來的一些研究人員對算法的連接和剪枝過程進行各種優化。
如[12]提出了稱為AprioriTid的改進算法,該算法提出了在每一步(第一步除外)計算候選頻繁項集的支持度時不需要瀏覽整個事務數據庫。它認為不包含任何k-項集的事務不可能包含任何k+1項集,這樣,這種事務在其后的考慮時,可以加上標記或刪除,因為為產生j-項集(j>k),掃描數據庫時不再需要它們。該算法的本質是壓縮進一步迭代掃描的事務數。
而[13]提出的AprioriPro算法,其基本思想與AprioriTid是一致的,也是減少對數據集的掃描,不同的是AprioriPro算法是通過在原有的數據集上增加一個屬性,通過這個屬性的取值來減少對某些事務的掃描。
[14]是結合Apriori和AprioriTid兩種算法,提出了一種混合挖掘算法AprioriHybrid,其基本思想是在掃描的早期使用Apriori算法,當候選模式集中記錄條數小到可以放進內存時就轉向AprioriTid算法。
這些改進算法雖然比Apriori算法在挖掘效率上有一些提高,但本質上沒有什么區別,都要在挖掘過程中生成大量的候選模式集。
“有沒有這樣的算法,挖掘全部的頻繁項集而不產生候選?” 1999年Han等人提出FP-Growth算法[15],以及 Agrawal等人提出的樹-投影(Tree Project)[16]關聯規則挖掘算法就是這樣的算法,它們在性能上均獲得了突破,與Apriori算法相比,挖掘效率有了數量級的提高。利用FP-Tree 可以壓縮事務數據集,壓縮有的達到100多倍;而樹-投影方法從原理上講是適應任何數據集的,無論其據量多大該算法都能有效運行,從而使得關聯規則挖掘可以應用于海量數據的挖掘和稠密數據集的挖掘。
除了上述關聯規則挖掘的經典算法之外,人們著重在以下幾個方面對關聯規則進行了研究。
(1)繼續通過各種手段提高挖掘效率。這方面包括對原有算法的進一步改進[17,18];提出一些并行挖掘算法[19,20]、增量算法[21]以及帶約束的關聯規則挖掘策略(元規則制導關聯規則挖掘)[22,23]。
(2)不同形式關聯規則的研究。關聯規則最早是由購物籃分析開始的,但是隨著研究的擴展和深入,關聯規則的應用范圍不斷擴大,因此出現了多種形式關聯規則的研究。由最簡單的單維、單層、布爾關聯規則逐漸向復雜形式擴展。在基本關聯規則的基礎上提出了布爾型加權關聯規則和廣義模糊型加權關聯規則算法[24],由單層的關聯規則擴展為多層次關聯規則的研究[25]等等。關聯規則形式的多樣化,反映了人們從不同角度認識同一事物的不同視點,加深了對關聯規則的認識與研究。
(3)結合其它理論(如軟計算理論)對關聯規則進行研究。引入粗糙集概念,使關聯規則發現的模式具有較高的解釋能力和精確度[26];通過引入神經網絡的概念,提出用相互激活與競爭網絡來進行數據庫中的關聯規則的發現[27];還有基于遺傳算法的多維關聯規則挖掘[28]等。可以看出通過引入其他領域的先進理論,豐富了關聯規則研究的內容,提高了算法的有效性。
(4)關聯規則的價值評判標準研究。如[29]分別討論了關聯規則的客觀評價指標(支持度、可信度和相關強度)和主觀評價指標(新穎性、用戶感興趣性和簡潔性),在此基礎上給出了一種關聯規則的綜合自動評價方法。
(5)關聯規則的應用研究。理論從實踐中來,但最終是為了指導實踐。關聯規則自提出以來,經過無數學者的研究努力,廣泛應用于社會生產和科研的各個方面,產生了巨大的效益[30,31,32,33]。(2)序列模式挖掘
序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出來的[34]。設有一個交易數據庫D,每個顧客可在不同時間購買不同物品,每次購買活動稱為交易(Transaction)。這里,顧客、交易時間和 3 所購物品分別以Customer_ID、Transaction_Time和Itemset標識。如果以Customer_ID為第一關鍵字,Transaction_Time為第二關鍵字對數據庫D排序,那么,對每一顧客而言,他進行的所有交易是以交易時間的升序排列的,從而構成一個序列,稱這種序列為顧客序列CS(Customer Sequence)。一般地,令某顧客的各次交易時間為t1,t2,t3,?,tn,該顧客在交易時間ti購買的物品集記為itemset(i),于是該顧客的CS序列為itemset(t1), itemset(t2), itemset(t3),?, itemset(tn)。相應地,可以認為上述交易數據庫D已轉換為顧客序列數據庫。如果某序列s包含在某顧客的CS序列中,那么稱該顧客支持(Support)該序列s。某序列的支持度為支持該序列的顧客數與顧客序列數據庫中顧客總數之比。序列模式就是在上述顧客序列數據庫中滿足用戶指定最小支持度的最長序列。
序列模式的問題定義與關聯規則很相似,它們之間的區別可以用下列例子描述,關聯規則描述的是在一次購物中所購買物品之間的關聯關系,而序貫模式則是描述同一顧客在不同次購物所購物品之間可能存在的某種關聯關系。換句話說,關聯規則僅僅發現事務內部(intra-transaction)的模式,而序列模式則是發現事務之間(inter-transaction)的模式。
序列模式的發現方法與關聯規則的發現方法大致相同,R.Agrawal在Apriori算法的基礎上提出了三個 序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome[34]。AprioriAll算法采用哈希樹儲存候選序列,將所有的候選序列均儲存在哈希樹的葉子節點中;將候選序列的記數劃分為向前及向后兩階段:向前階段跳躍性地產生所有特定長度的頻繁序列,而向后階段找出在向前階段未考慮的頻繁序列。
在[35][36]中提出了挖掘具有概念分層、滑動時間窗口及最大和最小時間約束的 GSP(Generalized Sequential Patterns)算法。該算法也采用哈希樹存儲候選序列,仍將候選序列的記數分為向前及向后階段,但此法劃分向前階段與向后階段的目的與實現均與 AprioriAll 算法不同。
PSP(Perfectly Sequential Patterns)算法在[37]中提出,該算法采用了前綴樹結構(而非哈希樹)存儲候選序列,從而導致該算法的候選序列集的產生和記數均不同與GSP算法; 同時,由于前綴樹的每個節點只 存儲事務中的一項,故與哈希樹結構相比較大的節省了內存空間。(3)軟計算方法
軟計算(Soft Computing)是方法論的集合,這些方法集互相協作,并以一種形式或其它某種形式為現實中的模糊情況提供靈活信息處理功能[38]。它的目的是為了獲得易處理的、粗糙的、低成本的解決方法而對不確定的數據進行處理。遵從的原則是以追求近似解決模糊/精確問題,并低成本地設計解決方案。軟計算方法主要包括模糊邏輯、Rough集、遺傳算法、神經網絡等。模糊邏輯是處理不確定性概念及其推理機制的過程,Rough集和神經網絡常被用來分類和規則抽取,遺傳算法包括最優解和搜索過程,像問題最優解和樣本選擇。針對時間序列挖掘,軟計算方法的應用研究簡要介紹如下:
模糊邏輯是最早、應用最廣泛的軟計算方法,模糊邏輯的發展導致了軟計算方法的出現。[39]在挖掘時間序列數據時使用了模糊語言概化;[40]針對商業銷售的智能分析需求,提出了一種基于模糊集合的數據挖掘時間序列模式算法。
神經網絡是一個黑箱問題,它先前被認為不適合應用于數據挖掘,且在符號格式中,它并不能獲得有用信息,但卻適合進行解釋。近年來,挖掘訓練過的網絡中的嵌入知識,已廣泛地應用于數據挖掘中。它對屬性或逐個或合并地進行判別,這對于決策或分類是非常重要的。它對數據挖掘的貢獻是在規則提取和自組織性上。
遺傳算法是可調節的、魯棒的、有效率的搜索方法,它適應于搜索大空間集。它相對數據挖掘的標準來優化功能,并達到搜索最優解的目的。[41]提出了一個基于小生境遺傳算法和模式緩存的時間序列中頻繁結構模式的發現算法,該算法具有輕便、靈活、可擴展性好的特點,可根據實際情況合理配置計算時間和所占用的內存資源,可實現挖掘結果的實時動態更新輸出,并通過在在實際時間序列數據上的實驗證明了該算法的有效性。
Rough集理論由波蘭邏輯學家Pawlak教授在20世紀80年代提出,是一種處理含糊和不確定問題的新型數學工具,其出發點是根據目前已有的對給定問題的知識將問題的論域進行劃分,然后對劃分的每一部分確定其對某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分別用三個近似 4 集合來表示為正域、負域和邊界。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對數據進行分析和推理,從中發現隱含的知識和潛在的規律。同時,Rough集理論在處理大數據量,消除冗余信息等方面有著良好的效果,因此廣泛應用于數據挖掘的數據預處理(數據約簡)、規則生成等方面[42,43]。2股票時間序列挖掘
股票市場高風險和高收益并存,因此對于股票數據知識發現的研究一直受到人們的關注。目前對股票時間序列的數據挖掘方法大致集中在以下三個方面。(1)相似性的研究。
該方法是在時間序列數據庫中找出與給定查詢序列最接近的數據序列,它包含了全序列匹配和子序列匹配兩種問題。子序列匹配就是找出與給定模式序列相似的所有子序列,而全序列匹配就是找出彼此間相似的序列。具體的操作時將時間窗口在時間序列上滑動,通過距離計算從一個時間序列和多個時間序列中尋找相似的時間序列模式進行聚類形成相似組群,當有一個新的時間序列需要分析時,可以從相似組群中尋找與它最相似的類來匹配。一般有兩個研究方向,一種是將時間序列從時間域(time domain)到頻率域(frequency domain)后在進行相似性匹配。至于為什么要進行這種數據變換,主要是基于許多信號分析技術(如離散傅立葉變換DFT和離散小波變換DWT)需要數據來自頻率域[2]。另一種則是直接在時間域上研究。主要應用是從股票數據中識別具有相似變化趨勢的模式,以預測新數據在未來的發展行為。在時間序列相似性方面的研究文獻有[44,45,46,47]。(2)趨勢分析與值預測研究。
趨勢分析研究時間序列的變化趨勢,其理論基礎是將時間序列視為一個動力系統,認為在其過去的波動中蘊涵有可用于預測未來的信息。給定一組值(Y1,Y2,Y3,?),確定數據趨勢的方法通常有兩種[2]:一種是N階的移動平均值,即(?i?1Yi)/n,(?i?2Yi)/n,(?i?3Yi)/n,?。移動平均可以降低數據集中的變化
?d,其中偏差或誤差di是指點(xi,yi)i?1in2nn?1n?2總量,用移動平均替代時序,可以減少不希望出現的波動,故它也稱為時序的平滑。另一種是最小二乘法,即以最好的擬合曲線C作為最小二乘曲線,即曲線具有最小的的值yi與對應曲線C的值之間的差值。
趨勢分析可以用來值預測,除此之外,用得較多的是神經網絡[48,49]。這種預測方法由于是基于時間序列的具體數值,而這些數據往往含有許多干擾數據,因此該值預測方法的抗干擾能力較弱。(3)時間序列中關聯規則的抽取。
Gautam Das等對從時間序列中發現關聯規則進行了研究[50],這里規則是對時間序列中不同模式間關系的一種描述,[50]的主要貢獻在于給出了一個將原始時間序列轉換成有各個模式表示符組成的符號序列的一般方案,該方案由三部分組成,即分割,聚類和符號替換。然后采用序列模式發現算法實現了符號序列中規則的發現。
針對股票時間序列的特殊性,許多學者在經典關聯規則挖掘算法的基礎上,又提出了許多新的算法。1996年R.Strikant給出了關系數據庫中數量關聯規則的挖掘算法[51];1998年H.Lu對股票變動的預測以及內聯相關性分析進行了研究[52];1999年M.Garofalakis提出了具有約束限制的時序數據挖掘[53];2002年 Y.Chen對時序數據庫的多維回歸分析進行了研究[54]。國內學者在這方面也做了相當的研究,[55]對股票時間序列的挖掘,分別探討了一維和二維關聯規則的發現;[56]通過一個具體的實例描述了從股票時間序列中挖掘一維關聯規則的方法;[57]提出了延遲關聯規則的概念,并在股票時間序列上實現挖掘該規則的算法;[58]在時間序列中引入多重時間粒度,以模糊規則的形式給出數據挖掘的結果。
Rough集理論在數據挖掘領域的應用主要體現在數據約簡和關聯規則的抽取上,這方面的研究已經有了少量的文獻。[59]提出的一種基于Rough集的時間序列數據挖掘策略,顯然適用于股票時間序列的挖掘;[60]則提出將正則化神經網絡與Rough集理論相結合應用于股票時間序列數據庫的挖掘。該方法融合了正則神經網絡優良的泛化性能和Rough集理論的規則生成能力,充分展示了軟計算方法應用于時間序列數據分析的新穎性。
四.總結與展望
從大的方面來說,時間序列數據的挖掘技術可分為統計分析法和數據挖掘。眾所周知,統計學是數據挖掘的三大支柱之一(另兩種是數據庫和人工智能);同時,數據挖掘在統計學的基礎上另有擴充和發展,這使得數據挖掘技術成為一種更具優勢性的研究方法。統計學為問題的探索解決方案提供了有用而實際的框架;模型是現代統計學的核心,模型的選擇和計算往往被認為是次要的,是建立模型的枝節。統計學本質上是從事“確定性”分析的,可以說統計方法是“目標驅動”的。但數據挖掘卻不同,它的核心是算法,當然也考慮模型和可解釋性問題,但算法及可實現性是第一位的。它所強調的首先是發現,其次才是解釋。數據挖掘,作為很多學科交叉的結果,繼承了機器學習的“冒險”態度,比統計學更強調實踐性、探索性和靈活性。
證券市場是國民經濟的晴雨表,是政府主管部門、券商和廣大投資者的興趣中心。長期以來各券商的交易系統一直走在IT技術應用革新的前沿,同時也積累了大量的數據;挖掘、開發和利用這些數據一方面可以有效指導證券投資者的投資,另一方面可以使證券公司進行最適合的定位,從而使企業長期的積累得以充分發揮,樹立競爭優勢。作為數據挖掘的主要組成部分之一,關聯規則挖掘獲得了廣泛的研究,但從關聯規則的角度進行股票時間序列分析,從學術上來說具有一定的新穎性,其終極目標是以極大的概率預測股價的未來走勢。股票的漲跌不是各自互不影響的,傳統意義上的“板塊聯動”就是極好的證明。考察股票價格之間的漲跌關系,如能在傳統分析方法的基礎上,采用先進的數據挖掘技術,挖掘出股票之間的價格聯動關聯規則,顯然具有十分重要的意義。
Rough集理論是一種處理含糊和不精確性問題的新型數學工具,是采用精確的數學方法分析不精確系統的一種理想方法。大量文獻已經說明Rough集理論是從數據集中提取關聯規則的有效方法,其中主要的原因應歸功于Rough集理論強大的數據約簡能力。應用Rough集理論對股票時間序列數據進行建模、約簡、規則抽取,顯然又是一個極具新穎和創新的研究領域。
參考文獻
[1] 安鴻志,陳兆國,杜金觀,潘一民.時間序列的分析與應用.科學出版社 1983.[2] Jiawei Han,Micheline Kamber.數據挖掘: 概念與技術.北京:機械工業出版社2001.3~6、278~285.[3] 貝政新,陳瑛.證券投資通論.上海:復旦大學出版社,1998.[4] 安妮.股票投資技術方法與應用.深圳:海天出版社,1995.[5] 王耀動,張德遠,張海雄.經濟時間序列分析.上海財經大學出版社 1996.[6] 李民,邵建中,李俊平等.用ARMA模型預測深滬股市.長沙鐵道學院學報,2002,18(1):78~84.[7] 李愛國,覃征.滑動窗口二次自回歸模型預測非線性時間序列.計算機學報,第27卷,第7期2004年7月.[8] 孫宏義,朱梅.混沌時間序列預測及在股票市場中的應用.安徽工程科技學院學報,第18卷,第4期2003年12月.[9] 李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究.管理工程學報 2004年第3期.[10] R.Agrawal, T.Imielinski, A.Swami.Mining Association Rules Between Sets of Items in Large Databases[C].Proceedings of ACM SIGMOD Int’1 Conf.Management of Data, Washington D.C., 1993.207~216.[11] R.Agrawal, R.Srikant.Fast Algorithms for Mining Association Rules[J].VLDB94, Santiago, Chile,1994:478~499.[12] Mannila H, Toivonen, Inkeri Verkamo A.Efficient algorithms for discovery association rules.In Proceedings of AAAI Workshop on Knowledge Discovery in database.July 1994.181~192.[13] Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal.Pruning and grouping discovered association rules.In Mlnet workshop on Statistics, Maching Learning and Discovery in Database.Heraklion, Rete.April 1995.[14] Agrawal R, Srikant R.Fast Discovery of Association Rules.In Fayyad.Ⅱ 1996.[15] J.Han, J.Pei.Mining Frequent Patterns Without Candidate Generation.In Proc.2000 ACM-SIGMOD Intl.Conf.on Management of Data(SIGMOD’2000)Dallas TX 2000,1~12.[16] R.Agarwal, C.Aggarwal, V.Prasad.A Tree Projection Algorithm for Generation of Frequent Itemsets.Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.[17] 倪旻,徐曉飛,鄧勝春,趙政.基于頻繁項目對支持矩陣的Apriori優化算法.小型微型計算機系統.Vol.25 No.5, May 2004.[18] 鄧硯谷,王麗珍.對FP-Tree頭表節點數據結構的改進.計算機工程與應用.2004,25.[19] R.Agrawal, J.Shafer.Parallel Mining of Association Rules.IEEE Trans.On Knowledge and Data Engineer 1996,962~969.[20] 張兆功,李建中,張艷秋.海量數據上挖掘關聯規則的并行算法.哈爾濱工業大學學報,2004年05期.[21] 朱紅蕾,李明.一種高效維護關聯規則的增量算法.計算機應用研究,2004年09期.[22] M.Kamber, J.Han, J.Y.Chiang.Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl.Conf.Knowledge Discovery and Data Minin KDD’1997
Newport Beach CA.1997,207-210.[23] 程繼華,郭建生,施鵬飛.元規則指導的知識發現方法研究.計算機工程與應用,1999年第10期.[24] 陸建江.數據庫中布爾型及廣義模糊型加權關聯規則的挖掘[J].系統工程理論與實踐,2002,2:28~32.[25] 程繼華,施鵬飛.多層次關聯規則的有效挖掘算法[J].軟件學報,1998,9(12):937~941.[26] 程 巖,黃梯云.粗糙集中定量關聯規則的發現及其規則約簡的方法研究[J].管理工程學報,2001,15(3):73~77.[27] 倪志偉,蔡慶生,方瑾.用神經網絡來挖掘數據庫中的關聯規則[J].系統仿真學報,2000,12(6):685~687.[28] 高堅.基于免疫遺傳算法的多維關聯規則挖掘.計算機工程與應用.2003年32期.[29] 蘇占東,游福成,楊炳儒.關聯規則的綜合評價方法研究與實例驗證計算機應用.2004年10期.[30] 李虹,蔡之華.關聯規則在醫療數據分析中的應用.微機發展.2003年06期.[31] 胥桂仙,高旭,于紹娜.關聯規則算法在中文文本挖掘中的應用研究.中央民族大學學報(自然科學版).2004年04期.[32] 姜南,唐曉青.應用關聯規則構建質量活動鏈模型.北京航空航天大學學報,2004年05期.[33] 普杰信,薛冰冰.加權關聯規則在網絡入侵檢測系統中的應用.信息技術.2004年04期.[34] Agrawal R, Srikant R.Mining Sequential Patterns.In Proc.95 Int’1 Conf Data Engineering, Taibei,Taiwan.March,5,1995.[35] Tamakrishnan Srikant, Rakesh Agrawal.Mining Sequential Patterns: Generalizations and 7
Performance Improvements.[36] Ramakishnan Srikant.Fast Algorithms for Mining Association Rules and Sequential Patterns,Chapter 5 Mining Sequential Patterns p113-146.[37] F.Masseglia, F.Cathala, P.Poncelet.The PSP Approach for Mining Sequential Patterns.[38] L.A.Zadeh.Fuzzy logic, neural networks, and soft computing, Commun.ACM, Vol.37, pp.77-84, 1999.[39] D.A.Chiang, L.R.Chow,Y.E.Wang.Mining time series data by a fuzzy linguistic summary system.Fuzzy Sets Syst.Vol.112, pp.419-432, 2002.[40] 吳煲寧,林天,孫志揮,汪曉剛.一種基于模糊集的時間序列挖掘算法的設計與實現.計算機工程與應用,2002年20期.[41] 李斌,汪祖媛,高清維,莊鎮泉.基于遺傳算法的時間序列中頻繁結構模式發現研究.電路與系統學報.第九卷,第四期,2004年8月.[42] 劉清.Rough集及Rough推理.科學出版社,2001.[43] 韓中華,吳成東,劉海濤.數據挖掘技術研究進展.工控智能化,2003(10), pp.18-23.[44] Das G, Gunopulos D.Finding similar time series.In Proc.Of the Conference on Principles of Knowledge Discovery and Data Mining, Trondheim, Norway, 1997:124-135.[45] Eamonn Keogh.A Tutorial on Indexing and Mining Time Series Data.In the 2001 IEEE International Conference on Data Mining.November 29, san Jose.[46] R.Agrawal, C.Faloutsos, A.Swami.Efficient Similarity Search in Sequence Databases.In Int.Conference on Foundations of Data Organization(FODO)1993.[47] 李宏,陳松喬,王建新.基于時序模式關聯的股票走勢分析研究.計算機工程與應用,2001,13.[48] Hansen V J, Nelson R D.Data mining of time series using stacked generalizers.Neurocomputing, 2002,43(1):173-184.[49] 王曉華,李冬梅,王正歐.基于正則前饋神經網絡的股票時間序列數據庫的知識發現。計算機工程.第29卷,第12期,2003年7月.[50] G.Das, K.Lin, H.Mannila, G.Renganathan, P.Smyth: Rule Discovery from Time Series.KDD 1998:16-22.[51] R.Srikant, R.Agrwal.Mining quantitative rules in large rational table.In: Proc.Of the ACM SIGMOD Conference on Management of Data.New York: ACM Press, 1996.[52] H.Lu, J.Han, L.Feng.Stock movement and n-dimensional inter-transaction association rules.In: Proc.SIGMOD’ 98(12).Seattle: ACM Press, 1998.[53] M.Garofalakis, R.Rastoki.Spirit: sequential pattern mining with regular expression constraints.In: VLDB’ 99.Edinburgh: Morgan Kaugmann Publishers, 1999.[54] Y.Chen, G.Dong, J.Han.Multi-dimensional regression analysis of time-series data steams.In: VLDB’ 2002.Hong Kong: Morgan Kaugmann Publishers, 2002.[55] 方依蘭,黃智興,張為群.股票信息的數據挖掘.西南師范大學學報(自然科學版).第25卷,第2期,2000年4月.[56] 鄭朝霞,劉廷建.關聯規則在股票分析中的應用.成都大學學報(自然科學版)Vol.21,No.4 2002.[57] 喻偉,陳國青.基于時序數據的延遲關聯規則的挖掘.計算機應用研究.2002年,第12期.[58] 張竹潤,謝康林,張忠能.多粒度時間序列中模糊規則的提取.上海交通大學學報.第35卷,第9期,2001年9月.[59] 馬志鋒,刑漢承,鄭曉妹.一種基于Rough集的時間序列數據挖掘策略.系統工程理論與實踐.2001年12月,第12期.[60] 王曉華,王正欣.正則化訓練的神經網絡與粗集理論相結合的股票時間序列數據挖掘技術.電子與信息學報.第26卷,第4期,2004年4月.
第二篇:數據挖掘研究現狀
一、時代的挑戰
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。于是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘和知識發現(DMKD)技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
二、研究現狀
KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了7次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發現方法轉向系統應用,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當前計算機科學界的一大熱點。
此外,數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了 KDD專題或專刊。IEEE的Knowledge and Data Engineering 會刊領先在1993年出版了KD D技術專刊,所發表的5篇論文代表了當時KDD研究的最新成果和動態,較全面地論述了KDD 系統方法論、發現結果的評價、KDD系統設計的邏輯方法,集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題,KDD系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業的具體應用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領導整個潮流的DMKD開發和研究中心,當數設在美國EMDEN的IBM公司開發部。至于DMKD書籍,可以在任何計算機書店找到十多本,但大多帶有商業色彩。
三、內容和本質
隨著DMKD研究逐步走向深入,人們越來越清楚地認識到,DMKD的研究主要有3個技術支柱,即數據庫、人工智能和數理統計。
數據庫技術在經過了80年代的輝煌之后,已經在各行各業成為一種數據庫文化或時尚,數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外,已經在開始反思。數據庫最實質的應用僅僅是查詢嗎?理論根基最深的關系數據庫最本質的技術進步點,就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸,發現才是數據庫的主人;數據只為職員服務,不為老板服務!這是很多單位的領導在熱心數據庫建設后發出的感嘆。
由于數據庫文化的迅速普及,用數據庫作為知識源具有堅實的基礎;另一方面,對于一個感興趣的特定領域——客觀世界,先用數據庫技術將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此,在需求的驅動下,很多數據庫學者轉向對數據倉庫和數據挖掘的研究,從對演繹數據庫的研究轉向對歸納數據庫的研究。
專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統 ,目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界,通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統時,知識工程師首先要從領域專家那里獲取知識,這一過程實質上是歸納過程,是非常復雜的個人到個人之間的交互過程,有很強的個性和隨機性。因此 ,知識獲取成為專家系統研究中公認的瓶頸問題。
其次,知識工程師在整理表達從領域專家那里獲得的知識時,用if-then等類的規則表達,約束性太大,用常規數理邏輯來表達社會現象和人的思維活動局限性太大,也太困難, 勉強抽象出來的規則有很強的工藝色彩,差異性極大,知識表示又成為一大難題。
此外,即使某個領域的知識通過一定手段獲取并表達了,但這樣做成的專家系統對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎的。人工智能學家 Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽象經驗法則,離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據“在某地發現一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統的應用,使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理,尤其是從事機器學習的科學家們,不再滿足自己構造的小樣本學習模式的象牙塔,開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本,也走上了數據挖掘的道路。
數理統計是應用數學中最重要、最活躍的學科之一,它在計算機發明之前就誕生了, 迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具,已成為信息咨詢業的基礎。信息時代,咨詢業更為發達。然而,數理統計和數據庫技術結合得并不算快,數據庫查詢語言SQL中的聚合函數功能極其簡單,就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求,概率論和數理統計就獲得了新的生命力,所以才會在DMKD這個結合點上,立即呈現出“忽如一夜春風來,千樹萬樹梨花開”的繁榮景象。一向以數理統計工具和可視化計算聞名的美國SA S公司,領先宣布進入DMKD行列。
數據挖掘所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發展方向
當前,DMKD研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解 ,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Int ernet上建立DMKD服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。但是,無論怎樣,需求牽引,市場驅動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產品將會問世
第三篇:數據挖掘關聯規則實驗報告
實驗七
關聯規則
1.實驗目標
? 使用SSAS進行關聯規則挖掘實驗
2.實驗要求
(1)按“實驗內容”完成操作,并記錄實驗步驟;
(2)回答“問題討論”中的思考題,并寫出本次實驗的心得體會;(3)完成實驗報告。
3.實驗內容
生成市場籃方案。Adventure Works 的市場部希望改進公司的網站以促進越區銷售。在更新網站之前,需要根據客戶的在線購物籃中已有的其他產品創建一個可預測客戶購買需求的數據挖掘模型。這些預測還有助于市場部將可能被集中購買的項統一放置在網站的一個位置上。通過實驗,創建關聯規則模型,可預測可能出現在購物籃中的其他項或客戶想要放入購物籃的項。
4.實驗步驟
(1)創建市場籃挖掘模型結構
1.在 Business Intelligence Development Studio 的解決方案資源管理器中,右鍵單擊“挖掘結構”,再選擇“新建挖掘結構”。此時,系統將打開數據挖掘向導。
2.在“歡迎使用數據挖掘向導”頁上,單擊“下一步”。
3.在“選擇定義方法”頁上,確保已選中“從現有關系數據庫或數據倉庫”,再單擊“下一步”。4.在“選擇數據挖掘技術”頁的“您要使用何種數據挖掘技術?”下,選中“Microsoft 關聯規則”,再單擊“下一步”。
“選擇數據源視圖”頁隨即顯示。默認情況下,“可用數據源視圖”下的 Adventure Works DW 為選中狀態。
5.單擊“下一步”。
6.在“指定表類型”頁上,選中 vAssocSeqOrders 表旁的“事例”復選框,選中
vAssocSeqLineItems 表旁邊的“嵌套”復選框,再單擊“下一步”(注意先在視圖中建立兩個表之間的關聯)。
7.在“指定定型數據”頁上,依次清除 CustomerKey 旁邊的“鍵”復選框和 LineNumber
旁邊的“鍵”和“輸入”復選框。
8.選中 Model 列旁邊的“鍵”和“可預測”復選框。然后,系統也將自動選中“輸入”復選框。
9.單擊“下一步”。
10.在“指定列的內容和數據類型”頁上,單擊“下一步”。11.在“完成向導”頁的“挖掘結構名稱”中,鍵入 Association。12.在“挖掘模型名稱”中,鍵入 Association,再單擊“完成”。
(2)調整關聯模型的參數和處理關聯模型
在處理上一個任務中與“關聯”挖掘結構一起創建的初始挖掘模型之前,必須更改以下兩個參數的默認值:Support 和 Probability。Support 定義規則被視為有效前必須存在的事例百分比。Probability 定義關聯被視為有效前必須存在的可能性。
調整關聯模型的參數步驟如下:
1.打開數據挖掘設計器的“挖掘模型”選項卡。
2.右鍵單擊設計器網格中的“關聯”列,然后選擇“設置算法參數”。
系統將打開“算法參數”對話框。
3.在“算法參數”對話框的“值”列中,設置以下參數:
MINIMUM_PROBABILITY = 0.1 MINIMUM_SUPPORT = 0.01 4.單擊“確定”。
處理關聯模型步驟如下:
1.在 Business Intelligence Development Studio 的“挖掘模型”菜單上,選擇“處理挖掘結構和所有模型”。
系統將打開“處理挖掘結構關聯”對話框中,單擊“關閉”。
(3)瀏覽市場籃模型
使用數據挖掘設計器的“挖掘模型查看器”選項卡中的 Microsoft 關聯查看器瀏覽該模型。瀏覽模型時,可以輕松地查看可能同時出現的產品,并可瀏覽項之間的關系。還可以篩選出較弱的關聯,并對新浮現的模式有一個總體的概念。
Microsoft 關聯查看器包含三個選項卡:“項集”、“規則”和“依賴關系網絡”。
“項集”選項卡
“項集”選項卡顯示與 Microsoft 關聯算法發現的項集相關的三種重要信息:支持度(發生項集的事務的數量)、大小(項集中項的數量)以及項集的實際構成。根據算法參數的設置方式,算法可以生成大量的項集。使用“項集”選項卡頂部的控件,可以篩選查看器,使其僅顯示包含指定的最小支持度和項集大小的項集。
也可以使用“篩選項集”框來篩選查看器中顯示的項集。例如,若要僅查看包含有關 Mountain-200 自行車信息的項集,可在“篩選項集”中輸入 Mountain-200。您將在查看器中看到,只有包含“Mountain-200”字樣的項集被顯示。查看器中返回的每個項集都包含有關銷售 Mountain-200 自行車事務的信息。例如,在“支持度”列中包含值 710 的項集表示:在所有事務中,710 個購買 Mountain-200 自行車的人也購買了 Sport-100 自行車。
“規則”選項卡
“規則”選項卡顯示與算法發現的規則相關的以下信息。? ? 概率 規則發生的可能性。
重要性 用于度量規則的有用性,值越高則意味著規則越有用。只看概率可能會產生誤解。例如,如果每個事務都包含一個 x 項,規則 y 預測 x 發生的概率為 1,即 x 一定會發生。即使規則的準確性很高,但這并未傳達很多信息,因為不管 y 如何,每個事務都會包含 x。? 規則 規則的定義。
像使用“項集”選項卡一樣,可以篩選規則,以便僅顯示最關心的規則。例如,如果只想查看包含 Mountain-200 自行車的規則,可在“篩選規則”框中輸入 Mountain-200。查看器將僅顯示包含“Mountain-200”字樣的規則。每條規則都可以根據事務中其他項的發生情況來預測某個項的發生情況。例如,由第一個規則可知:如果一個人購買了 Mountain-200 自行車和水壺,則此人還會購買 Mountain 水壺套的概率為 1。
“相關性網絡”選項卡
使用“相關性網絡”選項卡,可以研究模型中不同項的交互。查看器中的每個節點表示一個項;例如,Mountain-200 = Existing 節點表示事務中存在 Mountain-200。通過選擇節點,可以使用選項卡底部的彩色圖例來確定模型中的項與其他的項的相互確定關系。
滑塊與規則的概率關聯。上下移動滑塊可以篩選出弱關聯。例如,在“顯示”框中,選擇“僅顯示屬性名稱”,再單擊 Mountain Bottle Cage 節點。查看器顯示,Mountain 水壺套預測了水壺和 Mountain-200 自行車,而水壺和 Mountain-200 自行車也預測了 Mountain 水壺套。這意味著,這些項有可能同時在事務中出現。也就是說,如果某個客戶購買了自行車,則他也可能會購買水壺套和水壺。
5.實驗結果及問題討論
(1)根據實驗結果給出市場部統一放置在網站的一個位置上的可能被集中購買的項的建議。通過項集與規則圖,我們可以看出各商品之間的關聯程度,及這種關聯程度的可信度,通過綜合來達到相關聯商品的相互促銷
通過點擊依賴關系網絡圖中的各項,觀察其周圍與之相關的其他項的數量,數量越多。說明此項影響其他銷售的項目越多,我們就可對此項進行促銷,還可將相互影響的物品放在
一起,形成相互促銷。(2)寫出自己對關聯規則的理解。
對于那些很難直接看出關系的各項交易,我們可以通過查詢其交易的相關性,即購買此種產品會連帶購買另一產品的概率,來發現其隱藏的關系,從而通過產品位置的調整或相互促銷,來提高銷售量
第四篇:數據挖掘教學方法研究論文
摘要:在本科高年級學生中開設符合學術研究和工業應用熱點的進階課程是十分必要的。以數據挖掘課程為例,本科高年級學生了解并掌握數據挖掘的相關技術,對于其今后的工作、學習不無裨益。著重闡述數據挖掘等進階課程在本科高年級學生中的教學方法,基于本科高年級學生的實際情況,以及進階課程的知識體系特點,提出有針對性的教學方法參考,從而提高進階課程的教學效果。
關鍵詞:數據挖掘;進階課程;教學方法研究;本科高年級
學生在本科高年級學生中開設數據挖掘等進階課程是十分必要的,以大數據、數據挖掘為例,其相關技術不僅是當前學術界的研究熱點,也是各家企事業單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學位的學生,對于即將走上工作崗位的學生,了解并掌握一些大數據相關技術,尤其是數據挖掘技術,都是不無裨益的。在目前本科教學中,對于數據挖掘等課程的教學,由于前序課程的要求,往往是放在本科四年級進行。如何激發本科四年級學生在考研,找工作等繁雜事務中的學習興趣,從而更好地掌握數據挖掘的相關技術是本課程面臨的主要挑戰,也是所有本科進階課程所面臨的難題之一。
1數據挖掘等進階課程所面臨的問題
1.1進階課程知識體系的綜合性
進階課程由于其理論與技術的先進性,往往是學術研究的前沿,工業應用的熱點,是綜合多方面知識的課程。以數據挖掘課程為例,其中包括數據庫、機器學習、模式識別、統計、可視化、高性能技術,算法等多方面的知識內容。雖然學生在前期的本科學習中已經掌握了部分相關內容,如數據庫、統計、算法等,但對于其他內容如機器學習、人工智能、模式識別、可視化等,有的是與數據挖掘課程同時開設的進階課程,有的已經是研究生的教學內容。對于進階課程繁雜的知識體系,應該如何把握廣度和深度的關系尤為重要。
1.2進階課程的教學的目的要求
進階課程的知識體系的綜合性體現在知識點過多、技術特征復雜。從教學效益的角度出發,進階課程的教學目的是在有限的課時內最大化學生的知識收獲。從教學結果的可測度出發,進階課程的教學需要能夠有效驗證學生掌握重點知識的學習成果。1.3本科高年級學生的實際情況本科高年級學生需要處理考研復習,找工作等繁雜事務,往往對于剩余本科階段的學習不重視,存在得過且過的心態。進階課程往往是專業選修課程,部分學分已經修滿的學生往往放棄這部分課程的學習,一來沒有時間,二來怕拖累學分。
2數據挖掘等進階課程的具體教學方法
進階課程的教學理念是在有限的課時內,盡可能地提高課程的廣度,增加介紹性內容,在授課中著重講解1~2個關鍵技術,如在數據挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復雜度一般,應用廣泛的重要知識點,并利用實踐來檢驗學習成果。
2.1進階課程的課堂教學
數據挖掘等進階課程所涉及的知識點眾多,在課堂上則采用演示和講授相結合的方法,對大部分知識點做廣度介紹,而對需要重點掌握知識點具體講授,結合實踐案例及板書。在介紹工業實踐案例的過程中,對于具體數據挖掘任務的來龍去脈解釋清楚,尤其是對于問題的歸納,數據的處理,算法的選擇等步驟,并在不同的知識點的教學中重復介紹和總結數據挖掘的一般性流程,可以加深學生對于數據挖掘的深入理解。對于一些需要記憶的知識點,在課堂上采用隨機問答的方式,必要的時候可以在每堂課的開始重復提問,提高學習的效果。
2.2進階課程的課后教學
對于由于時間限制無法在課上深入討論的知識點,只能依靠學生在課后自學掌握。本科高年級學生的課后自學的動力不像低年級學生那么充足,可以布置需要動手實踐并涵蓋相關知識點的課后實踐,但盡量降低作業的工程量。鼓勵學生利用開源軟件和框架,基于提供的數據集,實際解決一些簡單的數據挖掘任務,讓學生掌握相關算法技術的使用,并對算法有一定的了解。利用學院與大數據相關企業建立的合作關系,在課后通過參觀,了解大數據技術在當前企業實踐中是如何應用的,激發學生的學習興趣。
2.3進階課程的教學效果考察進階課程的考察不宜采取考試的形式,可以采用大作業的形式。從具體的數據挖掘實踐中檢驗教學的成果,力求是學生在上完本課程后可以解決一些簡單的數據挖掘任務,將較復雜的數據挖掘技術的學習留給學生自己。
3結語
數據挖掘是來源于實踐的科學,學習完本課程的學生需要真正理解,掌握相關的數據挖掘技術,并能夠在實際數據挖掘任務中應用相關算法解決問題。這也對教師的教學水平提出了挑戰,并直接與教師的科研水平相關。在具體的教學過程中,發現往往是在講授實際科研中遇到的問題時,學生的興趣較大,對于書本上的例子則反映一般。進階課程在注重教學方法的基礎上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學過程變成了教學相長的過程。
參考文獻:
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數據挖掘》課程教學方法探討[J].現代計算機,2014(13).[2]蔣盛益,李霞,鄭琪.研究性學習和研究性教學的實證研究———以數據挖掘課程為例[J].計算機教育,2014(24).[3]張曉芳,王芬,黃曉.國內外大數據課程體系與專業建設調查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網絡》課程特點、挑戰和解決方案[J].現代計算機,2016(35).[5]王永紅.計算機類專業剖析中課程分析探討[J].現代計算機,2011(04).
第五篇:客戶關系管理論文:客戶關系管理 零售業 數據挖掘 關聯規則
客戶關系管理論文:基于關聯規則的零售業CRM的設計和實現
【中文摘要】隨著我國零售行業競爭日益激烈,尤其是大型超市越來越多,傳統的營銷模式已經不適應現代的新形勢了。客戶關系管理(CRM)作為一種“以客戶為核心”的支持有效市場推廣、營銷和服務過程的重要經營策略,越來越受到企業重視,有效做好客戶關系管理對于企業提升競爭力起著很重要的作用。而在客戶關系管理系統的基礎上加入數據挖掘技術,可以透過數理模式來分析商家在營銷過程中產生的大量資料,劃分出不同類型的客戶或不同的市場,分析出消費者的愛好和行為的方法,幫助商家保住原有客戶,開發新客戶,進一步提升客戶的滿意度。本文在傳統客戶關系管理系統的基礎上,整合了數據挖掘(關聯規則)及手機平臺的應用,使得系統能夠更有效地完成數據分析,更深度地挖掘潛在客戶,更及時地為使用者反饋信息。本論文從以下幾個方面進行了研究:(1)針對大型超市的工作流程,設計開發了一個大型超市零售業務的CRM,包括客戶管理和智能分析等子系統,包含有客戶資料查詢、商品銷量分析、商品銷售關聯分析和客戶消費關聯分析等等功能。(2)在客戶消費關聯分析中,使用數據挖掘中的關聯規則Apriori算法對客戶消費的商品進行了挖掘,建立了客戶消費方式模型,根據客戶選擇規...【英文摘要】With the increasingly fierce competition of China’s retail industry, especially the wide spread of large
supermarket, the traditional marketing mode cannot adapt to the new situation today.Customer Relationship Management(CRM), an important kind of management tactic, are now attached great importance to which means take the customer as the core to support effective market promotion, marketing and service process.Effecting the CRM effectively plays a very important role in enhancing enterprise’s competiti...【關鍵詞】客戶關系管理 零售業 數據挖掘 關聯規則
【英文關鍵詞】CRM Retail Industry Data mining Association rules 【索購全文】聯系Q1:138113721 Q2:139938848 【目錄】基于關聯規則的零售業CRM的設計和實現6-71113-1614-16ABSTRACT7-8
第1章 緒論11-17
摘要1.1 引論1.2 系統開發背景11-131.3.1 國外現況13-14
1.3 國內外研究狀況1.3.2 國內現況
第2章 客戶1.4 本文的內容和組織結構16-17關系管理與數據挖掘理論17-2517-19
2.1 客戶關系管理
2.1.2 2.1.1 客戶關系管理的基本內涵17-18零售業客戶關系管理的特點18-1919-212.2.1 數據挖掘的定義19
2.2 數據挖掘技術
2.2.2 數據挖掘與知
2.3 基于識發現19-202.2.3 數據挖掘的方法20-21關聯規則的數據挖掘21-242.3.1 關聯規則的概述
21-2224-252.3.2 關聯規則挖掘22-242.4 本章小結
3.1 3.1.2 3.2.1 第3章 零售業CRM系統的分析與設計25-47
3.1.1 功能性需求分析25-26
3.2 總體設計27-36需求分析25-27非功能性需求分析26-27設計思想27-31框架結構33-35臺的選擇36-3936-37
3.2.2 算法模型31-333.2.4 業務數據流35-363.3.1 ADO.NET開發技術
3.2.3 系統的3.3 開發平3.3.2.NET Framework開發技術37-39
3.4.1 操作型數據與分析型數據
3.4 數據設計39-4539-413.4.2 數據庫設計41-453.5 零售業CRM系統
第4章 零售
4.2 4.4 進4.6 系功能模塊設計45-46業CRM系統的實現47-58短信平臺模塊49-50銷存管理模塊54-55統管理模塊57望58-6059-60項目63-64
3.6 本章小結46-47
4.1 客戶管理模塊47-494.3 智能分析模塊50-544.5 報表打印模塊55-57
4.7 本章小結57-58第5章 總結與展5.1 總結58-59參考文獻60-63
致謝64
5.2 今后工作展望攻讀碩士學位期間參加的科研