第一篇:淺談數據挖掘技術及其在高等學校教學中的應用教育論文
關鍵詞:數據挖掘 高校教學 教育信息化
摘要:數據挖掘技術目前在商業、金融業等方面都得到了廣泛的應用,而在教育領域應用較少。本文通過時數據挖掘在高校教學中的應用分析,認為數據挖掘技術可以幫助教學人員合理安排教學工作,協助輔導員對學生的管理,對提高學校的教學管理水平起到指導作用。
1引言
隨著12世紀信息化時代的到來,整個社會的信息總量呈幾何級數迅速增長,人們利用信息技術生產和搜集數據的能力大幅度提高,積累的數據越來越多,但缺乏挖掘數據中隱藏知識的手段,導致了“數據爆炸但知識貧乏”的現象。隨著數據庫技術的成熟和數據應用的普及,在過去的若干年中,人們積累了大量的數據資料,但數據庫中隱藏豐富的知識及有價值信息遠遠沒有得到充分地發掘和利用,隨著數據量以指數速度激增,人們渴求從數據汪洋中出現一個去粗存精、去偽存真的技術,越來越希望系統能夠提供更高層次的數據分析功能,從中找出規律和模式,幫助決策者發現數據間重要但被忽略的因素,從而更好地支持決策或科研工作。正是為了滿足這種要求,從數據庫中發現知識(KDD)及其核心技術—數據挖掘技術應運而生。
2數據挖掘介紹
2.1概念及其特點
數據挖掘(DtaaMniing)是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的,人們事先不知道的但又潛在有用的信息和知識的過程,提取的知識表示為概念、規則、模式等。根據數據挖掘的目標,采用人工智能、集合論、統計學等方法,應用相應的數據挖掘算法,分析數據并通過可視化工具表述所獲得的模式或規則。
數據挖掘有以下特點:(1)能發現反映系統局部特征和規律的模型;(2)自動趨勢預測,能發現“新”的知識;(3)比較容易獲得很多規則,并能及時更新。數據挖掘方法具有開放性思維方法,它可以及時借鑒和引用模型法的很多成果,比如神經網絡、粗糙集、樸素貝葉斯算法等方法都已被利用在數據挖掘方法中。
2.2數據挖掘目的及其過程
2.2.1目的數據挖掘期望發現的知識有如下幾類:(1)反映同類事物共同性質的泛化知識;(2)反映一事物和其他事物之間依賴或關聯的關聯型知識;(3)分類、聚類知識,是反映同類事物共同性質的特征型知識和不同事物之間的差異型知識;(4)根據歷史和當前的數據推測未來的預測型知識。
2.2.2挖掘的過程
挖掘過程是從大型庫中挖掘未知的、有效的、可實用的信息,并使用這些信息做出決策。通常可以分為準備、數據挖掘、評價階段以及運用階段等四個階段。
(1)數據準備階段。數據準備階段是消除數據噪聲和與挖掘主題明顯無關的數據,完成對數據的篩選、變換和預處理。經處理過的數據一般存儲在數據倉庫中。數據準備是否做得充分將影響到數據挖掘的效率和準確度以及最終模式的有效性。包括:①數據的選擇:選擇相關的數據;②數據的預處理:消除噪音、冗余數據;③數據的推測:推算缺失數據;④數據的轉化:離散值數據與連續值數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合等;⑤數據的縮減:減少數據量。
(2)挖掘階段。該階段是數據挖掘的核心步驟,也是技術難點所在。根據數據挖掘的目標,采用人工智能、集合論、統計學等方法,應用相應的數據挖掘算法,分析數據并通過可視化工具表述所獲得的模式或規則。
(3)評價階段。在數據挖掘中得到的模式可能是沒有實際意義或沒有使用價值的,也有可能不能準確反映數據的真實意義,因此需要評估,確定有效的、有用的模式。評估可以根據用戶多年的經驗,有些模式也可以直接用數據來檢驗其準確性。如何將挖掘出的有用知識清楚易懂地提供給教育和管理工作者也是一項非常重要的工作,選擇合適的可視化工具,將結果以關系表或用量化特征規則表示給用戶。
(4)運用階段。用戶理解的、并被認為是符合實際和有價值的模式形成了知識。同時還要對知識進行一致性檢查,解決與以前得到的知識互相沖突、矛盾的地方,使知識得到鞏固。運用知識有兩種方法:一種是只需看知識本身所描述的關系或結果,就可以對決策提供支持;另一種是要求運用知識對新的數據進行分析,由此可能產生新的問題,而需要對知識作進一步的優化。
2.2.3數據挖掘的方法
在數據挖掘算法的理論基礎上,數據挖掘中的常用方法有:①生物學方法,包括人工神經網絡、遺傳算法等;②信息論方法包括決策樹等;③集合論方法包括約略集、模糊集、最鄰近技術等;④統計學方法;⑤可視化技術等方法。數據挖掘的各類算法包括預測模型、關聯規則挖掘算法、分類規則挖掘算法、序列模式分析算法、聚類分析算法、WEB數據挖掘等。
3數據挖掘在高等學校教學中的應用
3.1學生的基本信息
利用數據挖掘技術,比如可以對學生訪問情況進行分析,跟蹤、了解學生出勤情況。還可對學生年齡等個人情況進行分析,了解學生的組成、結構,為合理地安排課程設置提供依據。通過對學生考試情況的分析,并結合出勤情況,可作為考查學生學習的情況,為合理地評估學生綜合素質提供依。對于挖掘出來的規則信息可以利用可視化技術,以圖表或曲線等形式提供給教師,以使教師能充分利用學生的問題資源,從而提高教學質量。另外,數據挖掘可以應用于網上的考試系統,對考生情況和他取得的成績進行挖掘,以幫助教師在以后的教學中更好地讓學生掌握知識。
3.2學生的學習特征
學生特征包括兩個方面:一是學習準備,一是學習風格。學習準備包括初始能力和一般特征兩個方面。學生的初始能力是指學生在學習某一特定的課程內容時,已經具備的有關知識與技能的基礎,以及他們對這些學習內容的認識和態度。學生的一般特征則是指在學習過程中影響學生的心理、生理和社會的特點,包括年齡、性別、年級、認知成熟度、智力才能、學習動機、個人對學習的期望、生活經驗、文化、社會、經濟等背景因素。學生的學習風格與學習活動有著密切的關系。對學生感知不同事物、并對不同事物做出反應這兩方面產生影響的所有心理特征構成了學習風格。
利用數據挖掘功能分析學生特征,并在此基礎上組織學習內容、闡明學習目標、確定教學策略、選擇教學媒體,為學生創造出一個適合其內部條件的外部學習環境,使有效學習發生在每個學生的身上。
3.3預測學生和教師行為發生
管理信息系統中記錄著有關學生與教師在教學中發生的各種教學事故以及典型教學事例等教學運行信息,利用數據挖掘的關聯分析與演變分析等功能,尋找師生各種行為活動之間的內在聯系。如“當存在A,B時可以推出’C,這樣的規則,即當有A行為和B行為發生時,還會有C行為。在教學過程中,如果發現學生或教師已有A,B行為時,馬上可以分析其產生C行為的可能性,及時制定策略促進或制止C行為的發生。
3.4合理設置課程
在學校,學生的課程學習是循序漸進的,而且課程之間有一定的關聯與前后順序關系。在學一門較高級課程之前必須先修一些先行課程,如果先行課程沒有學好,勢必會影響后續課程的學習。另外,同一年級學習同一課程的不同班級,由于授課教師、班級文化的不同,班內學生的總體成績相差有時會很大。利用學校教學數據庫中存放的歷屆學生各門學科的考試成績,結合數據挖掘的關聯分析與時間序列分析等相關功能,就能從這些海量數據中挖掘出有用的信息,幫助分析這些數據之間的相關性、回歸性等性質,得出一些具有價值的規則和信息,最終找到影響學生成績的原因。在此基礎上,對課程設置做出合理安排。
3.5評價學生學習情況
學習評價是教育工作者的重要職責之一。評定學生的學習行為,既對學生起到信息反饋和激發學習動機的作用,又是檢查課程計劃、教學程序以至教學目的的手段,也是考查學生個別差異,便于因材施教的途徑。
特別是對成績管理數據庫進行挖掘,其數據來源于成績管理數據庫,挖掘的任務就是從用戶指定的數據庫中以不同的角度或不同的層次上采掘出一系列的統計結果,如分布情況、關系,對比、顯著性檢驗等,采掘結果用交叉表,特征規則,關聯規則,統計的曲線、圖表等表示,所以采用統計分析方法具有簡單、方便、直觀等優點,最為合適。
因此對學生學習行為和綜合素質進行評價,一般采用模糊論中的模糊綜合評判及模糊聚類的方法,對評價結果采用了對定性和定量指標加權平均算出綜合素質評價得分并排名的方法,而且由于學生綜合素質的評價指標是動態變化的,往往選用動態聚類法對評判結果進行動態聚類分析。
3.6評價教學質里
教學評價是根據教育目標的要求,按一定的規則對教學效果做出描述和確定,是教學各環節中必不可少的一環。教學評價可以通過校園網收集學生對任課教師所講授、輔導課程的意見、評價。有關學生座談意見、學生打分評價、平時各項教學檢查、相應課程期末考試班級成績匯總等都是教學評價的內容,把這些數據要作為教師教授相應課程的檔案數據全部存人數據庫。
利用數據挖掘對數據庫中有關教學的各項評價進行分析處理,可以確定教師的教學內容的范圍和深度是否合適;選擇的教學媒體是否適合所選的教學內容和教學對象;講解的時間是否恰到好處;教學策略是否得當等。從而可以及時的將挖掘出的規則信息反饋給教師,以期更好地提高其教學水平,更好地服務于學生。
4結束語
總之,隨著信息量的急劇增長和對信息提取的更高要求,現在我們很難再依照傳統方法在海量數據中尋找決策的依據,這就必須借助數據挖掘去發掘數據中隱藏的規律或模式,為決策提供更有效的支持。雖然數據挖掘作為一種工具,它永遠也不能替代教師的地位,但是它可以為教師的決策提供科學的依據。數據挖掘技術本身就是人們大量實踐的結晶,它為建立傳統教學中很難獲取或不可能獲取的模型提供了捷徑。
第二篇:數據挖掘在培訓管理中的應用論文
1、引言
對很多培養機構而言,目前急需解決的問題主要有:如何根據不同成員需求設置合理的課程、如何通過教學方式提高成員學習積極性、如何提高成員培訓效果、如何通過考核檢驗成員學習成果等,都是培養機構發展過程中必須面對的問題。隨著我國信息化進程的加快,一些培養機構也開始進行信息化建設,通過信息系統對培訓相關事宜進行管理。但目前在針對培養機構的信息系統中,所實現的功能和模塊是進行簡單的查詢、統計。在了解培訓評估效果時,目前的信息系統中,學員通過系統對不同課程的教師進行打分,系統自對進行匯總、統計,得出教師評價。但這種匯總、統計是最簡單的,對教師評價也缺乏全面性和深度。
2、數據挖掘在培訓管理系統中的應用
大數據時代下,數據信息呈現出海量特點。如何從海量、不完全的信息中尋找到真正有用的信息,是大數據時代中重要的問題。由此便利用到數據挖掘,顧名思義,數據挖掘就是從眾多數據信息中尋找到有用、有價值的信息。大數據時代下,教育行業中,信息量也是海量的,要想提高教學質量就需要運用數據挖掘找尋到有用的教育信息,并運用到實際教學中。信息系統通過一段實際應用后,里面存儲了大量數據,相應的,學習管理系統也是如此,里面蘊含了大量數據信息。如在線課程等功能中藏有大量師生應用過程中的數據資料。如圖1為數據挖掘在培訓管理中的流程圖。
2.1初步探索
培訓管理系統中一般具有數據統計功能,將相關事宜進行統計。如網絡課程開展過程中,數據挖掘在培訓管理系統中的應用文/張宏亮在大數據時代,如何使用現有的數據對學員進行培訓管理,從而提高培訓效率是當前培訓管理中所面臨的問題。本文分析了數據挖掘在培訓管理中的應用主要表現在初步探索、數據預處理以及數據挖掘過程。其中數據預處理和數據挖掘是培訓系統的核心功能。
2.2數據預期處理
數據預處理時,原始數據庫會發生轉變,以適應數據挖掘、數據挖掘算法等的要求。在處理結構化的數據時,數據預處理需要完成兩項任務,即消除數據缺陷現象的存在和為數據挖掘奠定良好基礎。數據處理是對現有的數據進行前期處理,方便后期數據挖掘。如圖2為培訓管理系統中數據預處理模塊。
2.3數據挖掘
WangJ開發了一個將數據挖掘技術與基于模擬的培訓相結合的混合框架,以提高培訓評估的有效性。以信仰為基礎的學習概念,用于從知識/技能水平和信心水平的兩個維度來評估學員的學習成果。數據挖掘技術用于分析受訓人員的個人資料和基于模擬的培訓產生的數據,以評估學員的表現和學習行為。提出的方法論以臺灣基于模擬的步兵射擊訓練的實例為例。結果表明,提出的方法可以準確地評估學員的表現和學習行為,并且可以發現潛在的知識來提高學員的學習成果。BodeaCN使用數據挖掘技術進行了培訓學習管理,用于分析參加在線兩年制碩士學位課程項目管理的學生的表現。系統數據來源是收集學生意見的調查數據,學生記錄的操作數據和電子學習的平臺記錄的學生活動數據。
3、總結
目前培訓機構在進行教學評估時,所選擇的指標都是參考其他機構的,并沒有真正從自身實際出發進行評估,因此教學評估時存在諸多問題。其中最明顯的兩個問題是:第一教學評估方式單一化嚴重,只以數字評估為主;第二評估時容易受各種主觀因素影響。
參考文獻
[1]菅志剛,金旭.數據挖掘中數據預處理的研究與實現[J].計算機應用研究,2004,21(07):117-118.[2]王全旺,趙兵川.數據挖掘技術在Moodle課程管理系統中的應用研究[J].電化教育研究,2011(11):69-73.[3]陳怡薇.數據挖掘技術:教育培訓管理新手段[J].石油化工管理干部學院學報,2014(04):49-52.[4]肖明,陳嘉勇,栗文超.數據挖掘在學習管理系統中應用的研究進展綜述[J].現代教育技術,2010,20(09):127-133.
第三篇:數據挖掘技術在客戶關系管理中如何應用畢業論文.
數據挖掘技術在客戶關系管理中如何應用
根據波特的影響企業的利益相關者理論,企業有五個利益相關者,分別是客戶、競爭對手、供應商、分銷商和政府等其他利益相關者。其中,最重要的利益相關者就是客戶。現代企業的競爭優勢不僅體現在產品上,還體現在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據優勢和主動。而對市場份額的爭奪實質上是對客戶的爭奪,因此,企業必須完成從“產品”導向向“客戶”導向的轉變,對企業與客戶發生的各種關系進行管理。進行有效的客戶關系管理,就要通過有效的途徑,從儲存大量客戶信息的數據倉庫中經過深層分析,獲得有利于商業運作,提高企業市場競爭力的有效信息。而實現這些有效性的關鍵技術支持就是數據挖掘,即從海量數據中挖掘出更有價值的潛在信息。正是有了數據挖掘技術的支持,才使得客戶關系管理的理念和目標得以實現,滿足現代電子商務時代的需求和挑戰。
一、客戶關系管理(CRM CRM是一種旨在改善企業與客戶之間關系的新型管理方法。它是企業通過富有意義的交流和溝通,理解并影響客戶行為,最終實現提高客戶獲取、客戶保留、客戶忠誠和客戶創利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業銷售收入,改善企業的服務,提高客戶滿意度,同時能提高員工的生產能力。
二、數據挖掘(DM 數據挖掘(Data Mining,簡稱DM,簡單的講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不
完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。
常用的數據挖掘方法有:(1關聯分析。即從給定的數據集中發現頻繁出現的項集模式知識。例如,某商場通過關聯分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發現數據庫中不同商品的聯系,進而反映客戶的購
買習慣。(2序列模式分析。它與關聯分析相似,其目的也是為了控制挖掘出的數據間的聯系。但序列模式分析的側重點在于分析數據間的前后(因果關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下隨著購買B商品,來發現客戶潛在的購買模式。(3分類分析。是找出一組能夠描述數據集合典型特征的模型,以便能夠分類識別未知數據的歸屬或類別。例如,銀行可以根據客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4聚類分析。是從給定的數據集中搜索數據對象之間所存在的有價值聯系。在商業上,聚類可以通過顧客數據將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5孤立點分析。孤立點是數據庫中與數據的一般模式不一致的數據對象,它可能是收集數據的設備出現故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發現信用卡詐騙,電信部門可以利用孤立點分析發現電話盜用等。
三、數據挖掘在客戶關系管理中的應用 1.進行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數據挖掘可以幫助企業進行客戶分類, 針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現有客戶的價值。細致而可行的客戶分類對企業的經營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數據信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數據庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經過數據挖掘的聚類分析,可以發現他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業務服務成本,取得更高的收益。
2.進行客戶識別和保留
(1在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶
這時可以采用DM中的分類方法。首先是通過對數據庫中各數據進行分析,從而建立一個描述已知數據集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發行公司利用顧客郵件地址數據庫,給潛在顧客發送用于促銷的新書宣傳冊。該數據庫內容有客戶情況的描述,包括年齡、收入、職業、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數據庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發送相應書籍的宣傳手冊。
(2在客戶保留中的應用
客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失 的過程。對企業來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學校的招生人數在逐漸減少,那么就要找出減少的原因,經過廣泛的搜集信息,發現原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業的教師。
(3對客戶忠誠度進行分析
客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數據挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數據進行分析,可以預測出顧客忠誠度的變化,據此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客
(4對客戶盈利能力分析和預測
對于一個企業而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業而言,其價值是不同的。研究表明,一個企業的80%的利潤是由只占客戶總數的20%的客戶創造的,這部分客戶就是有價值的優質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創利能力來劃分客戶,進而改進客戶關系管理。數據挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業制定合適的市場策略。商業銀行一般會利用數據挖掘技術對客戶的資料進行分析,找出對提高企業盈利能力最重要的客戶,進而進行針對性的服務和營銷。
(5交叉銷售和增量銷售
交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業和客戶間的關系。增量銷售是促使客戶將現有產品和服務升級的銷售活動,目的在于增強企業和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數據挖掘可以采用關聯性模型或預測性模型來預測什么時間會發生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。
四、客戶關系管理應用數據挖掘的步驟 1.需求分析
只有確定需求,才有分析和預測的目標,然后才能提取數據、選擇方法,因此,需求分析是數據挖掘的基礎條件。數據挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯分析、分類、聚類及預測,還是其他應用。應對現有資源如已有的歷史數據進行評估,確定
是否能夠通過數據挖掘技術來解決用戶的需求,然后將進一步確定數據挖掘的目標和制定數據挖掘的計劃。2.建立數據庫
這是數據挖掘中非常重要也非常復雜的一步。首先,要進行數據收集和集成,其次,要對數據進行描述和整合。數據主要有四個方面的來源:客戶信息、客戶行為、生產系統和其他相關數據。這些數據通過抽取、轉換和裝載,形成數據倉
庫,并通過 OLAP 和報表,將客戶的整體行為結果分析等數據傳遞給數據庫用戶。3.選擇合適的數據挖掘工具 如果從上一步的分析中發現,所要解決的問題能用數據挖掘比較好地完成,那么需要做的第三步就是選擇合適的數據挖掘技術與方法。將所要解決的問題轉 化成一系列數據挖掘的任務。數據挖掘主要有五種任務:分類,估值預測,關聯 規則,聚集,描述。前三種屬于直接的數據挖掘。在直接數據挖掘中,目標是應 用可得到的數據建立模型,用其它可得到的數據來描述感興趣的變量。后兩種屬 于間接數據挖掘。在間接數據挖掘中,沒有單一的目標變量,目標是在所有變量 中發現某些聯系。4.建立模型 建立模型是選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型 的過程。一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較 好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類。回歸是通 過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未 來的值。這一步是數據挖掘的核心環節。建立模型是一個反復進行的過程,它需 要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最 合理、最適用的模型。5.模型評估 為了驗證模型的有效性、可信性和可用性,從而選擇最優的模型,需要對模 型進行評估。我們可以將數據中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數據以用 戶能理解的方式出現,直至找到最優或較優的模型。6.部署和應用 將數據挖掘的知識歸檔和報告給需要的群體,根據數據挖掘發現的知識采取 必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用 系統。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當 的調整,以使模型適應不斷變化的環境。參考文獻: [1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經濟 出版社,2002 [2]馬剛:客戶關系管理[M]大連:東北財經大學出版社,2008
第四篇:數據挖掘論文:數據挖掘技術及其在高校教學系統應用的研究
數據挖掘論文:數據挖掘技術及其在高校教學系統應用的研究
【中文摘要】高校教學系統作為大學數字化教學的一個重要組成部分,運行多年已經積累了大量的數據,但并沒有得到很好的挖掘和研究。相反,數據挖掘在保險、電信、金融等領域卻得到了廣泛的應用,取得了良好的收益,而對教育信息的挖掘及知識發現方面研究及開發卻很少。為了從大量的的教學數據中獲取有用的知識,更好的為高校教學、管理及科研等提供服務,本文結合高校管理系統與數據挖掘技術對教學質量評估及學生成績分析進行了研究,對相關算法做了相應的改進,并對結果進行分析,從而獲得有用的信息。本文首先介紹了論文的,國內外的研究現狀,然后介紹了數據倉庫及數據挖掘的基本概念,主要的數據挖掘技術,數據挖掘的體系結構及運行過程。其次就其在教學系統中的應用進行了分析,提出了教學質量評估、學生成績分析兩個分析主題,介紹了教學數據倉庫的構建,給出了基于SQL Server的數據挖掘解決方案,分別運用關聯規則和決策樹方法進行研究,介紹了相關算法,并進行了優化,接著是數據挖掘的實現。最后對相關數據進行挖掘,對實驗結果做出了初步分析,所得出的結論對高校教學工作具有一定的指導意義。
【英文摘要】Higher education management system as an important part of the university digital teaching has accumulated a lot of data for years, but has not been good for
mining and research.In contrast, data mining in insurance, telecommunications, financial and other fields has been widely used and obtained a good income, while education information mining and knowledge discovery research and development is rarely.In order to obtain useful knowledge from a large number of the teaching data, and provide better services for the university teaching, management and scientific research, this paper combines higher education management system and data mining technology and study teaching quality assessments and student performance analysis, improves interrelated algorithm,analysises the results,acquires interesting information.The article proposes the research background,the domestic and abroad research status,the concepts of data warehouse and data mining, the main data mining technologies, data mining architecture and operation process.Second,analysises data mining application in higher education management system, proposes two analysis themes including teaching quality assessments and student performance analysis, then introduces the education data warehouse, gives based on the SQL Server data mining solution, researches them with association rules and decision tree respectively, introduces and optimize the related algorithms, data mining
implementation.Finally, mines the relevant data, and makes a preliminary analysis of experimental results, the conclusions of the work have some significance on university teaching.【關鍵詞】數據挖掘 數據倉庫 關聯規則 決策樹
【英文關鍵詞】Data Mining Data Warehouse Association Rules Decision Tree 【目錄】數據挖掘技術及其在高校教學系統應用的研究4-57-9ABSTRACT5
目錄6-7
第一章 緒論
摘要1.1 課題研究背景7
7-8
1.2 數據挖掘技術在高校教
1.4 學中應用的研究現狀論文的組織結構8-99-18
1.3 研究內容及方法8第二章 數據倉庫及數據挖掘理論2.1 數據倉庫的概念和基本特性92.2 數據倉庫開發模型9-1111-12分類13-15
2.3 數據倉庫系統的設計和實施
12-13
2.5 數據挖掘的2.7 數據2.4 數據挖掘基本概念
2.6 數據挖掘的體系結構15-16挖掘的常用技術16-18施18-31
第三章 教學系統數據倉庫的設計與實
3.2 高校數據倉3.1 數據倉庫的應用目標庫的體系結構18-1919-20實現28-31用31-42的算法32-34
3.3 數據倉庫的需求分析
3.5 ETL的3.4 數據倉庫三層模型的建立20-28
第四章 關聯規則方法及其在教學質量評估中的應4.1 關聯規則挖掘31-32
4.2 關聯規則挖掘
4.4
4.3 關聯規則挖掘算法的改進34-36
關聯規則在教學質量評估中的應用36-42及其在學生成績分析中的應用42-5742-44類45-4646-5757-5860-61 5.2 決策樹的改進44-45
第五章 決策樹方法5.1 決策樹方法5.3 決策樹算法的分5.4 決策樹方法在學生成績分析中的應用第六章 總結與展望57-596.2 展望58-59
6.1 論文總結
參考文獻
致謝59-60
第五篇:數據挖掘技術在圖書采購中的應用初探.專題
數據挖掘技術在圖書采購中的應用初探 湖南理工學院圖書館 張 暉
[摘 要]數據挖掘是一種新的信息技術,在許多行業有著廣泛的應用。高校圖書館同樣可以成為其應用的一個領域。在圖書采購中,可以應用數據挖掘技術來提高采購的效率和針對性。
[關鍵詞]數據挖掘 高校圖書館 圖書采購
計算機網絡與數據庫技術的發展和廣泛應用,信息日益成為企業的一種重要資源,人們利用信息技術生產和搜集數據的能力大幅度提高,在這些數據背后隱藏著極為重要的商業知識,但是這些商業知識是隱含的、事先未知的。面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘技術應運而生,越來越顯示出其強大的生命力。
1數據挖掘技術概述
數據挖掘(D ata M in ing是一種新的信息處理技術,其主要特點是對單位、企業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,以從中提取輔助管理決策的關鍵性數據。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。常用的數據挖掘技術主要有以下幾種: 1.1人工神經網絡
仿照生理神經網絡結構的非線性預測模型,主要由“神經元”的互聯,或按層組織的節點構成,通常由輸入層、中間層和輸出層三個層次組成,在每個神經元求得輸入值后,再匯總計算輸入值;由過濾機制比較輸入值,確定網絡的輸出值。
1.2決策樹
決策樹是一個類似流程圖的樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分枝代表1個測試輸出,而每個樹葉點代表類或類分布。樹的最頂層節點是根節點。目前,在數據挖掘中使用的決策樹方法有多種,典型的在國際上影響較大的決策樹方法是Q n in lan研制的I D3算法。
1.3遺傳算法
遺傳算法是模擬生物進化過程的計算模型,是自然遺傳學與計算機科學相互結合滲透的計算方法。遺傳分析應用搜索技術,先找出兩個合適的父樣本,通過“交叉”“變異”等帶有生物遺傳特點的操作產生下一代樣本,對子樣本反復“交叉”“變異”操作直到子樣本收斂為此,再找另外兩個合適的父樣本重復上述過程,就能得到下一代的樣本集。由此得到當前樣本集較可能的發展方向。
1.4近鄰算法
用該方法進行預測的基本概念就是相互之間“接近”的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰居對象。
1.5規則推導
根據統計意義上對數據中的規則“如果條件怎么樣、怎么樣,那么結果或情況就怎么樣”,對給定的一組項目和一個記錄集合,通過分析記錄集合,推導出項目間的相關性。
1.6聚類方法
聚類分析方法按一定的距離或相似性測度將數據分成系列相互區分的組,它是不需要預定義知識而直接發現一些有意義的結構與模式。可采用拓撲結構分析、空間緩沖區及距離分析、覆蓋分析等方法,旨在發現目標在空間上的相連、相鄰和共生等關聯關系。
1.7可視化技術
可視化技術在數據挖掘過程中的數據準備階段是非常重要的,它能夠幫助人們進行快速直觀地分析數據。利用可視化方法,很容易找到數據之間可能存在的模式、關系和異常情況等。
2高校圖書館可以成為數據挖掘技術的應用領域
目前,在很多領域,數據挖掘都是一個很時髦的詞,尤其是在銀行、電信、保險、交通、零售(如超級市場等商業領域。同樣,數據挖掘技術在高校圖書館中的應用,將為圖書館在數字資源的組織和管理、服務質量的提升和服務方式的拓展等方面提供技術支持,并顯示出強大的生命力。高校圖書館可以成為數據挖掘技術的應用領域,理由如下: 2.1高校圖書館管理的需要
在信息化社會中,圖書館的生存與發展和先進技術的運用是密不可分的。目前,高校圖書館利用的信息管理系統可以高效地實現傳統圖書館信息管理中的數據的錄入、查詢、統計、流通借閱等功能,相對于從前的手工加工管理時代,可以說是一次飛躍,但圖書情報部門的工作仍然主要是對信息的載體進行管理,以提供信息的外在特征服務為主,無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。高校圖書館作為學術性、科研性、服務性機構,在高等教育中承擔著重要角色,特別是在向數字化圖書館轉型過程中,迫切需要應用分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、W eb網頁挖掘等技術手段對信息進行深加工,以推動圖書館業務與管理的全面進步。運用數據挖掘技術,實現海量數據的存儲和利用,支持圖書館各種層次的科學決策,促進圖書館管理的發展。
2.2圖書館物質基礎的形成
在現代科學技術推動下,高校圖書館正朝著自動化、數字化和信息化的方向發展。一方面,我國的圖書館系統經過多年的自動化建設,已具備相當的物質條件和人才儲備,并積累了大量數據,為數據挖掘應用奠定了一定的物質基礎。另一方面,圖書
館的數字化發展是我國信息化建設的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經濟上的支持,為行業
— 8 5 1 —
性數據挖掘的實施提供了良好的政策環境和經濟保障。2.3實現技術的成熟
數據挖掘在經過多年的發展之后已經形成相對成熟的技術體系,特別是在數據挖掘設計、數據抽取以及聯機分析處理技術等方面都取得了令人滿意的進展,為數據挖掘的應用奠定了技術基礎。另外,數據挖掘技術在發達國家的電信、制造、零售、金融等領域已有較深程度的應用,并取得了巨大的回報,這些成功應用的例子為我們提供了可資借鑒的寶貴經驗。
3應用數據挖掘技術開展圖書采購工作
目前,國際上已經將圖書館的信息服務納入了電子商務之中,數據挖掘技術不僅在商業界倍受青睞,它在現代化圖書館中的應用前景也十分廣闊,而圖書采購則是數據挖掘技術在高校圖書館應用中的一個典型領域。基于數據挖掘技術的圖書采購策略的基本思路是:利用計算機圖書管理數據庫積累的圖書借閱流通資料,利用數據挖掘技術得到讀者借閱頻率較高的圖書類型的關鍵詞、出版社、編著者信息,考慮缺書比例較大的圖書,依此決定采購策略。
3.1讀者信息資源的收集
采訪部門職能發揮的好壞關系到圖書館資金及資源利用率的高低,如何采購高質量的書刊是圖書館工作的重中之重。因此,準確地定位讀者對象的需求就成為提高資源利用率的一個主要因素。根據流通數據庫的集成數據進行數據挖掘,能夠得到讀者對圖書資源的使用頻率表,對讀者進行分類的同時對適合不同類別的讀者的圖書資源進行聚類,可以快速而精確地得到訂書單。通過收集整理圖書館網站上的在線調查、留言簿等數據,或是設計讀者調查表,包括讀者的基本情況、閱讀興趣、查閱資料的途徑及對國內外文獻資源的需求情況等,將這些元數據轉化為標準的結構化數據庫,利用數據挖掘方法分析讀者行為傾向,發現用戶興趣模式,就能動態的調整采購策略,有針對性地應對需求。
3.2確定采購的重點
圖書館每年的文獻購置費是有限的,各門學科之間如何分配、各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是一件令人頭疼的事。隨著出版物的數量日益增多,載體日益豐富,高校圖書館信息結構、讀者需求與資金利用的平衡問題越來越不易把握,也令采購工作的決策變得更加復雜。數據挖掘技術可以對流通數據庫和采訪數據庫中的歷史記錄數據進行關聯性分析和序列分析,可以輕松地統計出文獻的拒借集合和頻繁借閱集合,科學分析各類文獻的利用率,為采購文獻提供科學合理的各種分析報告及預測信息,從而指導采訪人員對文獻種類進行科學地篩選,合理地確定各種文獻所需的復本量,及時補充短缺的文獻,剔除過時的文獻,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學性和合理性。
3.3訂購渠道的管理
圖書訂購是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現代化圖書館資源建設的開始。傳統圖書館的訂購信息大多來源于出版社和書商,信息量有限,這樣會導致重復訂購和館藏資源不足的矛盾現象出現。隨著信息技術的發展,圖書訂購渠道已呈現多樣化,包括專家訂書、光盤檢索、電子文獻、借閱數據庫查詢等。通過數據挖掘技術可以為圖書采購提供科學的、合理的分析和預測,從而實
現訂購渠道的管理,選擇合適的訂購渠道,為圖書館節省可貴的經費,買到最適用的圖書。
3.4確定圖書的學科比例
圖書館要全面兼顧不同類型的讀者,考慮各個學科內容的完整搭配組合。即使最近一段時間武俠小說非常流行,也不能全部只購買武俠小說。大學的圖書館必須結合學校的專業設置,為各個專業的教學科研配備參考書,不能顧此失彼。應當結合館藏圖書的學科專業分布、發展趨勢以及現有藏書量,控制不同學科的圖書占總采購金額的比例。對于館藏數量少,而根據發展趨勢急需加強的學科需要擴大比例。通過流通、采訪系統數據進行如關聯性分析、序列分析等挖掘方法得到的結果,可以分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻信息,為采購文獻提供科學合理的各種分析報告及預測信息,指導采訪人員對購書的種類、所需復本數量等進行科學的篩選,優化館藏結構,合理確定各學科的圖書比例。
3.5采購經費的管理
傳統圖書館信息采集多由專門采訪人員獨自確定或與少數專家商討決定,不可避免的帶有極大的主觀性以及個人喜好;而且圖書館每年的文獻購置費是有限的,各門學科之間如何分配,各種文獻載體形式如何均衡才能使這些經費最好地發揮效益,這是一件令人頭疼的事。而運用數據挖掘技術可以通過對圖書館的借閱流通記錄、檢索請求進行分析、挖掘,有針對性的補充和豐富信息資源,并可以籍此分析出文獻的利用率,從而實現采購經費的合理管理,區分輕重緩急,“好鋼用在刀刃上”。
參考文獻
[1]王向輝等.數據挖掘技術及其在決策支持系統中的應用[J]計算技術與自動化,2004(4 [2]陳瑞雪.數據倉儲與數據挖掘技術在現代化圖書館中的應用[J].圖書館學研究,2004(11
[3]張存祿等.數據挖掘在圖書采購中的應用[J].情報科學,2004(5 [4]劉曉東.數據挖掘在圖書館工作中的應用[J].情報雜志,2005(8 [5]鮑翠梅等.數據挖掘技術及其在圖書館中的應用[J].情報雜志,2004(9 — 9 5 1 —