第一篇:開題報告_基于數據挖掘方法的學生課程推薦算法研究
基于數據挖掘方法的學生課程推薦算法研究
一、課題來源及研究的目的和意義
1.1 課題來源
計算機技術的進步,以及計算機網絡建設的完善促使著社會信息化進程持續發展[1]。信息數據的獲取、記錄、保存、檢索等操作也因為新技術的不斷應用而變得更加方便快捷[2]。一方面,遍布各處的計算機網絡終端設備打破了信息數據記錄的時間和地域限制,讓我們可以隨時隨地發送和接收數據;另一方面,存儲速度越來越快的大容量電磁存儲技術大大降低了信息數據存儲的代價,使得記錄并長時間保存海量數據成為現實。總體來說,在當今社會的各個領域中,信息數據的記錄已經告別了“記賬簿”形式的傳統方式,邁入了電磁化存儲的新時代[3]。信息數據存儲需求與信息數據存儲代價兩者之間的矛盾進一步深化為信息數據存儲數量激增與信息數據處理能力停滯不前的矛盾。簡單的說就是“我們應該如何獲取蘊涵于海量數據之中的信息?”這一問題。總所周知,信息處理是一個知識創造的過程。這個過程需要具有某領域專業知識的專家通過對數據進行分析來完成。數據的大爆炸使得整個信息處理過程不堪重負。在原始的信息處理方式日益不能滿足信息處理的需求的背景下,在統計學、計算機科學、人工智能等多學科知識融合的基礎上,數據挖掘方法應運而生,將數據處理和信息獲取從原始的人工方式轉向了大規模計算機自動化的方式,開辟了信息數據處理的新局面[4]。
教育是立國之本。隨著我國改革開放的不斷深化,教育事業正在逐步成為我國現代化建設過程中的一項重要工作[5]。我國的各項新教育政策的出臺鼓勵更多的青少年走進學校接受高等教育,為祖國的未來貢獻自己的力量。到2020年,我國的大學入學率計劃達到40%,較2006年提高了17%。在如此龐大的學生群體面前,人均可利用的教育資源正在逐年縮減。如何在有限教育資源的前提下,提高教育資源利用率是關系我國教育教學質量的重要問題之一。為此,需要我國的教育工作者深入研究我國目前的教育體制,提出合理化建議,健全我國教育教學體制,提高教學質量。衡量教學質量的關鍵因素是學生,量化學生學習質量的主要指標是學生成績。面對3000萬學生以及上億的成績數據,顯然數據挖掘是必不可少的信息數據處理方法[6]。
1.2 課題研究目的和意義
我國的現代化教育體系建設起步雖然略晚于西方發達國家,但是其發展卻相當快速,并且取得了長足的進步。其中最具代表性的就是目前廣泛應用于各所高校中的學生成績數據挖掘系統。由于不同高校在重點學科建設的傾向性不同,所以各個高校在系統建設的指導思想上和具體實施過程中都結合自身的特點有所取舍,不同系統之間取長補短,各具特色,形成一種“百家爭鳴,百花齊放”的良性競爭局面。其中效果較好的方法是將系統分為數據獲取、數據處理、信息挖掘、信息理解和結果應用五個模塊[36-40]。在信息挖掘和信息理解模塊,系統綜合運用Apriori算法、C4.5算法、K-means算法和層次聚類等機器學習方法,構建完善的學生成績分析平臺[41,42,43]。于成的《數據挖掘在學生成績分析中的應用》、武麗芬和孟強的《學生成績數據挖掘的研究與實現》、朱燕燕的《學生成績數據挖掘系統的設計與應用》、白玲的《數據挖掘在高校學生成績分析中的應用》都是基于這種思想構建的教學平臺。雖然這些方法在算法的具體細節上都具有各自的特點,但是它們的關注焦點都集中在對數據中關聯規則的挖掘。通過有效地發現、理解、運用關聯規則,能夠使隱含于大量數據之中復雜而有用的知識為現代化教育系統的建設做出更大的貢獻。這些系統所需的數據來源于多年來教學過程中積累的學生考試成績。通過對這些數據的深度挖掘不難發現,學生成績的高低不單單取決于課程本身,還會受到學科的課程設置、教學計劃的制定、各門課程的先后順序等諸多方面的影響。由此產生了學者關于“如何為學科設置課程”、“各門課程之間的相互關系”、“如何評定綜合學生學科綜合成績”等問題的思考。經過高校教育工作者、領域專家學家多年來共同的研究與實踐,我國已經探索出一條符合中國教育實際情況的發展之路。高校智能排課系統的出現正是其中[45,46,47]重要的成果之一。四川師范大學2008年在汪曉飛等學者的努力下,成功將遺傳算法應用于求解排課問題中,取得了良好的效果。該方法分析對比確定了一系列影響排課問題的因素,將其作為約束條件建立排課問題最優化模型,通過遺傳算法多代進化找到了科學合理的課程排列順序。2011年大連交通大學的劉震根據實際的工作經驗,在原有的研究基礎上全面闡述了排課工作的原則、流程以及重點難點。針對排課問題中易出現的沖突,他應用關聯規則算法加以解決,排除了排課問題中漏課重課的錯誤,減輕了人工排課的壓力,提高了學生學習的效率。將智能排課與自動出題、考試成績分析三者相結合,從根本上改變了傳統教學方式下經驗式排課、院系集中出題、教師人工閱卷的局面,將教師從繁重的教學輔助工作中解放出來,使其能夠有更多時間指導學生的日常學習,答疑解惑[48]。
二、國內外在該方向的研究現狀及分析
國內外學者已經從不同角度,不同側重對這一問題進行了深入的研究與探討。尤其是近年來,隨著全世界對教育熱點問題關注度的持續升溫,許多新思想、新方法層出不窮。其中著重于學生考試成績分析的研究方法一直是解決這一問題的熱點[25,26,27]。印度學者Brijesh Kumar Baradwaj和Saurabh Pal在2011年發表的論文《Mining Educational Data to Analyze Students’ Performance》中提出一種通過分析學生考試成績數據的方法來預測學生的表現。該方法首先通過在線考試系統獲得學生的考試成績數據,然后建立高校教育系統的數據挖掘模型,利用以ID3決策樹為主的機器學習方法對模型中的數據進行分類,最終達到預測學生在學校學習情況的目的。與之相關的數據方法還包括Pandey和Pal提出的《Data Mining: A prediction of performer or underperformer using classification》。這種方法以學生的年級和先修課程為基礎,以貝葉斯網絡為手段,目的是預測初學者可能出現的學習情況。此類方法都是典型的機器學習方法。它們需要采集學生的多種信息數據作為算法的分析基礎,通過多種機器學習方法相結合的方式構造數據挖掘模型,并將構造好的分析模型應用于具體的分類和回歸問題中去[28,29]。除了上述的決策樹學習算法和貝葉斯網絡算法,常用的數據挖掘方法還包括聚類算法、神經網絡算法、遺傳算法和線性回歸算法等[30-35]。利用準確的成績預測模型,我們還可以繼續深化關于問題的研究。例如Galit等在論文《Examining online learning processes based on log files analysis: a case study 》中描述了一種教學輔助系統就是對考試分析結果的再利用。該系統根據學生的學習情況,為學生提供必要的學習計劃,督導學生按計劃執行學習,幫助學生順利通過最終的學科測驗。
三、主要研究內容及創新點 3.1 主要研究內容
目前,我國的現代化教育體制綜合信息平臺主要分為以下四個方面[7]:第一,現代化遠程教育系統;第二,基于海量題庫的自動出題系統;第三,學生成績的智能分析系統;第四,學科設計及教學計劃的優化系統。上述四類系統基本涵蓋了現代教育體系中從教育規劃到教育實施的各個方面。如果這四部分能夠相輔相成,相互融合形成一個有機整體,那么將會打開我國的教育現代化的新局面,使整個基礎教育事業邁上一個新臺階[8]。但是在實施過程中,由于這四部分的難易程度有所區別,導致了它們的發展水平參差不齊。其中隨著我國計算機硬件及其他輔助設備的不斷普及和基礎網絡設施建設的不斷完善,遠程授課系統不斷推陳出新,從最初的單向講授形式發展到先進的雙向交互形式,大大提升了學生的學[9]習興趣和學習效果。而計算機自動出題系統的廣泛應用已經徹底改變了原有考試形式的單一性,大大增強了考試的靈活性,同時也防止了考試試題泄露等不端行為[10-13]。在此基礎上建立起來的考試評分系統,不僅大大縮短了考試成績的評判周期,避免誤判漏判現象的發生,從根本上維護了考試的公平公正原則。相比較上述幾部分,我國的教育體系信息平臺對于學生考試成績的分析和利用,還停留在評價學生知識掌握的程度的單一層面上。事實上,考試制度的建立不單單是為了衡量學生對知識的記憶能力,而是為了通過考試這種形式來幫助學生找出學習過程中的不足,采取適當的方式加以指導,最終達到知識理解和再應用的目的[14,15,16]。更進一步的是,在國內外文化充分交流的今天,我國高校借鑒西方知名學府的先進經驗,普遍采取了學分制的教學管理模式。這種新興的教學模式能夠激發學生自主學習的興趣,有助于跨學科綜合性人才的培養。在帶給學生很高的學習自由度的同時,也使原先適應了傳統教學習慣的學生面臨新的挑戰[17]。如何制定適合自己的學習計劃是擺在每個學生面前的重要問題。畢竟面對種類繁多的學科,缺少學科深入認知的學生們只能憑著自己對學科內容的表面理解進行選擇。這種摸著石頭過河的學科選擇方式顯然是不可取的。因為這種做法既忽視了學生自身的特點,又沒能提供必要的教學指導,很可能導致學生學習進度緩慢,甚至半途而廢現象的出現[18,19]。
學校教育的最終目的之一是為學生就業做準備。對于在校學生,他們對今后工作所需技能的了解相對較少。因此,在選擇課程時往往缺乏針對性,不能對今后的就業起到良好 的支撐。為了避免學生課程選擇的盲目性,學校需要結合在校學生的具體情況和具有相似情況的畢業生的學習過程為其推薦適當的學習計劃,并視學生在實際學習過程中的情況做出動態調整。這種量體裁衣式的課程教學方法使得每一個學生在學習過程中都能得到及時的指導,有助于學生學習興趣的持續發展,有助于學生最終完成本學科的學習,掌握相關領域知識,在今后的就業過程中能夠脫穎而出起到了良好的輔助作用[20,21,22]。
為了建立一個行之有效的學生學習指導體系,我們需要總結、分析一下四方面的問題:
1.學生的學習需求。學習的需求來源于學生的興趣。在當今社會中,信息的獲取易如反掌。學生根據自身的喜好,不斷的在探索著信息海洋,并逐步積累起對某個學科最基本的認識。這是學生學科選擇的原動力。同時,學生的學習需求還會受到社會就業需求的影響。隨著學生對所學學科的深入了解,他們的學習傾向一般會朝著社會需求的方向發展。我們需要以此為出發點,指導學生進行合理的學習。2.學生的知識儲備。學生在對某學科進行深入學習前,一般對該學科已經有了初步的認識。這是學科學習的重要前提。為了更好的進行深層次的學習,我們首先要求學生具有相關的學習基礎。勿在浮沙筑高臺。合理安排學習內容的先后順序,對整個學科的學習質量有至關重要的影響。3.學生的成績評價。大多數情況下,初學者不能對自己的學習狀況做出正確的判斷。正是由于這個原因,需要我們對學生的知識掌握程度做出正確的、客觀的估計。其中最直接的方法就是量化學習成績。也就是通過考試給學生的學習狀況打分,以分數的高低作為其知識掌握程度的標準[23]。雖然考試成績對學生學習狀況的量化評價起到了重要的作用,但是需要注意的是學生的在校學習成績是學生綜合素質體現的一個方面,評價以就業為最終目標的學校教育必須以“學生是否就業”為根本標準。4.學生的繼續學習。學校通過考試的形式來度量學生的學習效果,所以考試是已學知識的結束。學習是一個發展的過程,一種知識的獲取往往會擴大學生的知識面,激發其新的學習興趣,這就形成了新的學習需求。學習的目的,特別是基礎知識的學習是為更深層次的專業知識學習做積累,所以考試也是未學知識的起點。通過已學知識的評價,估計未學知識的學習計劃,是對學生成績分析結果更充分的利用。
上述四個問題循環往復,既相互制約,又相互促進。如果能夠正確處理其中的關系,使之形成一個可持續良性循環,那么將會大大增強學生的學習效果[24]。
3.2 創新點
1.通過關聯規則挖掘方法和聚類算法確定課程與課程之間的教學順序關系;
2.通過決策樹生成算法完成學生就業滿意度與課程選擇之間關系的確定; 3.綜合上述兩方面,采用多種機器學習算法協同工作的方法完成課程推薦算法。
四、研究方案及進度安排,預期達到的目標
4.1 研究方案
當前各所高校都在如火如荼地創新教學理念,下大力度轉變教師為院系服務為教師為學生服務,推廣以學生個人發展促進學校發展的新思路。然而逐年的高校擴招,激增的學生數量使得教育資源特別是教師資源捉襟見肘。面對求知若渴的學生,更需要經驗豐富的教師來指導他們的學習之路,充分激發他們的學習欲望,造就一批批具有牢固專業知識的人才,使其能夠勝任今后的工作。“如何指導學生進行課程選擇與進度安排”正是擺在每一名教育工作者面前的重要問題。本文立足上述優秀理論及實踐的基礎上,繼承和發揚前人研究成果,意在將數據挖掘方法引入解決問題方案,使之能夠根據學生的就業滿意度等因素科學指導學生安排課程[49,50]。
數據挖掘工作以數據為基礎,以算法為核心目標。為了完成學生指導工作,我們需要以下工作的定義:
1.數據挖掘的目標。本文目的是在綜合分析已畢業學生的就業滿意度與學生在2.3.4.5.6.校期間學科選擇、考試成績的關系,為在校學生制定符合其就業需求的學習計劃。經過科學合理的總體計劃和扎實的分步實施,最終使學生能夠順利達到學科學習的整體要求,在畢業后的就業過程中能夠脫穎而出。
數據挖掘的模型。為了達到預期目的,我們需要建立一個預測模型。該模型以學生以往學生的就業滿意度和實際學習情況作為參考,預測在校學生可能感興趣的學習點,為其提供適當的學習課程。這個預測過程伴隨學生整個在校學習期間,形成一個學生學習的發展路線圖。在模型實現過程中,本文將預測模型細化為若干過程,可分為課程相關性分析、學生成績分析、學生就業滿意度分析三個主要過程。
數據挖掘所需數據的收集和整理。我們為數據挖掘模型所提供數據的質量直接影響其預測能力。一方面,準確記錄的數據可以為模型提供正確的指導,而噪音數據的存在則可能誤導預測模型。另一方面,并不是越多的數據就意味著越高的預測準確率。在信息過載的今天,獲取數據絕非難事。但是無意義的或冗余的數據既提高了數據采集的代價,也延長了模型的構造時間。為了給數據挖掘模型提供充足的有用的數據,還需要在數據收集過程之后進一步對原始數據進行處理,去其糟粕取其精華。
數據挖掘算法的訓練方法。選擇什么樣的方法對數據挖掘模型進行訓練是論文整個工作的核心內容。本文的工作是由多個部分共同組成的,在各個不同的部分需要不同的訓練算法。這些算法可以分為兩類分類算法和聚類算法,其中分類算法主要用于學生成績分析、學生就業滿意度分析,聚類算法主要用于課程相關性分析。
數據挖掘算法的測試。經過對數據挖掘模型的訓練,最終我們將得到一個用于學生課程選擇的輔助系統。系統不斷采集學生最新的就業滿意度、學習課程、學習成績信息加入數據庫,然后根據學生信息庫動態更新學生的學習計劃。
數據挖掘的結果分析。該數據挖掘模型的優劣,最終需要由學生自己做出主觀判斷,并輔以全院系學生的整體就業滿意度作為客觀判斷。最終綜合二者得出的結果是判斷“模型是否符合學生學習的要求”的主要依據。
4.2 研究進度安排
2012-04-05~2012-05-04
完成開題報告,提交指導教師。
2012-05-05~2012-08-04
收集相關資料,構思并確定寫作大綱,請指導老師加
以修改。
2012-08-05~2012-10-04
撰寫論文初稿。2012-10-05
完成論文初稿。
2012-10-06~2012-11-05
請指導老師對初稿提出修改意見,完成二稿。2012-11-06~2012-11-19
請指導老師對二稿進行指導并按老師的建議進行修
改,完成最終稿。
2012-11-20
提交論文最終稿。2012-11-20~2012-12-10
請評閱老師審閱,準備論文答辯幻燈片(PPT)。
4.3 預期達到的目標
1.得到課程與課程之間的序關系。根據課程度學科綜合考試的貢獻度確定哪些課程屬于學科基礎課程,哪些課程屬于專業基礎課程,哪些課程屬于專業選修課程。指導學生在學習過程中學習的先后順序。
2.理解學生就業滿意度與課程選擇之間的關系。在課程選擇前先根據已畢業學生的就業狀況為學生的課程選擇提出合理化建議。總體教學遵循針對性學習的思想,使學生能夠學以致用。
3.建立一個可應用于實踐的學生自動課程推薦體系。切實解決學生被指導需求量大,教師資源不足的實際情況。使學生在學分制體系下,可以充分發揮自己的主觀能動性,學有所長。
五、為完成課題已具備和所需的條件
5.1 已具備的條件
為了完成本課題的研究,我們需要從三個方面入手。或者說,這三個方面是研究得以開展的必備條件。其中首要條件是研究的理論支持。研究不是空想,需要以成熟的理論作為研究指導,否則就是空中樓閣。本文以目前廣泛應用于各個領域的數據挖掘理論作為總的指導思想,并結合本課題的實際情況,輔以前人的優秀科研成果,三者結合為論文研究工作的順利進行提供了堅實的基礎。
其次,研究的價值體現在其實用價值上,不具有可行性的研究是毫無意義的。本文的研究過程是伴隨著實驗過程進行的。兩者相輔相成,理論研究指導實驗開展,實驗過程完善理論體系。前一階段的資料搜集和論文學習工作,目前本人已經具備了完成研究的理論知識和相關實驗技能,這些都將成為完成論文研究的有力支撐。
最后,在數據挖掘過程中,數據是整個過程中最重要的資源。我國教學體制改革多年來積累的學生數據正是我們完成本課題研究的重要保障。
5.2 所需的條件
一年多的時間過去了,目前關于數據挖掘理論知識的學習,基本實驗方法的實踐和論文的搜集工作都已經告一段落,可以說論文的前期準備工作基本已經結束了。接下來的工作主要從兩方面入手。第一,論文的寫作。本論文的寫作遵循提綱式寫作方法,因此需要我們在論文搜集工作的基礎上,進一步對這些論文進行整理,從而確定本論文的大體思路,列出論文提綱,為論文初稿寫作做準備。第二,實驗的開展。實驗是本論文的重要組成部分,實驗結果的好壞直接影響到研究的進展程度。因此,需要我們掌握扎實的實驗操作知識,以保證實驗工作的正確性。這些實驗知識涉及到機器學習算法的偽代碼編寫、計算機軟件設計與實現、程序的調試與排錯、以及軟件測試與算法分析。
六、預計研究過程中可能遇到的困難和問題以及解決的措施
在本課題的研究過程中,可能遇到存在的困難主要來源于實驗數據的準備、算法的設計以及、實驗結果的分析。下列給出了主要的困難及相應的解決辦法:
1.實驗數據的準備。本文的實驗數據全部來源于高校的教學系統。但由于我國教育體制的不斷改革,也使得系統所采用的數據記錄方式存在一定的差異。為了得到形式統一的數據,還需要我們對一些未記錄數據進行補充。在一定程度上,我們對數據的判斷能力,決定了實驗結果的可靠性。為此,我們首先要有嚴謹認的科學態度,通過數據挖掘中數據預處理和手工處理相結合的方式,最大程度上保證數據的正確性。2.算法的設計。算法是軟件的靈魂。本文的算法設計包括算法的理論正確性和邏輯正確性。其中理論正確性是以本文的研究工作作為基礎的,而邏輯正確性是以計算機軟件設計方法作為基礎的。
3.實驗結果分析。實驗結果直觀反映了研究工作的正確性。通過對實驗結果的分析,可以及時發現算法中存在的問題并做出調整。這其中一些的錯誤看似隨機,影響了我們對算法的正確認識,需要我們反復進行實驗,觀察結果,認真分析,將算法中的錯誤減少到最低。
綜上所述,在研究過程中需要我們廣泛查閱文獻、反復動手實驗、積極深入思考,當然也少不了老師的悉心指導和同學們的熱心幫助,才能更好地完成本課題的研究和本文的寫作。
七、主要參考文獻
[1] 張慶鋒, 鄭建明, 王育紅.社會信息化進程測度指標體系之構建.情報科學, 2000, 09: 772-775.[2] 謝俊貴.我國社會信息化的涵義、作用及推進策略.情報理論與實踐, 2002, 04: 244-248.[3] 王旭東.論社會信息化的影響與沖擊——從當代歷史進程到世界史研究.世界歷史, 2007, 05: 43-52.[4] 羅晶.基于數據網格技術的遠程教育系統的研究.南昌大學工學碩士論文, 2006.[5] 黃越嶺.可視化遠程教育管理系統研究.西南大學工學碩士論文, 2007.[6] 南翔宇.農村遠程教育平臺建設和服務體系研究.西北農林科技大學工學碩士論文,2008.[7] 李佳.基于IRT模型的題庫智能組卷策略.江西師范大學工學碩士論文, 2007.[8] 李軍.基于遺傳算法的智能組卷系統研究.天津大學工學碩士論文, 2008.[9] 劉貝貝.基于推理與遺傳算法的智能組卷模型與系統實現.煙臺大學工學碩士論文,2009.[10] 賀敏之.基于遺傳蟻群算法的智能組卷系統設計與實現.湖南大學工學碩士論文, 2010.[11] 趙志艷.基于遺傳與蟻群混合算法的智能組卷問題探究.安徽大學工學碩士論文, 2011.[12] 楊葳.基于OLAP的成績分析系統的研究.沈陽工業大學工學碩士論文, 2007.[13] 劉劍.改進聚類分析算法及其在成績分析中的應用研究.大連交通大學工學碩士論文,2008.[14] 牛文穎.改進的ID3決策樹分類算法在成績分析中的應用研究.大連交通大學工學碩士論文, 2008.[15] 黃芳.基于數據挖掘的決策樹技術在成績分析中的應用研究.山東大學工學碩士論文,2009.[16] 劉海燕.基于決策樹分類算法的學習成績分析系統的設計與實現.電子科技大學工學碩士論文, 2011.[17] 汪曉飛.基于多維編碼方案的遺傳算法在高校排課系統中的應用.四川師范大學工學碩士論文, 2008.[18] 朱奉梅.遺傳算法在高校排課系統中的研究與應用.東北大學工學碩士論文, 2009.[19] 王永剛.基于矩陣判別算法的高校自動排課系統設計與實現.電子科技大學工學碩士論文, 2010.[20] 王霞.基于多策略算法排課系統研究.西北農林科技大學工學碩士論文, 2010.[21] 劉震.基于關聯規則算法的排課系統的應用研究.大連交通大學工學碩士論文, 2011.[22] Qinghua Hu, Lei Zhang, David Zhang, Wei Pan, Shuang An, Witold Pedrycz.Measuring relevance between discrete and continuous features based on neighborhood mutual information.Expert Systems with Applications, 2011, 38(9): 10737-10750.[23] Haihong Zhang, Cuntai Guan, Yuanqing Li.A linear discriminant analysis method based on mutual information maximization.Pattern Recognition, 2011, 44(4): 877-885.[24] Ai-Hua Jiang, Xiu-Chang Huang, Zhen-Hua Zhang, Jun Li, Zhi-Yi Zhang, Hong-Xin Hua.Mutual information algorithms Original.Mechanical Systems and Signal Processing, 2010, 24(8): 2947-2960.[25] Sombut Foithong, Ouen Pinngern, Boonwat Attachoo.Feature subset selection wrapper based on mutual information and rough sets.Expert Systems with Applications, 2012, 39(1): 574-584.[26] Ju Lynn Ong, Abd-Krim Seghouane.Feature selection using mutual information in CT colonography.Pattern Recognition Letters, 2011, 32(2): 337-341.[27] Sangjae Lee.Using data envelopment analysis and decision trees for efficiency analysis and recommendation of B2C controls.Decision Support Systems, 2010, 49(4): 486-497.[28] Fernando E.B.Otero, Alex A.Freitas, Colin G.Johnson.Inducing decision trees with an ant colony optimization algorithm.Applied Soft Computing, 2012, 12(11): 3615-3626.[29] Siva S.Sivatha Sindhu, S.Geetha, A.Kannan.Decision tree based light weight intrusion detection using a wrapper approach.Expert Systems with Applications, 2012, 39(1): 129-141.[30] Mehmet Ali Cavuslu, Cihan Karakuzu, Fuat Karakaya.Neural identification of dynamic systems on FPGA with improved PSO learning.Applied Soft Computing, 2012, 12(9): 2707-2718.[31] B.Vasumathi, S.Moorthi.Implementation of hybrid ANN–PSO algorithm on FPGA for harmonic estimation.Engineering Applications of Artificial Intelligence, 2012, 25(3): 476-483.[32] Haiyan Lu, Pichet Sriyanyong, Yong Hua Song, Tharam Dillon.Experimental study of a new hybrid PSO with mutation for economic dispatch with non-smooth cost function.International Journal of Electrical Power & Energy Systems, 2010, 32(9): 921-935.[33] Amitava Chatterjee, Fumitoshi Matsuno.A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping(SLAM)problems in mobile robots.Expert Systems with Applications, 2010, 37(8): 5542-5548.[34] U.Fayadd, Piatesky, G.Shapiro, and P.Smyth, From data mining to knowledge discovery in databases, AAAI Press / The MIT Press, Massachusetts Institute Of Technology.ISBN 0–262 56097–6, 1996.[35] J.Han and M.Kamber, “Data Mining: Concepts and Techniques,” Morgan Kaufmann, 2000.[36] S.T.Hijazi, and R.S.M.M.Naqvi, “Factors affecting student?s performance: A Case of Private Colleges”, Bangladesh e-Journal of Sociology, Vol.3, No.1, 2006.[37] Z.N.Khan, “Scholastic achievement of higher secondary students in science stream”, Journal of Social Sciences, Vol.1, No.2, pp.84-87, 2005..[38] Galit.et.al, “Examining online learning processes based on log files analysis: a case study”.Research, Reflection and Innovations in Integrating ICT in Education 2007.[39] Q.A.AI-Radaideh, E.W.AI-Shawakfa, and M.I.AI-Najjar, “Mining student data using decision trees”, International Arab Conference on Information Technology(ACIT'2006), Yarmouk University, Jordan, 2006.[40] U.K.Pandey, and S.Pal, “A Data mining view on class room teaching language”,(IJCSI)International Journal of Computer Science Issue, Vol.8, Issue 2, pp.277-282, ISSN:1694-0814, 2011.[41] Shaeela Ayesha, Tasleem Mustafa, Ahsan Raza Sattar, M.Inayat Khan, “Data mining model for higher education system”, Europen Journal of Scientific Research, Vol.43, No.1, pp.24-29, 2010.[42] M.Bray, The shadow education system: private tutoring and its implications for planners,(2nd ed.), UNESCO, PARIS, France, 2007.[43] Vashishta, S.(2011).Efficient Retrieval of Text for Biomedical Domain using Data Mining Algorithm.IJACSA-International Journal of Advanced Computer Science and Applications, 2(4), 77-80.[44] Collier, K., Carey, B., Sautter, D., and Marjaniemi, C., “A methodology for evaluating and selecting data mining software,” in Proceedings of the 32nd Annual Hawaii International Conference on System Sciences, IEEE, 1999.Orange, University of Ljubljana, Slovenia, [45] Luan, J., Zhao, C.-M., and Hayek, J., “Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology,” Paper presented at the California Association for Institutional Research, Anaheim, California, November 17-19, 2004.[46] Bekele, R.and Menzel, W., “A Bayesian approach to predict performance of a student(BAPPS): A case with Ethiopian students,” in Proceedings of the International Conference on Artificial Intelligence and Applications(AIA-2005), Vienna, Austria, 2005.[47] Minaei-Bidgoli, B., Kashy, D.A., Kortemeyer, G., and Punch, W.F, “Predicting student performance: an application of data mining methods with an educational web-based system,” in Proceedings of 33rd Annual Conference on Frontiers in Education(FIE 2003), volume 1, 2003, pages 13–18.[48] Romero, C., Ventura, S.(2007).Educational Data Mining: A Survey from 1995 to 2005.Expert Systems with Applications 33, 2007, pp.135-146.[49] Ma, Y., Liu, B., Wong, C.K., Yu, P.S., Lee, S.M.(2000).Targeting the right students using data mining.Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, Boston, pp 457-464.[50] Luan, J.(2002).Data Mining and Its Applications in Higher Education.New Directions for Institutional Research, Special Issue titled Knowledge Management: Building a Competitive Advantage in Higher Education, Vol.2002, Iss.113, pp.17–36.[51] Luan, J.(2004).Data Mining Applications in Higher Education.SPSS Executive Report, SPSS Inc.[52] Minaeli-Bidgoli, B., Kashy, D., Kortemeyer, G., Punch, W.(2003).Predicting Student Performance: An Application of Data Mining Methods with the Educational Web-Based System LON-CAPA.33rd ASEE/IEEE Frontiers in Education Conference, 5-8 Nov 2003, Boulder, CO.[53] Kotsiantis, S., Pierrakeas, C., Pintelas, P.(2004).Prediction of Student’s Performance in Distance Learning Using Machine Learning Techniques.Applied Artificial Intelligence, Vol.18, No.5, 2004, pp.411-426.[54] Pardos Z., Heffernan N., Anderson B., and Heffernan C.(2006).Using Fine-Grained Skill Models to Fit Student Performance with Bayesian Networks.In Proceedings of the Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems(ITS2006), June 26, 2006, Taiwan.[55] Superby, J.Vandamme, J., Meskens, N.(2006).Determination of factors influencing the achievement of the first-year university students using data mining methods.Proceedings of the Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems(ITS 2006).Jhongli, Taiwan, pp37-44.[56] Vandamme, J., Meskens, N., Superby, J.(2007).Predicting Academic Performance by Data Mining Methods.Education Economics, 15(4), pp405-419.[57] Cortez, P., Silva, A.(2008).Using Data Mining to Predict Secondary School Student Performance.EUROSIS, A.Brito and J.Teixeira(Eds.), 2008, pp.5-12.Dekker, G., Pechenizkiy, M., Vleeshouwers, J.(2009).Predicting Students Drop Out: A Case Study.Conference Proceedings of the 2nd International Conference on Educational Data Mining(EDM’09), 1-3 July 2009, Cordoba, Spain, pp.41-50.
第二篇:18大經典數據挖掘算法小結
18大經典數據挖掘算法小結
2015-03-05 CSDN大數據 CSDN大數據
csdnbigdataCSDN分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、內存計算、流計算、機器學習和智能算法等相關大數據觀點,提供云計算和大數據技術、平臺、實踐和產業信息等服務。本文所有涉及到的數據挖掘代碼的都放在了github上了。
地址鏈接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了將近2個月的時間,自己把18大數據挖掘的經典算法進行了學習并且進行了代碼實現,涉及到了決策分類,聚類,鏈接挖掘,關聯挖掘,模式挖掘等等方面。也算是對數據挖掘領域的小小入門了吧。下面就做個小小的總結,后面都是我自己相應算法的博文鏈接,希望能夠幫助大家學習。
1.C4.5算法。C4.5算法與ID3算法一樣,都是數學分類算法,C4.5算法是ID3算法的一個改進。ID3算法采用信息增益進行決策判斷,而C4.5采用的是增益率。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全稱是分類回歸樹算法,他是一個二元分類,采用的是類似于熵的基尼指數作為分類決策,形成決策樹后之后還要進行剪枝,我自己在實現整個算法的時候采用的是代價復雜度算法,詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42558235 3.KNN(K最近鄰)算法。給定一些已經訓練好的數據,輸入一個新的測試數據點,計算包含于此測試數據點的最近的點的分類情況,哪個分類的類型占多數,則此測試點的分類與此相同,所以在這里,有的時候可以復制不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42613011 4.Naive Bayes(樸素貝葉斯)算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42680161 5.SVM(支持向量機)算法。支持向量機算法是一種對線性和非線性數據進行分類的方法,非線性數據進行分類的時候可以通過核函數轉為線性的情況再處理。其中的一個關鍵的步驟是搜索最大邊緣超平面。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分為2個算法,1個E-Step期望化步驟,和1個M-Step最大化步驟。他是一種算法框架,在每次計算結果之后,逼近統計模型參數的最大似然或最大后驗估計。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42921789 7.Apriori算法。Apriori算法是關聯規則挖掘算法,通過連接和剪枝運算挖掘出頻繁項集,然后根據頻繁項集得到關聯規則,關聯規則的導出需要滿足最小置信度的要求。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43059211 8.FP-Tree(頻繁模式樹)算法。這個算法也有被稱為FP-growth算法,這個算法克服了Apriori算法的產生過多侯選集的缺點,通過遞歸的產生頻度模式樹,然后對樹進行挖掘,后面的過程與Apriori算法一致。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43234309 9.PageRank(網頁重要性/排名)算法。PageRank算法最早產生于Google,核心思想是通過網頁的入鏈數作為一個網頁好快的判定標準,如果1個網頁內部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到Link Span攻擊。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43311943 10.HITS算法。HITS算法是另外一個鏈接算法,部分原理與PageRank算法是比較相似的,HITS算法引入了權威值和中心值的概念,HITS算法是受用戶查詢條件影響的,他一般用于小規模的數據鏈接分析,也更容易遭受到攻擊。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43311943 11.K-Means(K均值)算法。K-Means算法是聚類算法,k在在這里指的是分類的類型數,所以在開始設定的時候非常關鍵,算法的原理是首先假定k個分類點,然后根據歐式距離計算分類,然后去同分類的均值作為新的聚簇中心,循環操作直到收斂。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43373159 12.BIRCH算法。BIRCH算法利用構建CF聚類特征樹作為算法的核心,通過樹的形式,BIRCH算法掃描數據庫,在內存中建立一棵初始的CF-樹,可以看做數據的多層壓縮。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43532111 13.AdaBoost算法。AdaBoost算法是一種提升算法,通過對數據的多次訓練得到多個互補的分類器,然后組合多個分類器,構成一個更加準確的分類器。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43635115 14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori類算法,在算法的過程中也會進行連接和剪枝操作,不過在剪枝判斷的時候還加上了一些時間上的約束等條件。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43699083 15.PreFixSpan算法。PreFixSpan算法是另一個序列模式挖掘算法,在算法的過程中不會產生候選集,給定初始前綴模式,不斷的通過后綴模式中的元素轉到前綴模式中,而不斷的遞歸挖掘下去。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43766253 16.CBA(基于關聯規則分類)算法。CBA算法是一種集成挖掘算法,因為他是建立在關聯規則挖掘算法之上的,在已有的關聯規則理論前提下,做分類判斷,只是在算法的開始時對數據做處理,變成類似于事務的形式。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43818787 17.RoughSets(粗糙集)算法。粗糙集理論是一個比較新穎的數據挖掘思想。這里使用的是用粗糙集進行屬性約簡的算法,通過上下近似集的判斷刪除無效的屬性,進行規制的輸出。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43876001 18.gSpan算法。gSpan算法屬于圖挖掘算法領域。,主要用于頻繁子圖的挖掘,相較于其他的圖算法,子圖挖掘算法是他們的一個前提或基礎算法。gSpan算法用到了DFS編碼,和Edge五元組,最右路徑子圖擴展等概念,算法比較的抽象和復雜。
詳細介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43924273
第三篇:數據挖掘技術-畢業設計-開題報告-畢業論文
數據挖掘技術綜述
數據挖掘(Data Mining)是一項較新的數據庫技術,它基于由日常積累的大量數據所構成的數據庫,從中發現潛在的、有價值的信息——稱為知識,用于支持決策。數據挖掘是一項數據庫應用技術,本文首先對數據挖掘進行概述,闡明什么是數據挖掘,數據挖掘的技術是什么,然后介紹數據挖掘的常用技術,數據挖掘的主要過程, 如何進行數據挖掘,主要應用領域以及國內外現狀分析。
一.研究背景及意義
近十幾年來,隨著數據庫系統的廣泛流行以及計算機技術的快速發展,人們利用信息技術生產和搜集數據的能力大幅度提高。千萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等,特別是網絡系統的流行,使得信息爆炸性增長。這一趨勢將持續發展下去。大量信息在給人們帶來方便的同時也帶來了一大堆的問題:第一是信息過量,難以消化;第二是信息真假難以辨認;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。面對這種狀況,一個新的挑戰被提出來:如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?這時出現了新的技術——數據挖掘(Data Mining)技術便應用而生了。
面對海量的存儲數據,如何從中發現有價值的信息或知識,成為一項非常艱巨的任務。數據挖掘就是為迎合這種要求而產生并迅速發展起來的。數據挖掘研究的目的主要是發現知識、使數據可視化、糾正數據。
二.概述
1,數據挖掘
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本,圖形,圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的,可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以進行數據自身的維護。數據挖掘借助了多年來數理統計技術和人工智能以及知識工程等領域的研究成果構建自己的理論體系,是一個交叉學科領域,可以集成數據數據庫、人工智能、數理統計、可視化、并行計算等技術。2,數據挖掘技術
數據挖掘就是對觀測到的數據集進行分析,目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據。它利用各種分析方法和分析工具在大規模海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策和預測。
數據挖掘的過程就是知識發現的過程,其所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
數據挖掘是涉及數據庫、人工智能、數理統計、機械學、人工神經網絡、可視化、并行計算等的交叉學科,是目前國際上數據庫和決策支持領域的最前沿的研究方向之一。
3,數據挖掘的功能
數據挖掘通過預測未來趨勢及行為,做出預測性的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,按其功能可分為以 下幾類。
3.1 關聯分析(Association Analysis)
關聯分析能尋找到數據庫中大量數據的相關聯系,常用的一種技術為關聯規則和序列模式。關聯規則是發現一個事物與其他事物間的相互關聯性或相互依賴性。
3.2 聚類
輸入的數據并無任何類型標記,聚類就是按一定的規則將數據劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。
3.3 自動預測趨勢和行為
數據挖掘自動在大型數據庫中進行分類和預測,尋找預測性信息,自動地提出描述重要數據類的模型或預測未來的數據趨勢,這樣以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。
3.4 概念描述
對于數據庫中龐雜的數據,人們期望以簡潔的描述形式來描述匯集的數據集。概念描述就是對某類對象的內涵進行描述并概括出這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
3.5 偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結果與參照值之間有意義的差別。這常用于金融銀行業中檢測欺詐行為,或市場分析中分析特殊消費者的消費習慣。
三.目前的研究現狀及存在的主要問題
自KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議以來。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了13次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到超過千人,論文收錄數量也迅速增加,研究重點也從發現方法逐漸轉向系統應用直到轉向大規模綜合系統的開發,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘和知識發現列為議題之一,成為當前計算機科學界的一大熱點。
與國外相比,國內對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學基金首次支持我們對該領域的研究項目。目前,國內的許多科研單位和高等院校競相開展知識發現的基礎理論及其應用研究,這些單位包括清華大學、中科院計算技術研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統工程
研究所對模糊方法在知識發現中的應用進行了較深入的研究,北京大學也在開展對數據立方體代數的研究,華中理工大學、復旦大學、浙江大學、中國科技大學、中科院數學研究所、吉林大學等單位開展了對關聯規則開采算法的優化和改造;南京大學、四川聯合大學和上海交通大學等單位探討、研究了非結構化數據的知識發現以及Web數據挖掘。
四.研究內容
1,數據挖掘的過程
數據挖掘是指一個完整的過程,該過程從大型數據庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。
數據挖掘的一般過程如下流程圖所示:
圖1,數據掘的一般過程
2.1 神經網絡
神經網絡方法是模擬人腦神經元結構,以MP模型和Hebb學習規則為基礎。它主要有三種神經網絡模型:前饋式網絡、反饋式網絡、自組織網絡。為
2.2決策樹
決策樹學習著眼于從一組無次序、無規則的事中推理出決策樹表示形式的分類規則。它采用自頂向下的遞歸方式,在決策樹的內部結點進行屬性值的比較并根據不同的屬性值判斷從該結點向下的分支,在決策樹的葉結點得到結論。
2.3 遺傳算法
遺傳算法是一種優化技術,是模擬生物進化過程的算法。基于進化理論,并采用遺傳結合、遺傳變異以及自然選擇等設計方法。由三個基本算子組成:繁殖、交叉、變異。
2.4 傳統統計分析
這類技術建立在傳統的數理統計的基礎上。在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表示的確定性關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系),對它們的分析可采用判別分析、因子分析、相關分析、多元回歸分
析及偏最小二乘回歸方法等。
2.5 關聯規則
關聯規則是發現一個事物與其他事物間的相互關聯性或相互依賴性。關聯規則是展示屬性: 值頻繁地在給定數據集中一起出現的條件,是數據挖掘中作用比較廣泛的知識之一。
2.6 可視化技術
可視化技術是利用計算機圖形學和圖像技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。可視化數據挖掘技術將可視化有機地融合到數
據挖掘之中,使用戶對于數據挖掘有一個更加直接直觀清晰的了解,提供讓用戶有效、主動參與數據挖掘過程的方法。
3,數據挖掘的應用領域
數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計,分析,綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動
進行預測。
一般Data Mining較長被應用的領域包括金融業、保險業、零售業、直效行銷業、通訊業、制造業以及醫療服務業等。更廣義的說法是:數據挖掘意味著在一些事實或觀察數據的集合中尋找模式的決策支持過程。
4,數據挖掘的發展方向
目前,數據挖掘的研究方面主要有:數據庫知識發現方面,將知識發現(KDD)與數據庫系統、數據倉庫系統和Web數據庫系統緊密結合,力圖充分利用Web中的豐富資源;機器學習方面,進一步研究知識發現方法,希望克服現存算法的計算性瓶頸,如注重對Bayes(貝葉斯)方法以及Boosting算法的研究和提高;統計領域,加大傳統統計方法在數據挖掘中的應用。數據挖掘研究正蓬勃開展,在今后還會掀起更大的波瀾,其研究焦點集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Internet上建立數據挖掘服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。
5,數據挖掘的新技術
Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。這就必須要有一個模型來清晰地描述Web上的數據,而尋找一個半結構化的數據模型是解決問題的關鍵所在。除此之外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。
XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性對應起來,實施精確地查詢與模型抽取。利用XML.Web設計人員不僅能創建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統、數據樹、元數據、超鏈接結構和樣式表。
6,數據挖掘面臨的問題和挑戰
雖然數據挖掘技術已經在各方面都得到了廣泛的應用,但數據挖掘技術的研究還不夠成熟,在應用上有很大的局限性。正是這些局限性,促使數據挖掘技術進一步的發展:
(1)挖掘的對象 數據庫更大,維數更高,屬性之間更復雜,數據挖掘處理的數據通
常十分巨大。
(2)數據丟失問題 因大部分數據庫不是為知識發現而定做的,那么它就有可能會存在一些重要的數據和屬性丟失的問題。
(3)多種形式的輸入數據 目前數據挖掘工具能處理的數據形式有限,一般只能處理數值型的結構化數據。
(4)網絡與分布式環境的KDD問題 隨網絡的發展,資源的豐富,技術人員各自獨立處理分離數據庫的工作方式應是可協作的。
五.研究達到的預期結果
系統的介紹數據挖掘技術,使更多的研究人員在數據庫中發現有用的,有潛在價
值的數據知識。
六.小結
通過各方面資料的查找,理解了基本的數據挖掘概念、數據挖掘技術、數據挖掘的實際應用及國內外現狀。在論文中將對數據挖掘的概念以及發展概況進行介紹,并總結數據挖掘中使用的技術,主要結合當前的研究成果,分析了數據挖掘領域的。研究領域方面,可能主要集中在網絡信息中的主要應用。
七.畢業論文進程安排
序號 論文各階段安排內容 日期資料調研及方案設計 1.4-1.10數據挖掘的概論研究 1.11-1.25數據挖掘常用技術研究 1.26-2.15數據挖掘的應用研究 2.15-3.1(中期檢查)數據挖掘的新技術研究 3.1-3.10數據挖掘的發展方向 3.11-3.16撰寫論文 3.16-4.10論文修改 4.11-4.30準備答辯,交老師審閱 5.1-5.5畢業論文答辯 5.6-?
第四篇:數據挖掘研究現狀
一、時代的挑戰
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。于是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘和知識發現(DMKD)技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
二、研究現狀
KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了7次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發現方法轉向系統應用,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當前計算機科學界的一大熱點。
此外,數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了 KDD專題或專刊。IEEE的Knowledge and Data Engineering 會刊領先在1993年出版了KD D技術專刊,所發表的5篇論文代表了當時KDD研究的最新成果和動態,較全面地論述了KDD 系統方法論、發現結果的評價、KDD系統設計的邏輯方法,集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題,KDD系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業的具體應用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領導整個潮流的DMKD開發和研究中心,當數設在美國EMDEN的IBM公司開發部。至于DMKD書籍,可以在任何計算機書店找到十多本,但大多帶有商業色彩。
三、內容和本質
隨著DMKD研究逐步走向深入,人們越來越清楚地認識到,DMKD的研究主要有3個技術支柱,即數據庫、人工智能和數理統計。
數據庫技術在經過了80年代的輝煌之后,已經在各行各業成為一種數據庫文化或時尚,數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外,已經在開始反思。數據庫最實質的應用僅僅是查詢嗎?理論根基最深的關系數據庫最本質的技術進步點,就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸,發現才是數據庫的主人;數據只為職員服務,不為老板服務!這是很多單位的領導在熱心數據庫建設后發出的感嘆。
由于數據庫文化的迅速普及,用數據庫作為知識源具有堅實的基礎;另一方面,對于一個感興趣的特定領域——客觀世界,先用數據庫技術將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此,在需求的驅動下,很多數據庫學者轉向對數據倉庫和數據挖掘的研究,從對演繹數據庫的研究轉向對歸納數據庫的研究。
專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統 ,目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界,通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統時,知識工程師首先要從領域專家那里獲取知識,這一過程實質上是歸納過程,是非常復雜的個人到個人之間的交互過程,有很強的個性和隨機性。因此 ,知識獲取成為專家系統研究中公認的瓶頸問題。
其次,知識工程師在整理表達從領域專家那里獲得的知識時,用if-then等類的規則表達,約束性太大,用常規數理邏輯來表達社會現象和人的思維活動局限性太大,也太困難, 勉強抽象出來的規則有很強的工藝色彩,差異性極大,知識表示又成為一大難題。
此外,即使某個領域的知識通過一定手段獲取并表達了,但這樣做成的專家系統對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎的。人工智能學家 Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽象經驗法則,離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據“在某地發現一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統的應用,使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理,尤其是從事機器學習的科學家們,不再滿足自己構造的小樣本學習模式的象牙塔,開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本,也走上了數據挖掘的道路。
數理統計是應用數學中最重要、最活躍的學科之一,它在計算機發明之前就誕生了, 迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具,已成為信息咨詢業的基礎。信息時代,咨詢業更為發達。然而,數理統計和數據庫技術結合得并不算快,數據庫查詢語言SQL中的聚合函數功能極其簡單,就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求,概率論和數理統計就獲得了新的生命力,所以才會在DMKD這個結合點上,立即呈現出“忽如一夜春風來,千樹萬樹梨花開”的繁榮景象。一向以數理統計工具和可視化計算聞名的美國SA S公司,領先宣布進入DMKD行列。
數據挖掘所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發展方向
當前,DMKD研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解 ,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Int ernet上建立DMKD服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。但是,無論怎樣,需求牽引,市場驅動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產品將會問世
第五篇:開題報告信用卡申請評分模型研究 數據挖掘
一、論文題目
基于數據挖掘技術的信用卡信用評分模型研究
二、論文選題理論意義、實用價值
近十年來,受經濟的飛速發展,中國的信貸消費特別是面向消費者個人的信用消費蓬勃發展,汽車貸款、住房按揭、助學貸款、信用卡消費等逐漸走入人們的生活中。個人消費信貸的蓬勃發展以及消費信貸業務風險與回報相對應的客觀規律,使商業銀行等授信機構在追逐巨額利潤的同時,不得不面對巨大的潛在不良信貸風險,從而信用風險管理逐漸成為商業銀行個人消費信貸管理的一個核心領域。商業銀行需要客觀、全面、準確地評估消費者的還款能力和還款意愿,以避免、控制、減少壞賬損失。
信用評分模型技術的發展和應用,就是應個人消費信貸金融機構風險管理的需要而誕生的。信用評分模型是歐美消費信貸管理廣泛應用的技術手段。它運用先進的數據挖掘技術和統計分析方法,通過對消費者的人口特征、信用歷史記錄和行為記錄等大量的數據進行系統的分析,挖掘數據中蘊含的行為模式、信用特征,捕捉歷史信息和未來信用表現之間的關系,發展出預測性的模型,以一個信用評分來綜合評估消費者未來的某種信用表現,作為消費信貸管理的決策依據。
歐美國家的使用經驗表明,個人信用評分具有處理客戶貸款申請速度快、成本低、處理的標準一致和客觀等特點,在消費者信用風險管理中發揮著重要的作用,同時個人信用技術不僅被廣泛地應用于信用卡等消費信貸、住房按揭貸款等領域,也被成功地應用于中小企業貸款申請評估、信用卡欺詐預防、基于風險的利率定價、直銷相應評分及資產證券化等領域,因而信用評分模型具有很強的應用潛力。
然而,對于這樣一個在西方發達國家行之有效的信用風險管理技術,國內銀行使用的不多,學術的研究也很落后。國內銀行信用風險控制和管理能力還比較弱,個人信用評價工作相當不完善,缺乏科學統一的風險度量方法和工具,無法準確地度量借款人風險和產品風險,還不能對信用額度實施有效的科學管理。造成這方面的原因是多方面的,首先由于我國的信用建設起步比較晚,社會征信體系不完善,缺乏與個人信用評估相關的資料。其次缺乏專業的個人信用研究人員和專業的個人信用評估機構,致使沒有相對統一合理的評估標準、評估方法和指標體系。因此借鑒國外先進經驗,在現有的條件下,利用信息系統中的數據和信息,建立一個具有一定預測能力、在信貸決策中具有一定參考價值、符合我國國情的個人信用評分模型將有助于銀行拓展個人消費信貸業務,提高其綜合競爭力,保障我國金融秩序穩定,具有很強的理論價值和現實意義。
個人信用評分模型的必要性具體體現在如下四個方面:
首先,使用個人信用評分模型,可以幫助銀行減少貸款審批時間,爭取放款實效。據美國消費銀行協會的一份資料,以前不使用個人信用評分模型,小額消費信貸的審批平均需要12小時,如今這類貸款的審批縮短到15分鐘。使用個人信用評分模型后,信用卡的審批只要一兩分鐘,60%的汽車貸款的審批可以在l小時內完成。
其次,個人信用評分可以作為核定信用額度及收帳策略的參考。利用信用評分的結果,可以核定信用條件、交易條件及信用額度,例如什么范圍的評分結果,必須提供擔保或保證人;達到哪一標準以上,才可授予多少信用額度等;還可以預測客戶履行債務的情況,根據信用得分決定該客戶的收款方法與收款時間。
此外,個人信用評分能夠幫助金融機構確定消費貸款利率,對高風險的客戶提供較高的利率,反之亦然。這些都可以幫助金融機構更為有效地和有利地管理他們的賬戶,而且利潤評分可用于在一系列金融產品中追求利潤最大化。
最后,個人信用評分不僅為銀行等金融機構進行消費貸款風險控制提供準確、客觀的依據,而且加快了消費信貸的業務速度,降低了消費信貸的操作成本,在模型出現誤差時也可
以快速地找出原因,并對模型的參數進行調整。
綜上所述,可以得出結論:個人信用評分模型是有效控制信用風險、擴大信貸規模的有力武器,建立個人信用模型,對消費貸款的申請人的信用進行科學的度量,小到銀行對個人信用風險的控制,大到保障我國金融秩序的穩定都具有積極而重要的意義。
論文在探討各種信用技術的前提下,試圖研究該技術的具體實現,為該技術的應用提供一定的參考。
二 國內外研究現狀與發展趨勢
1.國外的研究狀況
國外幾代學者經過長達幾十年的探索研究,信用評分模型在技術上基本成熟。
杜爾蘭德(Durand)第一個將Fisher提出的判別分析法用于信用評分,用來區分“好“的貸款和“壞”的貸款。需要注意的是線性判別法進行信用分析時,對數據有嚴格假定。數據需服從正態分布,各總體協方差陣必須相等,而這些要求在現實中是很難滿足的。同二次判別函數相比,線性判別函數具有更多優點,多數學者在用判別分析法建立信用模型時,往往忽略假設依然選用線性判別函數,這使得線性判別分析成為信用評分領域最為廣泛的方法之一。
Wiginton,1980年首次在信用評分模型中采用Logistic回歸方法,并把它與判別分析法進行比較。與判別分析法 相反,Logistic回歸法不要求變量必須滿足正態性的假設,理論基礎比較好:再加上Logistic回歸法在應用時,準確性和穩定性方面表現上佳,因此被學者認為是最適合發展信用評分模型的理論。
20世紀80年代,決策樹方法開始應用于信用評分領域,之后有學者將決策樹方法與判別分析方法進行了比較,認為兩者旗鼓相當,在有些情況下,決策樹方法的表現或許更佳。
在非統計學方法中,線性規劃方法應用的比較早,20世紀60年代就有線性規劃在信用評分領域的文獻報道。盡管有部分學者認為統計學方法要比線性規劃方法好,但是大部分文獻都認為線性規劃與統計學方法的效果相當。
20世紀90年代,人工神經網絡應用于信用評分模型中。當然大部分神經網絡模型用于對公司的信用評分,在個人信用評分領域的應用相對比較少,得出的結論是在各種特征變量呈復雜非線性關系的情況下,神經網絡方法具有明顯的優勢。也有少部分學者將遺傳算法應用于個人信用評分領域,但是相比較其他方法,效果不佳,在實際中不被推崇。
在消費者個人信用評分的實務方面,美國的Equifax公司和環聯(”EransUnion)以及英國的益百利(Experian)等是世界上最大的三家個人征信機構。平均每家公司擁有2億份個人信息文件,覆蓋全美、加拿大和歐洲部分地區。三家征信公司一天提供480多萬份消費者信用報告。
2.國內研究狀況
從國內研究來看,由于我國社會征信體系建設的落后,理論研究和實務方面都相當落后。在理論研究領域,雖說成果不多,但也有部分專家學者利用國內銀行的數據開發信用評分模型,取得了一定的研究成果。
1999年下半年,中國建設銀行濟南分行出臺的<個人信用等級評定辦法》是我國首部消費信貸個人信用等級評定方法。該辦法規定,銀行將持卡人的年齡、學歷、職業、收入和家庭資產等信息資料匯集起來形成14個指標,針對個人客戶個人還款能力和資信狀況,設立7類個人信用等級,為AAA、AA、A、BBB、BB、B、C七個等級,不同信用等級的客戶享受的透支額度不同。但該方法僅能判斷一個人在該行的信用情況,而對其在其他銀行的信用狀況不清楚.隨著2005年,央行個人征信系統的聯網運行,個人信用評估工作逐步邁向規范化發展,越來越多的商業銀行利用征信系統開展信用評分工作,建立自己的信用評分系統。
李曙光(2003)在《個人信用評估研究》中將個人信用評分分為個人行為評分、利潤評分、考慮經濟環境因素的評分三類,并對國內外亟待解決的問題進行總結,認為個人信用評分模型中應包括對宏觀經濟因素的考慮.
魯煒(2004)在《基于中國現實個人信用數據的信用評分方法比較研究》中基于數據的時間跨度分布的分析,發現個人信用評分的模型壽命周期在我國較短,認為基于我國數據開發的實用模型至少每年更新一次.這就對個人信用評分模型的研究提出了可更新性要強的要求。
潘雅瓊、左相國(2004)在《消費信貸信用等級評分值與期望壞賬率的關系模型》中引用英國某著名商業銀行在不同風險指數下的壞賬率作為期望壞賬率,得到符合我國國情的信用等級評分值與壞賬率之間的對應關系模型。
總體來看,國外對消費者個人信用風險的研究已有多年的歷史,對已使用的和正在開發的預測消費信貸風險各種技術的研究取得了重大進展,為商業銀行金融風險的管理決策提供了有效的方法與工具。國內關于這方面的研究和應用還處于初級階段,一個十分重要的原因是理論研究與實際應用結合的問題,因為建立信用評分模型需要大量的銀行歷史經營數據和客戶信息,同時要有復雜的計算機系統支持,這些都涉及銀行的商業機密,無法對研究者開放,使得應用研究受到限制;另一方面,如國外Fair Isaac等信用風險評估模型公司的產品還無法直接應用于中國的銀行業,這是因為各國的信用環境、客戶自身的狀況和行為習慣都存在較大差異,而這些是信用評分模型開發和應用的基礎,信用評分模型需要有針對性的開發、訓練、優化和應用。特別是我國商業銀行正處改制和經營轉型期,個人銀行業務快速發展,客戶的總體樣本特征具有相對的不確定性,人們的信用意識、提前消費的信貸意識在不斷改變,個人消費行為也在不斷發生變化;同時個人征信體系還很不完善,客戶信息不對稱給銀行信貸審批決策的準確性造成嚴重影響,這些都是信用評分和風險控制方面亟待解決的現實問題。
三、研究內容范圍
論文希望通過對個人信用評分的基本概念和建立信用評分模型方法的研究,以及對我國銀行業個人信用方面的深入調查,明確應用先進的數據挖掘技術建立客觀信用評分模型的必要性、緊迫性、科學性以及在信用領域中數據挖掘方法的強大的應用價值。論文的重點是對信用卡風險管理的征信環節中信用卡申請者的信用評分模型進行研究,以征信系統的部分征信數據為基礎,就國外信用評分領域使用最多的決策樹、神經網絡方法,按照數據挖掘技術解決問題的一般步驟,詳細探討如何建立信用評分模型的一個完整的流程,建立一個基于我國實際的決策樹、神經網絡個人信用評分模型,并對模型進行評估,從建模結果、預測精度、運行效率等角度進行對比分析,并利用實際數據對模型進行驗證,試圖找到最佳模型,得到區客戶信用的最佳分類途徑,以便使銀行能高效的應對大量的信用卡申請者,快速地做出判斷。最后希望利用數據挖掘技術與信息系統開發技術開發信用評分管理系統的部分功能,探討如何將數據挖掘的結果應用到實際的輔助決策系統當中。
總體上來說,現今數據挖掘技術在信用卡業務的應用和研究僅僅處在初始階段,有很多工作需要去完成。希望本文的研究能為中國銀行業在信用卡風險管理方面提供一些參考和幫助。
四、主要參考文獻