第一篇:大數據時代下數據挖掘技術與應用
大數據時代下數據挖掘技術與應用
【摘要】人類進入信息化時代以后,短短的數年時間,積累了大量的數據,步入了大數據時代,數據技術也就應運而生,成為了一種新的主流技術。而研究數據挖掘技術的理念、方法以及應用領域,將對我國各個領域的未來帶來更多的機遇和挑戰。本文就大數據時代下數據挖掘技術與應用進行探究。
【關鍵詞】大數據,數據挖掘,互聯網
數據挖掘是一門新興的學科,它誕生于20世紀80年代,主要面向商業應用的人工只能研究領域。從技術角度來看,數據挖掘就是從大量的復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值和知識的過程。從商業角度來說,數據挖掘就是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識。
1.數據挖掘的基本分析方法
分析方法是數據挖掘的核心工作,通過科學可靠的算法才能實現數據的挖掘,找出數據中潛在的規律,通過不同的分析方法,將解決不同類型的問題。目前常用的方法有聚類分析、特征數據分析法、關聯性分析等。
1.1聚類分析法。簡單來說聚類分析就是通過將數據對象進行聚類分組,然后形成板塊,將毫無邏輯的數據變成了有聯系性的分組數據,然后從其中獲取具有一定價值的數據內容進行進一步的利用。由于這種分析方法不能夠較好的就數據類別、屬性進行分類,所以聚類分析法一般都運用心理學、統計學、數據識別等方面。
1.2特征性數據分析法。網絡數據隨著信息時代的到來變成了數據爆炸式,其數據資源十分廣泛并且得到了一定的普及,如何就網絡爆炸式數據進行關于特性的分類就成為了當下數據整理分類的主要內容。此外還有很多方法都是通過計算機來進行虛擬數據的分類,尋找數據之間存在的普遍規律性完成數據的特性分析從而進行進一步分類。
1.3關聯性分析法。有時數據本身存在一定的隱蔽性使得很難通過普通的數據分析法進行數據挖掘和利用,這就需要通過關聯性分析法完成對于數據信息的關聯性識別,來幫助人力完成對于數據分辨的任務,這種數據分析方法通常是帶著某種目的性進行的,因此比較適用于對數據精準度相對較高的信息管理工作。
2.數據挖掘技術的應用
數據挖掘技術的具體流程就是先通過對于海量數據的保存,然后就已有數據中進行分析、整理、選擇、轉換等,數據的準備工作是數據挖掘技術的前提,也是決定數據挖掘技術效率及質量的主要因素。在完成數據準備工作后進一步對數據進行挖掘,然后對數據進行評估,最后實現運用。因此,數據挖掘能夠運用到很多方面。如數據量巨大的互聯網行業、天文學、氣象學、生物技術,以及醫療保健、教育教學、銀行、金融、零售等行業。通過數據挖掘技術將大數據融合在各種社會應用中,數據挖掘的結果參與到政府、企業、個人的決策中,發揮數據挖掘的社會價值,改變人們的生活方式,最大化數據挖掘的積極作用。以教育行業為例,探究數據挖掘技術在高校教育教學活動中的應用。
2.1在高校管理中的應用。數據挖掘技術在高校管理的內容主要包括:高校招生錄取工作、貧困生選定以及優秀生評定等。高校每年的招生工作是學校可持續發展的重要環節,直接影響到高校教學質量以及發展情況。比如數據挖掘技術在高校管理中的應用主要是對學生高考成績、志愿填報、以及生源來源地等多方面信息進行整理分類匯總。具體步驟是通過進行數據的收集和預處理,建立相關數據模型,采用分類算法,提取和挖掘對用戶有用的信息,然后進行數據挖掘的數據存儲形式。目前高校數據挖掘技術應用的范圍比較廣泛,由于高校管理內容比較復雜,因此在其管理內容的每個小部分也開始利用數據挖掘技術進行管理,比如學生成績管理,課堂教學評價系統等。
2.2在高校課堂教學評價中的應用。數據挖掘技術在高校課堂教學評價系統中的應用主要也是利用關聯分析法。首先先對數據進行預處理工作,數據的預處理是數據挖掘技術的關鍵步驟,并且直接影響著數據挖掘技術的應用效率。數據預處中要將教師的基本信息、教師教授課程以及教師的職稱、學歷、學生信息以及學生課表相關信息進行數據初始記錄。對于教師的評價內容根據高校自身的條件和需求而定,學校教學評價管理部門登錄學校教務系統后,將學生所選擇的選項對應轉換為教師的分值,通過計算機計算總分后得出教師的學期得分。學生對于教師教學的評價在一定程度上也反映了自己的學習情況,如對教師的評價為零分,則說明學生也否定了自己的學習效果。2.3在高校學生信息管理系統中的應用。高校學生信息管理系統中管理要素主要是學校的領導、任課教師、學生以及家長。系統的功能要包括:對不同的用戶設置不同的使用權限;對學生的基本信息以及學生瀏覽管理網站的記錄要做到明確記錄;各個學院不同專業的學生課程要能準確公布并允許學生根據實際情況修改;成績管理要能實現大批量添加及修改;還有比如評優活動、黨務管理等具體功能。數據挖掘技術在高校學生信息管理系統中的應用主要是利用決策樹的方法。學生信息管理的基本數據就是學生入學時填寫的基本信息表,內容包括學生的姓名、學號、考勤以及學習成績等,這些都是學生特有的屬性,學生信息管理利用決策樹方法就是將學生的這些屬性作為決策元素,監理不同的決策節點,實現對學生全方位的考核和評價,完整的了解到每位學生的具體信息。
2.4高校圖書館信息系統中的應用。數據挖掘技術最基本的應用就是通過對現有的數據進行分析來了解學校圖書館現有資源利用情況,為圖書館的未來建設提供可靠數據。數據挖掘技術能夠使圖書館資源得到極大程度的優化整合。比如數據挖掘技術可以對檢索記錄進行整理,將手工數據轉變為電子數據記錄。其最大的優勢就是利用數據挖掘技術更加全面的分析總結數據庫資源,幫助圖書館管理人員對于圖書館信息的補充和調整,還能夠為高校圖書館的館藏工作建設提供有效的引導。數據挖掘還能應用于圖書館的多媒體數字資源,多媒體數據挖掘技術能夠更為快捷和準確的為讀者提供相應的服務。
3.結語
數據挖掘技術是近幾年新產生的網絡技術,可是它的廣泛應用性受到了很多公司以及研究人員的喜愛。這些年來,伴隨著時間的推移以及網絡技術的不斷發展大數據挖掘技術不斷的被更新,開發,而且在金融、管理、教學等行業中都得到了廣泛的應用。我相信隨著網絡技術的不斷發展,大數據挖掘技術的應用面將會越來越廣。
【參考文獻】
[1] 董彩云,曲守寧.數據挖掘及其在高校教學系統中的應用 [J].濟南大學學報(自然科學版),2004(1): 65-68.[2] 陸川,王靜靜.數據挖掘技術在高校教學管理中的應用研究[J].北京:電腦開發與應用,2009,3.[3]《中國電子科學研究院學報》編輯部.大數據時代[J].中國電子科技研究院學報,2013(01):41-43.[4]魏娟,梁靜國.基于數據挖掘技術的企業客戶關系管理(CRM)[J].商業研究,2005(07).
第二篇:大數據時代下數據挖掘技術的應用
摘要:大數據時代是信息時代的一個重要特征,實際上,在大數據時代的背景下進行數據挖掘技術的探究與應用其實就是通過在巨大的信息群中不斷挖掘出具有一定價值意義的信息進行整合,在此基礎上對已整合的信息進行進一步的處理,以提高信息數據的價值。本文以此為出發點,就大數據時代下數據挖掘技術的應用進行深入探究。
關鍵詞:大數據 數據挖掘 挖掘技術
中圖分類號:tp311 文獻標識碼:a 文章編號:1007-9416(2016)05-0000-00
1數據挖掘與數據挖掘技術的方法分析
“數據海量、信息缺乏”是相當多企業在數據大集中之后面臨的尷尬問題,由此而誕生的數據挖掘技術其實就是用以處理這一尷尬問題的技術。數據挖掘實際上是相對比較新型的一門學科,在幾十年的發展過程中,已經不可同日而語。其實數據挖掘技術的本質就是人工智能技術,而數據挖掘技術的利用相對應的就是指人工智能技術的開發與應用,也就是說數據挖掘其實是依賴技術的提升來實現數據的整體創新的技術,所以,整個數據挖掘技術實際上是非常具有信息價值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準確率,是非常重要的知識憑證,能夠在一定程度上提高當下企業的整體競爭力。
數據挖掘技術的核心就是分析,通過分析方法的不同來解決不同類別的問題,以實現數據挖掘的潛在內容。簡單來說就是對癥下藥以保證藥到病除。
1.1聚類分析法
簡單來說聚類分析就是通過將數據對象進行聚類分組,然后形成板塊,將毫無邏輯的數據變成了有聯系性的分組數據,然后從其中獲取具有一定價值的數據內容進行進一步的利用。由于這種分析方法不能夠較好的就數據類別、屬性進行分類,所以聚類分析法一般都運用在心理學、統計學、數據識別等方面。
1.2人工神經網絡
人工神經網絡是通過大批量的數據進行分析,而這種數據分析方式本身是建立在一定的數據模型基礎上的,因此通常都可以隨時根據數據需求進行分類,所以人工神經網絡也是當下數據挖掘技術中最常用的一種數據分析方式之一。
1.3關聯性分析法
有時數據本身存在一定的隱蔽性使得很難通過普通的數據分析法進行數據挖掘和利用,這就需要通過關聯性分析法完成對于數據信息的關聯性識別,來幫助人力完成對于數據分辨的任務,這種數據分析方法通常是帶著某種目的性進行的,因此比較適用于對數據精準度相對較高的信息管理工作。
1.4特征性數據分析法
網絡數據隨著信息時代的到來變成了數據爆炸式,其數據資源十分廣泛并且得到了一定的普及,如何就網絡爆炸式數據進行關于特性的分類就成為了當下數據整理分類的主要內容。在上文中提到的人工神經網絡數據分析也屬于這其中的一種,此外還有很多方法都是通過計算機來進行虛擬數據的分類,尋找數據之間存在的普遍規律性完成數據的特性分析從而進行進一步分類。
2大數據時代下數據挖掘技術的具體應用
數據挖掘技術的具體流程就是先通過對于海量數據的保存,然后就已有數據中進行分析、整理、選擇、轉換等,數據的準備工作是數據挖掘技術的前提,也是決定數據挖掘技術效率及質量的主要因素。在完成數據準備工作后進一步對數據進行挖掘,然后對數據進行評估,最后實現運用。因此,數據挖掘能夠運用到很多方面。
2.1市場營銷領域
市場營銷其實就是數據挖掘技術最早運用的領域,通常根據客戶的具體需求,進行客戶分析,將不同的消費習慣和消費特點的客戶進行簡單的分類管理,以此來保證商品能夠順利銷售,并提高個人銷售的成功率和業績。而銷售的范圍也從最初的超市購物擴展到了包括保險、銀行、電信等各個方面。
2.2科學研究領域
科學研究與實驗測試等都需要對數據進行關系分析為進一步的實驗和總結失敗做準備,而實驗測試和科學研究產生的數據往往是巨大的,因此數據挖掘技術在科學研究領域也得以廣泛運用。通常都是通過科學研究內容選擇數據挖掘技術分析法進行計算來找到數據中存在的規律,實現數據挖掘的部分價值――科學知識的分析與運用。
2.3電信業領域
隨著信息化時代的到來,電信產業也飛速發展起來,到目前為止,電信產業已經形成了一個巨大的網絡信息載體,如何將其中信息數據進行整合就成為電信產業發展過程中的重要問題。而數據挖掘技術的運用則在一定程度上解決了這一問題,大量的數據通過數據挖掘技術得到了有效分類,并在這個過程中通過運算得出數據之間的關聯性,運用規律進一步進行數據分類。
2.4教育教學領域
教學評價、教學資源、學生個人基本信息等組成了教育教學領域的數據庫,利用數據挖掘技術來實現教學資源的優化配置,對學生的個人信息整理歸檔,從而保證教育教學領域中數據整理的良好運作。
3結語
綜上所述,數據挖掘技術對于當今社會的發展有著不可替代的作用,而如何改善當下數據挖掘技術中存在的問題,進一步提高數據挖掘技術的質量和效率就成為了數據挖掘技術進步的方向。本文通過對于數據挖掘與數據挖掘技術的方法分析和大數據時代下數據挖掘技術的具體應用兩個方面對于數據挖掘技術進行了簡要的闡述和分析,相信在未來伴隨著科學技術的進一步發展,數據挖掘技術也將更加強大。
第三篇:大數據時代數據挖掘技術教學研究論文
摘要:隨著大數據時代的到來,在大數據觀念不斷提出的今天,加強數據大數據挖掘及時的應用已成為大勢所趨。那么在大數據教學過程中,我們必須掌握大數據與數據挖掘的內涵,并對數據挖掘技術進行分析,從而明確大數據時代下數據挖掘技術的應用領域,促進各項數據的處理,提高大數據處理能力。
關鍵詞:大數據時代;數據挖掘技術;應用
大數據是對全球的數據量較大的一個概括,且每年的數據增長速度較快。而數據挖掘,主要是從多種模糊而又隨機、大量而又復雜且不規則的數據中,獲得有用的信息知識,從數據庫中抽絲剝繭、轉換分析,從而掌握其潛在價值與規律。所以大數據時代下的數據處理技術要求更高,要想確保數據處理成效得到提升,就必須切實加強數據挖掘技術教學工作的開展,才能更好地促進數據處理職能的轉變,提高數據處理效率,優化學生的學習成效。以下就大數據時代下的數據挖掘技術教學做出如下分析。
1大數據時代下數據挖掘技術的基礎教學方法分析
數據挖掘的過程實際就是對數據進行分析和處理,所以其基礎就在于數據的分析方法。要想確保分析方法的科學性,就必須確保所采用算法的科學性和可靠性,獲取數據潛在規律,并采取多元化的分析方法促進問題的解決和優化。以下就幾種常見的數據分析教學方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數據信息予以集中,并對集中后的數據實施分類整理和編輯處理,從而確保所形成的數據源具有特征一致、表現相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數據信息處理。二是關聯法,由于不同數據間存在的關聯性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預先結合信息關聯的表現,對數據關聯管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務較為復雜的信息處理工作之中。三是特征法,由于數據資源的應用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術,將具有相同特征的數據進行集中。例如采用人工神經網絡技術時,主要是對大批量復雜的數據分析,對非常復雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結合生物進化的原理,對信息數據的成長過程進行虛擬和假設,從而組建出半虛擬、半真實的信息資源。再如可視化技術則是為數據挖掘提供輔助,采取多種方式對數據的挖掘進行指導和表達[1]。
2大數據時代數據挖掘技術教學要點的分析
2.1數據挖掘技術流程分析
在數據挖掘教學過程中,其流程主要是以下幾點:首先做好數據準備工作,主要是在挖掘數據之前,就引導學生對目標數據進行準確的定位,在尋找和挖掘數據之前,必須知道所需數據類型,才能避免數據挖掘的盲目性。在數據準備時,應根據系統的提示進行操作,在數據庫中輸入檢索條件和目標,對數據信息資源進行分類和清理,以及編輯和預處理。其次是在數據挖掘過程中,由于目標數據信息已經被預處理,所以就需要在挖掘處理過程中將其高效正確的應用到管理機制之中,因而數據挖掘的過程十分重要,所以必須加強對其的處理。例如在數據挖掘中,引導學生結合數據挖掘目標要求,針對性的選取科學而又合適的計算和分析方法,對數據信息特征與應用價值等進行尋找和歸納。當然,也可以結合程序應用的需要,對數據區域進行固定,并在固定的數據區域內分類的挖掘數據,從而得到更具深度和內涵以及價值的數據信息資源,并就挖掘到的數據結果進行分析和解釋,從結果中將具有使用價值和意義的規律進行提取,并還原成便于理解的數據語言。最后是切實加強管理和計算等專業知識的應用,將數據挖掘技術實施中進行的總結和提取所獲得的數據信息與評估結果在現實之中應用,從而對某個思想、決策是否正確和科學進行判斷,最終體現出數據挖掘及時的應用價值,在激發學生學習興趣的同時促進教學成效的提升。
2.2挖掘后的數據信息資源分析
數據信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術環節下的數據挖掘技術隨著限定條件的變化,而將數據挖掘信息應用于技術管理和決策管理之中,從而更好地彰顯數據在經濟活動中的物質性質與價值變化趨勢,并結合數據變化特點和具體的表現規律,從而將數據信息的基本要素、質量特點、管理要求等展示出來,所以其表現的形式十分豐富。因而在數據挖掘之后的信息在職能范圍和表現形式方式均得到了豐富和拓展,而這也在一定程度上體現了網絡擬定目標服務具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統數據挖掘技術的創新和發展,從而更好地滿足當前大數據時代對信息進行數據化的處理,并對不同種類業務進行整合和優化,從而促進數據挖掘技術服務的一體化水平。
2.3大數據背景下的數據挖掘技術的應用必須注重信息失真的控制
數據挖掘技術的信息主要是源于大數據和社會,所以在當前數據挖掘技術需求不斷加大的今天,為了更好地促進所挖掘數據信息的真實性,促進其個性化職能的發揮,必須在大數據背景下注重信息失真的控制,切實做好數據挖掘技術管理的各項工作。這就需要引導學生考慮如何確保數據挖掘技術在大數據背景下的職能得到有效的發揮,盡可能地促進數據挖掘技術信息資源的升級和轉型,以大數據背景為載體,促進整個業務和技術操作流程的一體化,從而更好地將所有數據資源的消耗和變化以及管理的科學性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數據資源的消耗效益進行評價,最終促進業務流程的優化,并結合大數據背景對數據挖掘技術的職能進行拓展,促進其外部信息與內部信息的合作,對數據挖掘技術信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。
3數據挖掘技術在不同行業中的應用實踐
學習的最終目的是為了更好的應用,隨著時代的發展,數據挖掘技術將在越來越多的行業中得以應用。這就需要高校教師引導學生結合實際需要強化對其的應用。例如在市場營銷行業中數據挖掘技術的應用這主要是因為數據挖掘能有效的解析消費者的消費行為和消費習慣,從而利用其將銷售方式改進和優化,最終促進產品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業中數據挖掘技術的應用,其目的就在于對產品質量進行檢驗。引導學生深入某企業實際,對所制造產品的數據進行研究,從而找出其存在的規則,并對其生產流程進行分析之后,對其生產的過程進行分析,從而更好地對生產質量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產數據進行篩選,從而得出有用的數據和知識,再采取決策樹算法進行統計決策,并從中選取正確決策,從而更好地對產品在市場中的流行程度,決定生產和轉型的方向。再如在教育行業中數據挖掘技術的應用,主要是為了更好地對學習情況、教學評估和心里動向等數據進行分類和篩選,從而為學校的教學改革提供參考和支持。比如為了更好地對教學質量進行評估,就需要對教學質量有關項目進行整合與存儲,從而更好地促進其對教學質量的評估,而這一過程中,就需要采取數據挖掘技術對有關教學項目中的數據進行挖掘和處理,促進其應用成效的提升[3]。
4結語
綜上所述,在大數據背景下,數據挖掘技術已經在各行各業中得到了廣泛的應用,所以為了更好地滿足應用的需要,在實際教學工作中,我們必須引導學生切實加強對其特點的分析,并結合實際需要,切實注重數據挖掘技術的應用,才能促進其應用成效的提升,最終達到學以致用的目的。
參考文獻:
[1]李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014,03:45-47.[2]歐陽柏成.大數據時代的數據挖掘技術探究[J].電腦知識與技術,2015,15:3-4+9.[3]孔志文.大數據時代的數據挖掘技術與應用[J].電子技術與軟件工程,2015,23:195.
第四篇:數據挖掘與電子商務
數據挖掘與電子商務
姓名:龔洪虎
學號:X2009230111
[摘 要] 企業的競爭優勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優勢為競爭優勢,是企業制勝于市場的一個法寶。本文論述了一種信息處理利用的有效工具——數據挖掘方法及其在電子商務中的應用。
[關鍵詞] 數據挖掘 方法 電子商務 應用
隨著網絡技術和數據庫技術的成熟,傳統商務正經歷一次重大變革,向電子商務全速挺進。這種商業電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數據挖掘技術作為電子商務的重要應用技術之一,將為正確的商業決策提供強有力的支持和可靠的保證,是電子商務不可缺少的重要工具。
一、電子商務和數據挖掘簡介。
電子商務是指個人或企業通過Internet網絡,采用數字化電子方式進行商務數據交換和開展商務業務活動。目前國內已有網上商情廣告、電子票據交換、網上訂購,網上銀行、網上支付結算等多種類型的電子商務形式。電子商務正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優點而逐步在全球流行。
數據挖掘(DataMining)是伴隨著數據倉庫技術的發展而逐步完善起來的。數據挖掘主要是為了幫助商業用戶處理大量存在的數據,發現其后隱含的規律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數據中,提取人們事先不知道的但又是潛在有用的信息和知識。數據挖掘的過程有時也叫知識發現的過程。
而電子商務中的數據挖掘即Web挖掘,是利用數據挖掘技術從www的資源(即Web文檔)和行為(即We服務)中自動發現并提取感興趣的、有用的模式和隱含的信息,它是一項綜合技術涉及到Internet技術學、人工智能、計算機語言、信息學、統計學等多個領域。
二、何謂數據挖掘及方法
確切地說,數據挖掘(Data Mining),又稱數據庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大型數據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式。它融合了數據庫、人工智能、機器學習、統計學等多個領域的理論和技術。比較典型的數據挖掘方法有關聯分析、序列模式分析、分類分析、聚類分析等。它們可以應用到以客戶為中心的企業決策分析和管理的各個不同領域和階段。
1.關聯分析。關聯分析,即利用關聯規則進行數據挖掘。關聯分析的目的是挖掘隱藏在數據間的相互關系,它能發現數據庫中形如”90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關聯分析相似,但側重點在于分析數據間的前后序列關系。它能發現數據庫中形如”在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數據庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設有一個數據庫和一組具有不同特征的類別(標記),該數據庫中的每一個②
記錄都賦予一個類別的標記,這樣的數據庫稱為示例數據庫或訓練集。分類分析就是通過分析示例數據庫中的數據,為每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用這個分類規則對其他數據庫中的記錄進行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應分成幾類事先也不知道,通過分析數據庫中的記錄數據,根據一定的分類規則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結果。
應用數據挖掘技術,較為理想的起點就是從一個數據倉庫開始,數據挖掘可以直接跟蹤數據并輔助用戶快速做出商業決策,用戶還可以在更新數據的時候不斷發現更好的行為模式,并將其運用于未來的決策當中。
三、選擇數據挖掘技術的兩個重要依據。
數據挖掘使用的技術很多,其中主要包括統計方法、機器學習方法、和神經網絡方法和數據庫方法。統計方法可細分為回歸分析、判別分析、聚類分析、探索性分析等。機器學習方法可細分為歸納學習方法(決策樹、規則歸納)、基于范例學習、遺傳算法等。神經網絡方法可細分為錢箱神經網絡(BP算法)、自組織神經網絡等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。由于每一種數據挖掘技術都有其自身的特點和實現的步驟,對數據的形式有具體的要求,并且與具體的應用問題密切相關,因此成功的應用數據挖掘技術以達到目標過程本身就是一件很復雜的事情,本文主要從挖掘任務和可獲得的數據兩個角度來討論對數據挖掘技術的選擇。
三、數據挖掘在電子商務中的應用
數據挖掘能發現電子商務客戶的的共性和個性的知識、必然和偶然的知識、獨立和關聯的知識、現實和預測的知識等,所有這些知識經過分析,能對客戶的消費行為如心理、能力、動機、需求、潛能等做出統計和正確地分析,為管理者提供決策依據。具體應用如下:
1.分類與預測方法在電子商務中的應用。在電子商務活動中,分類是一項非常重要的任務,也是應用最多的技術。分類的目的是構造一個分類函數或分類模型,通常稱作分類器。分類器的構造方法通常由統計方法、機器學習方法、神經網絡方法等。這些方法能把數據庫中的數據映射到給定類別中某一個,以便用于預測,也就是利用歷史數據記錄,自動推導出給定數據的推廣描述,從而對未來數據進行預測。
2.聚類方法在電子商務中的應用。聚類是把一組個體按照相似性原則歸成若干類別。對電子商務來說,客戶聚類可以對市場細分理論提供有力的支持。市場細分的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務網站可以為客戶提供個性化的服務。
3.數據抽取方法在電子商務中的應用。數據抽取的目的是對數據進行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統計值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數據泛化的角度來討論數據總結。數據泛化是一種把最原始、最基本的信息數據從低層次抽象到高層次上的過程。可采用多維數據分析方法和面向屬性的歸納方法。在電子商務活動中,采用維數據分析方法進行數據抽取,他針對的是電子商務活動中的客戶數據倉庫。在數據分析中經常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大,可把匯集操作結果預先計算并存儲起來,以便用于決策支持系統使用。
4.關聯規則在電子商務中的應用。管理部門可以收集存儲大量的售貨數據和客戶資料,對這些歷史數據進行分析并發現關聯規則。如分析網上顧客的購買行為,幫助管理者規劃市場,確定商品的種類、價格、質量等。通常關聯規則有兩種:有意義的關聯規則和泛化關聯規則,有意義的關聯規則,即滿足最小支持度和最小可信度的規則。最小支持度,它表示一組對象在統計意義上的需滿足的最低程度,如電子商務活動中的客戶數量、客戶消費能力、消費方式等。后者即用戶規定的關聯規則的最低可靠度。第二是泛化規則,這種規則更實用,因為研究對象存在一種層次關系,如面包、蛋糕屬西點類,而西點又屬于食品類,有了層次關系后,可以幫助發現更多的有意義的規則。
5、優化企業資源
節約成本是企業盈利的關鍵。基于數據挖掘技術,實時、全面、準確地掌握企業資源信息,通過分析歷史的財務數據、庫存數據和交易數據, 可以發現企業資源消耗的關鍵點和主要活動的投入產出比例, 從而為企業資源優化配置提供決策依據, 例如降低庫存、提高庫存周轉率、提高資金使用率等。通過對Web數據挖掘,快速提取商業信息,使企業準確地把握市場動態,極大地提高企業對市場變化的響應能力和創新能力,使企業最大限度地利用人力資源、物質資源和信息資源,合理協調企業內外部資源的關系,產生最佳的經濟效益。促進企業發展的科學化、信息化和智能化。
例如:美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。
6、管理客戶數據
隨著“以客戶為中心”的經營理念的不斷深入人心, 分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。基于數據挖掘技術,企業將最大限度地利用客戶資源,開展客戶行為的分析與預測,對客戶進行分類。有助于客戶盈利能力分析,尋找潛在的有價值的客戶,開展個性化服務,提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習慣和興趣,從而改善網站結構設計,推出滿足不同客戶的個性化網頁。利用數據挖掘可以有效地獲得客戶。比如通過數據挖掘可以發現購買某種商品的消費者是男性還是女性,學歷、收入如何, 有什么愛好,是什么職業等等。甚至可以發現不同的人在購買該種商品的相關商品后多長時間有可能購買該種商品, 以及什么樣的人會購買什么型號的該種商品等等。在采用了數據挖掘后, 針對目標客戶發送的廣告的有效性和回應率將得到大幅度的提高, 推銷的成本將大大降低。同時,在客戶數據挖掘的基礎上,企業可以發現重點客戶和評價市場性能,制定個性化營銷策略,拓寬銷售渠道和范圍,為企業制定生產策略和發展規劃提供科學的依據。通過呼叫中心優化與客戶溝通的渠道,提高對客戶的響應效率和服務質量,促
①進客戶關系管理的自動化和智能化。
三、結束語
電子商務是現代信息技術發展的必然結果,也是未來商業運作模式的必然選擇。利用數據挖掘技術,充分發揮企業的獨特優勢,促進管理創新和技術創新,使企業在在電子商務的潮流中立于不敗之地。隨著數據挖掘算法的不斷發展和成熟,數據挖掘一定會有更加廣闊的應用前景。
參考文獻:
(1)《淺談數據挖掘在電子商務中的運用》 鐘連福;
(2)《電子商務中商業數據的挖掘方法》 中國電子商務研究中心;
(3)《在電子商務中如何正確有使用數據挖掘技術》 俠名;
(4)《曾貞:數據挖掘在電子商務中的應用》 甘肅農業,2004(7);
(5)《馮艷王堅強:數據挖掘在電子商務上的應用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務發展研究報告》北京郵電大學出版社 ;
(7)《數據挖掘與電子商務》 鄧鯤鵬,周延杰,嚴瑜筱。①
第五篇:《大數據:技術與應用》學習心得
4月1日上午,“新時代學習大講堂”第二期時代前沿知識專題講座貴陽舉行。中國科學院院士,北京理工大學黨委常委、副校長,貴州省大數據產業發展研究院院長梅宏圍繞大數據技術與應用作專題報告。
本次講座上,梅宏院長從“大數據是什么”、“如何應對大數據”、“如何應用大數據”、“大數據現狀和思考”等多個方面,全方位、多角度、立體式地解讀了大數據的技術與應用,語言生動、內容詳實,既傳達了黨中央的精神,又談了自身學習體會,既解讀了大數據發展的規律,又提出了學習領會的意見建議,為貴州省各級領導干部、國家機關、公職人員學習互聯網知識,熟練掌握大數據知識指出了路徑、傳授了方法。
通過學習,我們知道信息時代的到來,感受到的是技術變化日新月異,隨之而來的是生活方式的轉變,我們這樣評論著的信息時代已經變為曾經。如今,大數據時代成為炙手可熱的話題。
今天,信息是一個高度概括抽象概念,是一個發展中的動態范疇,是進行互相交換的內容和名稱,信息的界定沒有統一的定義,但是信息具備客觀、動態、傳遞、共享、經濟等特性卻是大家的共識。數據是描述事物的符號記錄,是可定義為意義的實體,它涉及到事物的存在形式。它是關于事件之一組離散且客觀的事實描述,是構成信息和知識的原始材料。數據可分為模擬數據和數字數據兩大類。數據指計算機加工的“原料”,如圖形、聲音、文字、數、字符和符號等。從定義看來,數據是原始的處女地,需要耕耘。信息則是已經處理過的可以傳播的資訊。信息時代依賴于數據的爆發,只是當數據爆發到無法駕馭的狀態,大數據時代應運而生。
在大數據時代,大數據時代區別與轉變就是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”。數據的更多、更雜,導致應用主意只能盡量觀察,而不是傾其所有進行推理。小數據停留在說明過去,大數據用驅動過去來預測未來。數據的用途意在何為,與數據本身無關,而與數據的解讀者有關,而相關關系更有利于預測未來。大數據更多的體現在海量非結構化數據本身與處理方法的整合。大數據更像是理論與現實齊頭并進,理論來創立處理非結構化數據的方法,處理結果與未來進行驗證。大數據是在互聯網背景下數據從量變到質變的過程。小數據時代也即是信息時代,是大數據時代的前提,大數據時代是升華和進化,本質是相輔相成,而并非相離互斥。客戶數據、交易數據、管理數據等海量數據不斷增長,海量機遇和挑戰也隨之而來,適應變革,適者生存。我們可以有更廣闊的學習空間、可以有更精準的決策判斷能力這些都基于數據的收集、整理、駕馭、分析能力,基于脫穎而出的創新思維和執行。
李再勇副省長在主持講座時指出,此次專題講座既是一次培訓輔導,也是一次了解大數據、弄懂大數據、運用大數據的好機會,大家要認真學習、深刻領悟,將大數據知識運用到實際工作中。并要求,廣大黨員干部一是要精準把握總書記關于大數據發展系列重要講話精神的核心要義,要利用大數據在商用、政用、民用等多方面“聚通用”協同發展;二是要以大數據發展重構經濟體系,努力實現貴州經濟高質量發展,要以供給側改革為主線,以大數據發展加快對傳統產業結構和產業體系的重構、重組,實現質量、效率、動力三大變革;三是要以大數據發展提升治理體系、治理能力,不斷推進政府管理和社會治理模式的創新,要在數據重構中找到適合人類社會管理的規律。四要以大數據發展促進民生發展,不斷提升公共服務均等化、普惠化、便捷化,要通過大數據進一步推動共享發展,共享發展的平臺和路徑以及技術,加快共同富裕的步伐。