第一篇:數據挖掘技術下數字化油氣藏研究論文
摘要:油氣藏在勘探開發及其研究與決策過程中,形成巨量的成果及數據。為了更加科學開發與管理油氣藏,充分運用和發揮好這些巨量數據的信息作用成為關鍵,數據挖掘作為一種有效的信息處理技術,可以在海量數據中快速找出有用信息,為研究與決策提供強有力的數據支持。長慶油田在油氣藏研究與決策支持系統(RDMS)建設中充分利用各專業數據庫及多種數據挖掘方法,構建了一個滿足勘探、開發、儲量管理、評價等綜合應用的數據管理、數據操作及可視化展示的一體化平臺,為油氣藏研究與決策人員提供全方位的數據處理與可靠決策,極大地提升了油氣藏的研究效率和決策質量。
關鍵詞:數字化油氣藏;研究與決策;數據挖掘
油氣藏研究包含了從地質勘查到石油產品最終用戶的復雜工藝流程,傳統的油氣藏研究方法存在工作效率低、準確性不高、過度依賴人工經驗等問題。決策者需要從海量的數據中找出有用的關鍵信息;論證現場中研究人員攜帶和使用的各類圖件無法充分展示其研究成果,也不能在論證現場短時間內消化大量資料并做出正確的決策,更不能使信息資源的共享和成果的交互上得到充分實現。信息落后的信息處理方法與單一的研究手段不但花費大量的精力與時間,更是造成大量寶貴的研究成果無法應用與共享。近年信息技術的快速發展,催生了數字化油藏,促進了數字油田的發展產,數據挖掘等信息技術與油氣勘探開發數據資源的融合不斷加深,能夠提供更智能化的數據分析功能,更好地支持油氣藏勘探開發決策,開創了一種全新的油氣藏研究工作模式,降低了決策風險,提升開發決策水平。長慶油田針對具有數量龐大的、結構不完整的、內容不清晰且含有干擾信息的油氣藏研究工作數據,開發了包括特征提取、規則劃分分類分析、關聯規則挖掘、聚類分析、模式分析及生成趨勢分析等[1-2]系列數據挖掘技術,從中提取出包含在內部的、不被人們知曉的、卻又含有有用的、重要的信息和知識[3-4],為長慶油田的高效開發、快速發展提供了有效的數據信息支持。
一、油氣藏研究與決策支持系統
通過借鑒國內外著名油氣公司在油氣勘探計算機軟件研發方面的經驗[5-6],依托長慶油田豐富的數據資源,利用先進的軟件研發技術,長慶油田研發出了一套數字化油氣藏研究(RDMS)系統。它以油氣藏研究為主線,業務驅動,數據鏈為手段,由協同工作平臺、數據整合平臺、數據可視化平臺等組成的一體化多學科協同工作環境。數字化油氣藏研究系統從功能架構上可劃分為數據服務、基礎工作、協同研究、決策支持和云軟件五大平臺?;A工作平臺是以油氣藏數據鏈技術為基礎建立的系統底層框架,為各應用場景的協同工作提供基礎環境;協同研究平臺面向科研人員,通過對不同業務崗位定制不同工作場景和工作內容,為研究人員提供便捷的數據組織、共享和知識應用平臺;決策支持平臺面向技術主管和普通技術人員,為一體化技術交流及方案決策提供環境,并實現遠程異地協同決策;云軟件平臺基于虛擬存儲技術將勘探開發主流軟件統一部署在云中心服務器,實現專業軟件接口統一升級、許可動態調度和集中維護管理。目前,基礎工作平臺、研究工作平臺(29個研究主題)和決策支持平臺(16個決策主題)已基本開發完成,在勘探開發研究院、油氣工藝研究院、采油(氣)廠已推廣運行。圖1展示了數字化油氣藏研究與決策支持系統功能模塊的細分情況。
二、數字化油氣藏的數據挖掘技術
長慶油田建設的數字化油氣藏研究與決策支持系統,為油田生產的勘探部署、產能建設等決策提供輔助。在決策支持系統的建設中采用了數據挖掘技術,在數據分類的過程中使用了神經網絡技術,在數據關聯過程中使用了決策樹方法,在預測過程中使用了回歸分析和貝葉斯網絡。由勘探井的數據結合模型庫系統和數據倉庫系統,為井位部署、產能預測、生產方法等決策提供支持。在圖2的結構中有一個模型庫系統,它由模型庫、方法庫、數據庫、格式庫、衍生數據庫及其管理系統組成。該系統可被抽象為六元結構,即S={ModelD,methodD,FormD,ParaD,D,DeriveD}。其中,ModelD={model1,model2,…,modeln},它是模型庫,用于集成各種模型。模型庫為整個系統提供支撐。它有包含模型庫管理子系統(MDBMS)對模型庫進行統一的管理,具有對模型定義、建立、存儲、查詢等功能。模型庫是系統的核心結構。用于油氣藏研究的各種數據庫在模型庫中統一管理、調用;MethodD={method1,method2,…,methodn},它是方法庫,集成各模型計算的參數獲取方法。方法庫系統為系統提供算法模型支撐,它包含方法庫管理子系統(ADBMS)對方法庫進行統一的管理;FormD為數據格式庫,定義了每個數據的數據類型,數據格式;ParaD為參數庫,用于存放各種油氣藏分析程序運轉的各種參數;D為數據庫,用于存放計算數學模型所需的各種數據;DevriveD為衍生數據庫,存放油氣藏研究過程中產生的新數據。
三、油氣藏數據挖掘技術的實現
1.建立數據倉庫建立數據倉庫是實現數據挖掘的基礎。本系統中使用的是原型法,快速的實現數據倉,并根據反饋信息修改油氣藏決策步驟中不合理的需求分析和主題情況,為后面的決策工作提供技術基礎和經驗積累。本系統主題是油田勘探井位布置位置、測井實時數據、產能分析、儲量管理等主題。在對油氣藏決策系統進行分析之后,根據油氣藏決策系統中包含的油氣藏數據、決策內容進行邏輯分類。針對各個的分析主題,在油氣藏數據倉庫中建立關系表,用來描述與決策結果相關的各種信息,關系表主要從油氣藏系統數據庫中的流程表中提取數據,包括地質圖、地理圖、地震數據等。在數據倉庫的建設過程中,對油田的盆地、各級構造、圈閉、地震工區、勘探沉積相、各級儲量區塊、油田各類開發生產單元、井等勘探開發圖形對象的轉換、加載入庫,建立完成地質信息庫。
2.油氣藏研究工作數據抽象和總結技術數據總結的最終結果是對油氣藏研究數據進行抽象模型化,給出油氣藏研究決策工作流程的總體綜合描述。通過對油氣藏數據的歸納抽象,數據挖掘方法能夠將數據庫中的所有數據從較低的個體層次抽象總結到較高的總體層次上,從而實現對原始基本數據的總體把握。在本系統中使用的數據總結方法是目前最為成熟的數學方法,也就是利用數學方法計算出數據庫的各個數據項的統計學特征,如總和、方差、最大值、平均、最小值等;或者通過利用數學中的統計圖形工具,對數據制作統計圖形,如直方圖、餅狀圖等。長慶油田的數字化油氣藏研究系統中利用了OLAP技術實現對油田井位的地質圖、地理圖、地震數據的多維查詢,分析了多種數據的統計特征,同時用多個統計圖形描述了數據間的聯系。最后對多個數據進行歸納,提取統計信息。
3.數據分類數據挖掘中的分類是建立需要的分類函數或分類模型。通過這個分類模型可以將數據劃分到不同的組中。它的實現步驟一般是:首先分析工作數據的各種特征,并找出或者建立出工作數據的屬性模型,確定數據的歸屬組別,然后利用這些模型來分析工作數據,最后預測后面的工作數據可能會屬的分組。分類應用的實例很多,本系統的采油井中,將油田井位出油量分為好、一般和較差三種類型,以此分析這三種類型井位的各種屬性,特別是位置、地質等屬性,并決定它們分類的關鍵屬性及相互間關系。此后就可以根據這些關鍵屬性對每一個預期的井位進行分析,以便決定預期井位屬于哪一種類型。
4.關聯分析原始數據庫中各個工作數據都存在相互關聯、相互影響的聯系。兩個或多個工作數據的取值之間存在某種邏輯聯系。這種關聯關系主要有簡單關聯和時間關聯兩種。比如油田井位中的地質環境、地震數據和出油量存在關聯。關聯分析的目的是找出工作數據中隱藏的關聯網,描述眾多數據項目的密切度或關聯關系。由于事先往往并不知道工作數據的關聯是否存在,或者是否可以用精確的關聯函數描述。因此,關聯分析生成的規則通常都帶有置信度,置信度級別描述了關聯規則的強度。
5.聚類與分析油藏工作數據往往缺少比較詳細的描述信息,甚至是無法組織成任何分類模式時,通??梢圆捎镁垲惙治觥Mㄟ^聚類分析,按照約定的相近程度度量方法或者其他的標準,將工作數據分成許多有意義的子集合;每一個集合中的數據特征相近甚至相同,不同數據集合之間的數據性質差異較大,容易區分。長慶油田的數字化油氣藏研究在實現過程中,使用了Fayyad過程模型,如圖3所示。在數據挖掘的過程中,系統執行一個循環迭代過程。在每一步的執行中,從油田的盆地、各級構造、圈閉、地震工區、勘探沉積相、各級儲量區塊、油田各類開發生產單元等數據中,分析出勘探井位的位置信息,如果發現某個階段產生的結果和預想的內容有出入。則重復前面階段步驟。
四、結束語
長慶油田針對油氣藏研究數據量大、信息隱晦的技術現狀,建立了油氣藏研究與決策支持系統[7-10],并在其中開發和應用了系列數據挖掘技術,取得了較大進展:
(1)與眾多學科及技術相融合,形成了包括人工智能、統計學、數據倉庫、在線分析處理、專家系統、數據可視化、高性能計算等數據挖掘技術,將原始數據庫轉化為有用的研究知識,為油氣藏決策了有力支持。
(2)海量數據及其挖掘技術的開發為油氣藏研究與決策支持系統的高效應用打下了基礎,極大地提高了油氣藏的研究與決策水平,為長慶油田快速發展提供了強有力的技術支持。
參考文獻
[1]郭萌,王玨.數據挖掘與數據庫知識發現:綜述[J].模式識別與人工智能,1998,11(03):292-299.
[2]胡侃,夏紹瑋.基于大型數據倉庫的數據采掘:研究綜述[J].軟件學報,1998(01):54-64.
[3]GrossmanR,KasifS,MooreR,etal.Dataminingresearch:Op—portunitiesandchallenges[C].AreportofthreeNSFworkshopsonmininglarge,massive,anddistributeddata,1999.
[4]Deogu*JS,RaghavanVV,SarkarA,etal.Datamining:Re—searchtrends,challenges,andapplications[J].RoughsSetsandDataMining:AnalysisofImpreciseData,1997:9-45.
[5]王宏琳.油氣勘探計算機軟件:平臺體系結構框架[J].石油工業計算機應用,2004(02):3-8.
[6](美)HohmannL著.藍莉,曾永和譯.超越軟件架構創建和維護優秀解決方案[M].北京:中國電力出版社,2005.
[7]石玉江.數字油田中的勘探井位快速部署技術[J].石油工業計算機應用,2016(12):11-16.
[8]王娟.數字油氣藏數據中心建設的關鍵技術[J].石油工業計算機應用,2016(1):16-18.
[9]付金華,石玉江,王娟,等.長慶油田勘探開發服務型共享數據中心構建研究[J].中國石油勘探,2017,22(6):1-8.
[10]王娟,姚衛華,石玉江,等.基于云架構的油氣藏數據智能管理技術[J].天然氣工業,2014,34(3):137-141.
第二篇:數據挖掘教學方法研究論文
摘要:在本科高年級學生中開設符合學術研究和工業應用熱點的進階課程是十分必要的。以數據挖掘課程為例,本科高年級學生了解并掌握數據挖掘的相關技術,對于其今后的工作、學習不無裨益。著重闡述數據挖掘等進階課程在本科高年級學生中的教學方法,基于本科高年級學生的實際情況,以及進階課程的知識體系特點,提出有針對性的教學方法參考,從而提高進階課程的教學效果。
關鍵詞:數據挖掘;進階課程;教學方法研究;本科高年級
學生在本科高年級學生中開設數據挖掘等進階課程是十分必要的,以大數據、數據挖掘為例,其相關技術不僅是當前學術界的研究熱點,也是各家企事業單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學位的學生,對于即將走上工作崗位的學生,了解并掌握一些大數據相關技術,尤其是數據挖掘技術,都是不無裨益的。在目前本科教學中,對于數據挖掘等課程的教學,由于前序課程的要求,往往是放在本科四年級進行。如何激發本科四年級學生在考研,找工作等繁雜事務中的學習興趣,從而更好地掌握數據挖掘的相關技術是本課程面臨的主要挑戰,也是所有本科進階課程所面臨的難題之一。
1數據挖掘等進階課程所面臨的問題
1.1進階課程知識體系的綜合性
進階課程由于其理論與技術的先進性,往往是學術研究的前沿,工業應用的熱點,是綜合多方面知識的課程。以數據挖掘課程為例,其中包括數據庫、機器學習、模式識別、統計、可視化、高性能技術,算法等多方面的知識內容。雖然學生在前期的本科學習中已經掌握了部分相關內容,如數據庫、統計、算法等,但對于其他內容如機器學習、人工智能、模式識別、可視化等,有的是與數據挖掘課程同時開設的進階課程,有的已經是研究生的教學內容。對于進階課程繁雜的知識體系,應該如何把握廣度和深度的關系尤為重要。
1.2進階課程的教學的目的要求
進階課程的知識體系的綜合性體現在知識點過多、技術特征復雜。從教學效益的角度出發,進階課程的教學目的是在有限的課時內最大化學生的知識收獲。從教學結果的可測度出發,進階課程的教學需要能夠有效驗證學生掌握重點知識的學習成果。1.3本科高年級學生的實際情況本科高年級學生需要處理考研復習,找工作等繁雜事務,往往對于剩余本科階段的學習不重視,存在得過且過的心態。進階課程往往是專業選修課程,部分學分已經修滿的學生往往放棄這部分課程的學習,一來沒有時間,二來怕拖累學分。
2數據挖掘等進階課程的具體教學方法
進階課程的教學理念是在有限的課時內,盡可能地提高課程的廣度,增加介紹性內容,在授課中著重講解1~2個關鍵技術,如在數據挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復雜度一般,應用廣泛的重要知識點,并利用實踐來檢驗學習成果。
2.1進階課程的課堂教學
數據挖掘等進階課程所涉及的知識點眾多,在課堂上則采用演示和講授相結合的方法,對大部分知識點做廣度介紹,而對需要重點掌握知識點具體講授,結合實踐案例及板書。在介紹工業實踐案例的過程中,對于具體數據挖掘任務的來龍去脈解釋清楚,尤其是對于問題的歸納,數據的處理,算法的選擇等步驟,并在不同的知識點的教學中重復介紹和總結數據挖掘的一般性流程,可以加深學生對于數據挖掘的深入理解。對于一些需要記憶的知識點,在課堂上采用隨機問答的方式,必要的時候可以在每堂課的開始重復提問,提高學習的效果。
2.2進階課程的課后教學
對于由于時間限制無法在課上深入討論的知識點,只能依靠學生在課后自學掌握。本科高年級學生的課后自學的動力不像低年級學生那么充足,可以布置需要動手實踐并涵蓋相關知識點的課后實踐,但盡量降低作業的工程量。鼓勵學生利用開源軟件和框架,基于提供的數據集,實際解決一些簡單的數據挖掘任務,讓學生掌握相關算法技術的使用,并對算法有一定的了解。利用學院與大數據相關企業建立的合作關系,在課后通過參觀,了解大數據技術在當前企業實踐中是如何應用的,激發學生的學習興趣。
2.3進階課程的教學效果考察進階課程的考察不宜采取考試的形式,可以采用大作業的形式。從具體的數據挖掘實踐中檢驗教學的成果,力求是學生在上完本課程后可以解決一些簡單的數據挖掘任務,將較復雜的數據挖掘技術的學習留給學生自己。
3結語
數據挖掘是來源于實踐的科學,學習完本課程的學生需要真正理解,掌握相關的數據挖掘技術,并能夠在實際數據挖掘任務中應用相關算法解決問題。這也對教師的教學水平提出了挑戰,并直接與教師的科研水平相關。在具體的教學過程中,發現往往是在講授實際科研中遇到的問題時,學生的興趣較大,對于書本上的例子則反映一般。進階課程在注重教學方法的基礎上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學過程變成了教學相長的過程。
參考文獻:
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數據挖掘》課程教學方法探討[J].現代計算機,2014(13).[2]蔣盛益,李霞,鄭琪.研究性學習和研究性教學的實證研究———以數據挖掘課程為例[J].計算機教育,2014(24).[3]張曉芳,王芬,黃曉.國內外大數據課程體系與專業建設調查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網絡》課程特點、挑戰和解決方案[J].現代計算機,2016(35).[5]王永紅.計算機類專業剖析中課程分析探討[J].現代計算機,2011(04).
第三篇:高校管理中數據挖掘技術的研究論文
摘要:近年來,數據庫挖掘技術的普遍應用,使數據價值實現最大化,在我國金融、商業、市場營銷等領域得到廣泛應用。然而在我國高校管理中并沒有得到推廣,為使高校管理系統中的數據充分發揮應有價值,在該系統中使用數據庫挖掘技術意義深遠。本文首先介紹了數據挖掘技術的流程,然后在教師教學質量評估中應用數據庫挖掘技術,充分證明數據庫挖掘技術在高校管理中能發揮重大作用。
關鍵詞:管理;決策樹;數據挖掘技術
當前,大部分高校都擁有配套的管理系統,該系統具備海量數據儲存和管理功能,徹底告別了手工記錄信息和數據的年代。不但節約了紙張,更有效提高了高校管理數據和信息的效率。然而我國高校沒有有效利用應用數據挖掘技術,因此研究數據庫挖掘技術在高校管理中的應用十分必要。
1數據挖掘技術的流程
數據挖掘技術能夠將海量數據展開分析和處理,再把整體數據庫中存在規律的數據整合起來,實施該技術主要包括以下五個環節。目標定義:該環節中要與有關領域的背景知識相結合,清晰、精確的定義出數據挖掘目標。數據準備:在該環節中要搜集、選取數據源中的數據,處理已選數據,將其轉換為適合數據挖掘的形態。數據挖掘:該環節是數據挖掘技術的核心,即采用關聯規則法、分類分析法等各種數據挖掘方法把數據中隱藏的知識和規律發掘出來。結果表示:在該環節中可以以用戶需求為依據,將挖掘出來的知識和規律轉變為用戶能接受和理解的形態。知識吸收:該環節中,主要是把挖掘結果與指定領域中的需求相結合,在該領域中應用發掘出來的結果,為決策者提供知識,是數據挖掘的終極目標。
2數據挖掘技術在教學質量評估中的應用
2.1運用關聯規則法挖掘數據庫中的信息
評估老師教學質量不但是評定教學效果的重要部分,也是評定教師職稱的重要根據,因此是高校管理工作中不可或缺的部分。目前評估教學質量的主要措施是搜集、統計學生的成績和以及對老師的評價,然后加權算出老師的總得分,作為評估該老師教學質量指標。這種方法非但不科學,其權威性也較低,因此需要深挖數據的相關性,本文采用了數據挖掘技術中的關聯規法挖掘數據中的規律和知識,為評估老師教學質量提供有力根據。運用關聯規則法挖掘數據,其規則方法為“XY,置信度為c%,支持度為s%”。關聯規則中置信度為c%:在整體事件D集合中,如果既能夠符合事件X中擁有c%的需求,也能夠符合Y的要求。那么就用置信度來表示關聯規則的強度,被記錄為confidence(XY),置信度最小值用minConf來表示,通常置信度最小數值由客戶提供。關聯規則中置信度為s%:在整體事件D集合中,如果既能夠符合事件Y中的s%的需求,又能夠符合X要求。用支持度來表示關聯規則的頻度,把支持度的最小數記錄用minsup(X)來表示,通常支持度最小數值由客戶提供。頻繁項集合:當X項集的支持度大于等于用戶設定好的最小支持度時,那么頻繁項集是X。通常關聯規則包含兩個環節:①把全部頻繁項集從整體事件集中選出;②運用頻繁項集產生關聯規則。在這兩個環節中關聯規則效果和性能是否良好取決于第一個環節。
2.2關聯規則分析在評估教學質量中的運用
第一步是準備數據期,在某大學的教學管理系統中將五百條與教學評價有關的記錄從數據庫中隨機抽取,并挑選出老師編號、學歷、性別、教齡、評估分和職稱這六個屬性,并將相關數據從數據庫中提取。比如把講師、副教授和教授等職稱轉化成11、01、00等編碼,表1就是制定的評價教師教學記錄表。第二步采用關聯規則分析法把90分以上評價分數作為檢索目標和判斷標準,也就是將≥90分作為判斷是否是高教學質量闕值。通過檢索有143條記錄符合標準,即設定最小的支持度為10%,置信度則為15%,得出下表2的關聯規則。最后一步評價本次實驗的結果。由上表得知,學生喜歡男老師和女老師的程度大致相同;學歷愈高的老師,給予他們的教學評價也就愈高,即學歷和教學評價成正比,這也說明了學歷高的老師其基本功與學歷低的老師相比,前者基本功更為穩固,也有較高的科學研究水平;有較長教齡和較高職稱的老師,其教學質量也越高;此外,在支持度中可以看出,高校教授和高學歷人才越多,說明其辦學能力也就越高。
3結語
高校管理系統作為教學信息化的重要舉措,只是起到搜集和儲存海量教學信息的作用,并沒有挖掘出海量數據之間的相關性,而在本文中把關聯規則法運用在教師教學質量評估中,在數據中挖掘有價值的知識和規律,使評估教師教學質量更具有科學性,因此在高校管理中全面應用數據挖掘技術,能為高校深化教學改革提供新的契機。
參考文獻
[1]江敏,徐艷。數據挖掘技術在高校教學管理中的應用[J]。電腦知識與技術,2012,(24):541—545+560。
[2]楊雪霞。數據挖掘技術在高校圖書館管理系統中的應用研究[J]。軟件,2011(04):16—18。
第四篇:數據挖掘研究現狀
一、時代的挑戰
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。于是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘和知識發現(DMKD)技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
二、研究現狀
KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了7次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發現方法轉向系統應用,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當前計算機科學界的一大熱點。
此外,數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了 KDD專題或專刊。IEEE的Knowledge and Data Engineering 會刊領先在1993年出版了KD D技術???所發表的5篇論文代表了當時KDD研究的最新成果和動態,較全面地論述了KDD 系統方法論、發現結果的評價、KDD系統設計的邏輯方法,集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題,KDD系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業的具體應用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領導整個潮流的DMKD開發和研究中心,當數設在美國EMDEN的IBM公司開發部。至于DMKD書籍,可以在任何計算機書店找到十多本,但大多帶有商業色彩。
三、內容和本質
隨著DMKD研究逐步走向深入,人們越來越清楚地認識到,DMKD的研究主要有3個技術支柱,即數據庫、人工智能和數理統計。
數據庫技術在經過了80年代的輝煌之后,已經在各行各業成為一種數據庫文化或時尚,數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外,已經在開始反思。數據庫最實質的應用僅僅是查詢嗎?理論根基最深的關系數據庫最本質的技術進步點,就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸,發現才是數據庫的主人;數據只為職員服務,不為老板服務!這是很多單位的領導在熱心數據庫建設后發出的感嘆。
由于數據庫文化的迅速普及,用數據庫作為知識源具有堅實的基礎;另一方面,對于一個感興趣的特定領域——客觀世界,先用數據庫技術將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此,在需求的驅動下,很多數據庫學者轉向對數據倉庫和數據挖掘的研究,從對演繹數據庫的研究轉向對歸納數據庫的研究。
專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統 ,目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界,通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統時,知識工程師首先要從領域專家那里獲取知識,這一過程實質上是歸納過程,是非常復雜的個人到個人之間的交互過程,有很強的個性和隨機性。因此 ,知識獲取成為專家系統研究中公認的瓶頸問題。
其次,知識工程師在整理表達從領域專家那里獲得的知識時,用if-then等類的規則表達,約束性太大,用常規數理邏輯來表達社會現象和人的思維活動局限性太大,也太困難, 勉強抽象出來的規則有很強的工藝色彩,差異性極大,知識表示又成為一大難題。
此外,即使某個領域的知識通過一定手段獲取并表達了,但這樣做成的專家系統對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎的。人工智能學家 Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽象經驗法則,離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據“在某地發現一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統的應用,使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理,尤其是從事機器學習的科學家們,不再滿足自己構造的小樣本學習模式的象牙塔,開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本,也走上了數據挖掘的道路。
數理統計是應用數學中最重要、最活躍的學科之一,它在計算機發明之前就誕生了, 迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具,已成為信息咨詢業的基礎。信息時代,咨詢業更為發達。然而,數理統計和數據庫技術結合得并不算快,數據庫查詢語言SQL中的聚合函數功能極其簡單,就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求,概率論和數理統計就獲得了新的生命力,所以才會在DMKD這個結合點上,立即呈現出“忽如一夜春風來,千樹萬樹梨花開”的繁榮景象。一向以數理統計工具和可視化計算聞名的美國SA S公司,領先宣布進入DMKD行列。
數據挖掘所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異?,F象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發展方向
當前,DMKD研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解 ,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Int ernet上建立DMKD服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。但是,無論怎樣,需求牽引,市場驅動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產品將會問世
第五篇:大數據時代數據挖掘技術教學研究論文
摘要:隨著大數據時代的到來,在大數據觀念不斷提出的今天,加強數據大數據挖掘及時的應用已成為大勢所趨。那么在大數據教學過程中,我們必須掌握大數據與數據挖掘的內涵,并對數據挖掘技術進行分析,從而明確大數據時代下數據挖掘技術的應用領域,促進各項數據的處理,提高大數據處理能力。
關鍵詞:大數據時代;數據挖掘技術;應用
大數據是對全球的數據量較大的一個概括,且每年的數據增長速度較快。而數據挖掘,主要是從多種模糊而又隨機、大量而又復雜且不規則的數據中,獲得有用的信息知識,從數據庫中抽絲剝繭、轉換分析,從而掌握其潛在價值與規律。所以大數據時代下的數據處理技術要求更高,要想確保數據處理成效得到提升,就必須切實加強數據挖掘技術教學工作的開展,才能更好地促進數據處理職能的轉變,提高數據處理效率,優化學生的學習成效。以下就大數據時代下的數據挖掘技術教學做出如下分析。
1大數據時代下數據挖掘技術的基礎教學方法分析
數據挖掘的過程實際就是對數據進行分析和處理,所以其基礎就在于數據的分析方法。要想確保分析方法的科學性,就必須確保所采用算法的科學性和可靠性,獲取數據潛在規律,并采取多元化的分析方法促進問題的解決和優化。以下就幾種常見的數據分析教學方法做出簡要的說明。一是歸類法,主要是將沒有指向和不確定且抽象的數據信息予以集中,并對集中后的數據實施分類整理和編輯處理,從而確保所形成的數據源具有特征一致、表現相同的特點,從而為加強對其的研究提供便利。所以這一分析方法能有效的滿足各種數據信息處理。二是關聯法,由于不同數據間存在的關聯性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預先結合信息關聯的表現,對數據關聯管理方案進行制定,從而完成基于某種目的的前提下對信息進行處理,所以其主要是在一些信息處理要求高和任務較為復雜的信息處理工作之中。三是特征法,由于數據資源的應用范圍較廣,所以需要對其特征進行挖掘。也就是采用某一種技術,將具有相同特征的數據進行集中。例如采用人工神經網絡技術時,主要是對大批量復雜的數據分析,對非常復雜的模式進行抽取或者對其趨勢進行分析。而采取遺傳算法,則主要是對其他評估算法的適合度進行評估,并結合生物進化的原理,對信息數據的成長過程進行虛擬和假設,從而組建出半虛擬、半真實的信息資源。再如可視化技術則是為數據挖掘提供輔助,采取多種方式對數據的挖掘進行指導和表達[1]。
2大數據時代數據挖掘技術教學要點的分析
2.1數據挖掘技術流程分析
在數據挖掘教學過程中,其流程主要是以下幾點:首先做好數據準備工作,主要是在挖掘數據之前,就引導學生對目標數據進行準確的定位,在尋找和挖掘數據之前,必須知道所需數據類型,才能避免數據挖掘的盲目性。在數據準備時,應根據系統的提示進行操作,在數據庫中輸入檢索條件和目標,對數據信息資源進行分類和清理,以及編輯和預處理。其次是在數據挖掘過程中,由于目標數據信息已經被預處理,所以就需要在挖掘處理過程中將其高效正確的應用到管理機制之中,因而數據挖掘的過程十分重要,所以必須加強對其的處理。例如在數據挖掘中,引導學生結合數據挖掘目標要求,針對性的選取科學而又合適的計算和分析方法,對數據信息特征與應用價值等進行尋找和歸納。當然,也可以結合程序應用的需要,對數據區域進行固定,并在固定的數據區域內分類的挖掘數據,從而得到更具深度和內涵以及價值的數據信息資源,并就挖掘到的數據結果進行分析和解釋,從結果中將具有使用價值和意義的規律進行提取,并還原成便于理解的數據語言。最后是切實加強管理和計算等專業知識的應用,將數據挖掘技術實施中進行的總結和提取所獲得的數據信息與評估結果在現實之中應用,從而對某個思想、決策是否正確和科學進行判斷,最終體現出數據挖掘及時的應用價值,在激發學生學習興趣的同時促進教學成效的提升。
2.2挖掘后的數據信息資源分析
數據信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術環節下的數據挖掘技術隨著限定條件的變化,而將數據挖掘信息應用于技術管理和決策管理之中,從而更好地彰顯數據在經濟活動中的物質性質與價值變化趨勢,并結合數據變化特點和具體的表現規律,從而將數據信息的基本要素、質量特點、管理要求等展示出來,所以其表現的形式十分豐富。因而在數據挖掘之后的信息在職能范圍和表現形式方式均得到了豐富和拓展,而這也在一定程度上體現了網絡擬定目標服務具有較強的完整性,且屬于特殊的個體物品,同時也是對傳統數據挖掘技術的創新和發展,從而更好地滿足當前大數據時代對信息進行數據化的處理,并對不同種類業務進行整合和優化,從而促進數據挖掘技術服務的一體化水平。
2.3大數據背景下的數據挖掘技術的應用必須注重信息失真的控制
數據挖掘技術的信息主要是源于大數據和社會,所以在當前數據挖掘技術需求不斷加大的今天,為了更好地促進所挖掘數據信息的真實性,促進其個性化職能的發揮,必須在大數據背景下注重信息失真的控制,切實做好數據挖掘技術管理的各項工作。這就需要引導學生考慮如何確保數據挖掘技術在大數據背景下的職能得到有效的發揮,盡可能地促進數據挖掘技術信息資源的升級和轉型,以大數據背景為載體,促進整個業務和技術操作流程的一體化,從而更好地將所有數據資源的消耗和變化以及管理的科學性和有效性,這樣我們就能及時的找到資源的消耗源頭,從而更好地對數據資源的消耗效益進行評價,最終促進業務流程的優化,并結合大數據背景對數據挖掘技術的職能進行拓展,促進其外部信息與內部信息的合作,對數據挖掘技術信息的職能進行有效的控制,才能更好地促進信息失真的控制[2]。
3數據挖掘技術在不同行業中的應用實踐
學習的最終目的是為了更好的應用,隨著時代的發展,數據挖掘技術將在越來越多的行業中得以應用。這就需要高校教師引導學生結合實際需要強化對其的應用。例如在市場營銷行業中數據挖掘技術的應用這主要是因為數據挖掘能有效的解析消費者的消費行為和消費習慣,從而利用其將銷售方式改進和優化,最終促進產品銷量的提升。與此同時,通過對購物消費行為的分析,掌握客戶的忠誠度和消費意識等,從而針對性的改變營銷策略,同時還能找到更多潛在的客戶。再如在制造業中數據挖掘技術的應用,其目的就在于對產品質量進行檢驗。引導學生深入某企業實際,對所制造產品的數據進行研究,從而找出其存在的規則,并對其生產流程進行分析之后,對其生產的過程進行分析,從而更好地對生產質量的影響因素進行分析,并促進其效率的提升。換言之,主要就是對各種生產數據進行篩選,從而得出有用的數據和知識,再采取決策樹算法進行統計決策,并從中選取正確決策,從而更好地對產品在市場中的流行程度,決定生產和轉型的方向。再如在教育行業中數據挖掘技術的應用,主要是為了更好地對學習情況、教學評估和心里動向等數據進行分類和篩選,從而為學校的教學改革提供參考和支持。比如為了更好地對教學質量進行評估,就需要對教學質量有關項目進行整合與存儲,從而更好地促進其對教學質量的評估,而這一過程中,就需要采取數據挖掘技術對有關教學項目中的數據進行挖掘和處理,促進其應用成效的提升[3]。
4結語
綜上所述,在大數據背景下,數據挖掘技術已經在各行各業中得到了廣泛的應用,所以為了更好地滿足應用的需要,在實際教學工作中,我們必須引導學生切實加強對其特點的分析,并結合實際需要,切實注重數據挖掘技術的應用,才能促進其應用成效的提升,最終達到學以致用的目的。
參考文獻:
[1]李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014,03:45-47.[2]歐陽柏成.大數據時代的數據挖掘技術探究[J].電腦知識與技術,2015,15:3-4+9.[3]孔志文.大數據時代的數據挖掘技術與應用[J].電子技術與軟件工程,2015,23:195.