第一篇:云計算環境下的數據挖掘研究論文
摘要:文章首先對云計算的特點進行簡要分析, 在此基礎上對云計算環境下的數據挖掘進行研究。期望通過本文的論述能夠對數據挖掘效率的提高有所幫助。
關鍵詞:云計算;數據挖掘;服務;云計算的特點分析
1.1 超大規模
國內外大型互聯網企業紛紛建立起云平臺, 開啟一大批服務器, 如Google公司、亞馬遜公司、微軟公司等公司都建立了云平臺, 大幅度提升了網絡平臺數據運算效率、存儲效率和交互效率, 使云計算具備超大規模特點。
1.2 虛擬化
云平臺是向網絡平臺提供資源的平臺, 網絡用戶可借助云計算技術在任意位置獲取應用服務, 這種應用服務不是固定實體, 而是虛擬化的。在云平臺上, 需要運行虛擬化的搜索、儲存、上傳下載操作, 網絡用戶無需了解資源的獲取渠道, 只要通過終端設備就可以獲取網絡服務信息, 實現數據快速互傳。
1.3 可靠性高
云平臺可提高數據互傳、存儲的可靠性, 其采用計算節點同構可互傳、數據多副本容錯等措施增強服務的可靠性, 即使在數據傳輸或存儲丟失的情況下, 也可以找回渠道恢復數據, 與計算機自帶硬盤相比, 網絡云計算平臺的可靠性更高。
1.4 通用性強
云計算技術的針對性不強, 對其他設備沒有過高的要求, 只需在網絡平臺上建設平臺, 配備足夠的服務器, 就可以實現云計算技術的應用。在同一云平臺的支撐下, 可滿足不同設備的運行要求。
1.5 擴展性好
云平臺既可以滿足不同類型企業的需求, 也可以滿足個人用戶需求, 其本身帶有動態伸縮性。用戶可根據自身需求對空間、功能進行定制, 滿足個性化的應用要求, 使云平臺具備良好的擴展性。
1.6 按需服務
云平臺可提供充足的空間, 便于用戶在云平臺上存儲、調用、傳輸數據資源。為了避免用戶過度占用云平臺資源, 云平臺一般設置了計費標準, 要求用戶按需購入占用量, 促使云平臺成為可交易的資源。云計算環境下的數據挖掘
2.1 數據挖掘服務層次結構
2.1.1 基礎設施層
該層主要為整個數據挖掘服務提供存儲和計算資源, 在基礎設施層運行中, 通過接口可連接網絡資源與物理資源, 實現不同類型資源的高度共享。該層還提供數據挖掘服務的虛擬化接口, 滿足資源對接要求, 為資源存儲、共享提供技術支撐。
2.1.2 虛擬化層
在云計算技術上建立數據挖掘服務模式, 利用虛擬化層快速處理大量資源。在結構體系中, 虛擬化層根據云計算技術虛擬化匯聚分布式資源, 在封裝處理虛擬資源的基礎上, 分類和管理不同資源, 從而提高挖掘服務執行效率。在對資源進行封裝后, 通過開發和利用平臺層實現資源共享。虛擬化技術是資源封裝的重要技術, 既可以提高資源運行效率, 也可以實現對資源的合理調動, 提高服務模式的便捷性。
2.1.3平臺層
在數據挖掘服務模式中,平臺層作為數據核心服務部分, 負責管理不同數據及其功能, 實現不同服務目錄的高效管理。用戶可根據服務內容和使用需求組合不同服務目錄, 發揮數據功能性管理作用。在平臺層中, 可有效調度計算資源, 提高計算資源的運行效率, 這使得平臺層在數據挖掘服務中占據著不可替代的地位。
2.1.4 應用層
該層由終端層和接口層組成, 其中接口層為用戶提供服務等級, 滿足各種服務請求, 終端層將服務請求顯示出來, 并且可根據請求的服務內容作出評價。在終端層的內容訪問中, 根據用戶訪問請求、訪問內容對訪問接入作出不同選擇, 再結合用戶訪問情況, 借助終端設備實現數據挖掘服務。
2.2 體系的建模流程
2.2.1 對服務進行自定義
在數據挖掘服務運行時, 可通過自定義完成相關數據的搜集, 從而快速找到與之相關的資源。由此可以使數據挖掘人員開展工作時, 對候選加以充分利用, 進而形成服務目錄, 為用戶使用提供方便。
2.2.2 組件構建
在對數據挖掘服務組件進行構建時, 應當確保調用服務接口的統一性, 同時在構建其它服務組件時, 需要綁定服務和數據, 從而構建起數量更多的組件, 為用戶提供所需的數據挖掘服務模式。
2.3 數據挖掘體系的服務過程
2.3.1 分析階段
該階段主要負責分析數據挖掘內容, 確定需要挖掘的數據, 根據對應的數據服務內容設置相應的服務模式, 并對服務模式作出定義。為保證數據挖掘與實際需求相符, 在數據挖掘時需先進行數據分析, 深入到外部環境中調查市場發展趨勢和市場需求情況, 以市場為導向開發大數據挖掘模式, 使云計算下的數據挖掘服務更具備高效性、實用性和針對性。
2.3.2 設計階段
該階段要根據前期市場調查情況對數據挖掘服務方案進行設計, 最終確定符合用戶使用習慣的數據處理模式。數據挖掘服務模式設計不僅關系到用戶體驗的滿意程度, 而且還影響著數據挖掘服務運行效率。在某些特定的情況下, 甚至可能對供應商與消費者帶來利益沖突, 阻礙數據挖掘服務在信息化環境中的有效應用, 為了解決上述問題, 必須以市場調查為前提開展數據挖掘服務模式設計, 避免不必要的矛盾。
2.3.3 開發階段
在該階段, 一套相對完整的數據挖掘服務體系會隨著設計得以呈現, 各種服務內容與方法在該階段中得到合理應用。體系開發時, 應對各項功能進行定義, 并將所有的功能整合到一起, 以此來實現多種不同的服務目標, 確保數據挖掘服務模式的高效運行。對體系進行開發的過程中, 可基于服務接口的實現, 對相關的功能進行有效地協調, 從而使開發出來的功能更符合用戶的使用需要, 由此可使數據挖掘服務的價值得以充分體現, 有利于推動數據挖掘服務市場的持續、穩定發展。結論
綜上所述, 云計算以其自身所具備的諸多特點, 在諸多領域中得到越來越廣泛的應用。本文在簡要闡述云計算特點的基礎上, 對云計算環境下的數據挖掘進行分析研究, 提出數據挖掘服務模式的構建方法, 以期能夠對數據挖掘效率的進一步提升有所幫助。
參考文獻
[1]孫亮.數據挖掘服務模式應用云計算的優化策略探究[J].黑河學院學報, 2018(01):23-25.[2]王勃, 徐靜.基于云計算的Web數據挖掘Hadoop仿真平臺研究[J].電子設計工程, 2018(01):43-44.[3]包科, 蔡明.高速接入網云計算平臺的大數據挖掘算法研究[J].機床與液壓, 2017(12):143-144.[4]馮麗慧.云計算和挖掘服務融合下的大數據挖掘體系架構設計及應用[J].電腦編程技巧與維護, 2017(12):132-133.
第二篇:云計算和大數據下在線教育研究
云計算和大數據環境下的在線教育研究
1.引言
當前云計算和大數據技術的出現,面對在線教育交互中產生的大量復雜數據,可以實現識別、分析、挖掘并組織隱含在學習者交互過程中的結構化、非結構化數據信息,開發交互過程數據的價值,發現其隱性訴求并預測學習支持服務趨勢,并以其為導向改進和拓寬在線教育服務,達到在線教育服務與學習者需求的雙向平衡。本文就是立足于對在線教育的交互瓶頸和需求分析,構建基于大數據和云計算支持的在線教育交互平臺模型。重點研究交互平臺功能實現,使在線的學習者和教師可以實現完美的在線交互活動,并且對交互的數據進行深入挖掘分析,解決目前在線教育所面臨的弊端。
2.在線教育交互平臺現狀分析
在線教育交互分為個別化交互和社會性交互,前者是學習者和學習資料之問的交互,后者是學習者和教師或者學習者之問的交互,社會性交互是提高在線教育交互水平的關鍵因素。隨著在線教育的交互信息資源增加,在線學習者和在線教師的需求不斷發展和提高,在線教育出現了許多問題。
針對服務應用。目前在線教育的交互平臺缺乏統一身份認證體系,需要進行身份重復驗證,給用戶造成不便同時給系統增加安全隱患;缺乏統一的應用展現,用戶信息分散在各個應用中,且服務功能重復,堆砌浪費;使用方法、界面和質量不統一,給平臺使用和維護管理造成不便。在線學習時間的碎片化趨勢對學習者的終端設備要求很高,造成學習質量下降;缺乏跨終端的資源共享系統,影響學習效率和滿意度,改變終端學習,增加數據丟失、病毒入侵等安全問題。
針對信息資源的存儲和分析挖掘。隨著在線學習者和在線教師的服務需求日益個性化和專業化,對于服務質量也越來越看重,在線教育交互平臺必須根據在線學習者和在線教師的需求作出相應的策略改變,以適應服務需求的不斷改變和提高。由于在線教育是基于互聯網的學習方式,學生和學習資源、教師與學生、學生與學生之間的交流是通過網絡全方位進行,所以需要通過對學習交流的分析挖掘出在線學習者和教師的需求。在線教育的信息資源總量日益增大,主要的數據資源包括結構化和非結構化信息,以及在線教育平臺內部以異構化數據為主的相關信息,且每天以大量的非結構化數據和異構性數據資源為主。但是目前對于這些異構性數據和非結構化數據的記錄、存儲和統計技術,完全不能滿足在線教育交互平臺的數據需求。因此對平臺產生的結構化、非結構化、異構性大量數據進行分析和深度挖掘潛在價值成為必然,為在線學習者和教師反饋快速、及時、高效、安全的信息分析結果。3.在線教育交互平臺應用云計算和大數據
3.1 云計算和大數據與在線教育交互平臺
云計算是通過互聯網絡龐大的計算處理能力,將待處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算和分析,最后將處理結果回傳給用戶。大數據技術是數據分析的前沿技術,需要從各種各樣類型的數據中,快速獲得有價值信息的能力,是需要新處理模式才能實現更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。云計算強調的是動態計算能力,大數據注重的是靜態的計算對象。云計算彌補了目前大數據的存儲和運行的最大問題,就是提供了運算平臺,而大數據則運用分布式處理手段應用于這個平臺之上,兩者是相輔相成的關系。
云計算與大數據結合應用,前者強調計算能力,后者看重存儲能力。大數據需要處理大量復雜數據的能力,包括數據獲取、整理、轉換、統計,即強大的計算能力,而云計算需要大量數據作為運算的基礎,所以兩者的結合是必然趨勢。實際應用中,云計算的出現和興起促進了大數據的廣泛應用,而大數據和云計算的結合應用更是出現在許多領域,現已擴展到公共問題領域。但是目前還沒有進入在線教育行業。
借助云計算的優勢,在線教育交互平臺上的用戶無需考慮在線學習時終端設備的運算、存儲和負載能力的問題,可以更好的實現教育資源共享和教育網絡協同工作,大幅度提高教育資源的利用率和運行效率。云存儲屏蔽了數據丟失、病毒入侵等問題,保障了數據安全和用戶信息私密,是在線教育交互平臺最安全可靠的數據存儲中心。用戶使用終端設備訪問教育資源進行在線學習和交流,都會產生并積累大量結構化和非結構化數據,不僅體量大而且增長速度很快。其中非結構化數據已占數據總量的八成以上,但目前的數據分析處理算法和軟件不能達到對非結構化數據的處理要求。大數據技術的應用卻可以高速實時處理在線教育平臺產生的復雜海量數據,為在線教育平臺實時洞察學習者的變化、把握學習者的需求、提高教育質量提供支持。對在線教育平臺上大量的不相關信息,進行深度復雜分析,為未來教育需求趨勢提供預測分析,這是應用大數據的在線教育與傳統在線教育本質的不同。
3.2 基于云計算和大數據的在線教育交互平臺應用模型分析
根據上述分析,隨著在線教育日益同質化,在線教育機構需要在保障教育資源豐富和高質量的同時,更好的分析在線學習者和教師的偏好,為平臺的每個用戶提供有針對性的個性化服務。下面將利用云計算和大數據的優勢構建符合學習者和教師需求的高質量在線教育交互平臺模型,如圖1所示。
應用云計算和大數據技術的在線教育交互平臺主要分為用戶應用服務層、數據資源處理層、基礎設施硬件層三部分,依次分析三部分功能實現。
3.2.1用戶服務應用層
在線教育交互平臺的用戶主要為兩類,即在線教師和在線學習者。針對不同的用戶,訪問的授權和界面不同,盡可能為用戶提供個性化的精準服務,主要表現為屬于用戶自己的展現網頁。服務應用內容主要分為四類,包括在線教學內容、教學管理、交流互動和學習管理,如圖2所示。
服務應用層是資源對外交互的窗口,是用戶使用資源的橋梁,與用戶體驗的便捷性有很大關系。因此應用服務層是根據用戶需求,對信息資源請求重構和提供,實現信息資源的服務分類,用戶享受個性化的服務資源。
平臺對每個用戶展現的內容是不相同的。針對教師,平臺實時反饋在線學習者的情況和分析結果,尤其是對學習者的學習風格和偏好的分析,實時跟蹤學生在課前、課中和課后的情況,完成課程反饋,對學生在平臺上的行為、學習記錄智能跟蹤記錄分析。針對學習者,構成學習、答疑、測評、互動四位一體的學習模式,運用豐富的學習資源,根據后臺的數據挖掘。提供學習進度安排和個性化的學習方案。實現以學生為中心的在線教育方式。實現自主個性化學習、個性化即時筆記、針對性課程復習和測評,多方式在線交互的方式。
在線教育交互平臺的用戶看到的是良好的服務交互界面,無需知道后臺數據資源整合過程,完全由平臺的數據資源處理層完成,所以擁有更好的用戶體驗。平臺是所有教學資源的集散地,整合資源方便統一管理和使用,同一份資源,只需保存一份,通過資源關聯,可以在任意系統中快速調用。同時避免數據庫急劇增長,極大地減輕網絡負荷,減少用戶和平臺的工作時間,維持資源唯一性,資源發生更改時所有使用該資源的應用均自動更新。
3.2.2數據資源處理層
中問層是數據資源處理層,主要為三部分。第一部分是對數據進行標準化處理,第二部分是進行數據挖掘分析整合。第三部分是數據庫。中問層的核心是第二部分,也是在線教育交互平臺的核心。如圖3所示。
面對迅速增加的復雜數據,在線教育交互平臺利用云計算和大數據進行現代數據管理,支持所有數據類型,如文件、圖片、視頻、博客、點擊流和地理空問數據等,并以“云存儲”持久存儲于數據中心,保持數據實時更新,實現數據共享、分析、發現、整合和優化數據,提升數據價值。
利用負載平衡優勢,有效透明地擴展網絡設備和服務器的帶寬、增加在線教育交互平臺的吞葉量、加強平臺網絡數據處理能力、提高服務的靈活性和可用性。面對用戶大量的并發訪問或數據流量,可以分擔到多臺設備上處理,減少教師和學習者的等待響應的時間;同時做并行處理,處理結果匯總返回到在線交互平臺,平臺系統處理能力得到大幅度提高。
離線數據是用戶訪問的各種數據庫中的信息資源,是從服務器端、客戶端、代理服務器端中采集的用戶訪問信息和行為信息。利用大數據技術進行數據處理,清除不需要的數據,用聚類、分類等算法對處理之后的數據進行模式分析,成立樣本數據資源為數據流挖掘分析作準備。在線數據是由于數據流的動態性和流量大的特點,在實現數據流挖掘時,對流入的數據流,利用云計算做到占用內存少,處理速度快,實現關聯規則、分類和聚類的挖掘。
整合數據是將離線數據作為樣本庫的參考,對在線數據進行分析,及時有效的反饋結果,并且隨著時間的推移和用戶對信息資源的需求改變,及時更新資源分析結果。通過數據挖掘過程,對數據過濾、分析和整合,建立多資源分類結果,按照用戶的不同需求進行決策,形成索引為用戶訪問和使用服務提供便利。整合數據主要是為整合用戶做準備,將用戶的信息資源進行相似度分析,對于類似的用戶歸類,進行同類信息資源的分配。根據在線學習者的基本信息、學習風格、學習滿意度和學習感知四維度的服務需求,可實現用戶的定制服務、個性化服務、精準服務,便于用戶方便提取自己需要的資源。最后將用戶需要的資源根據授權不同。做統一標準化處理。上傳至服務應用層,展現于用戶的界面。
4.基于云計算和大數據的在線教育交互平臺應用優勢
云計算和大數據結合對在線教育的發展具有巨大的促進作用,不僅是針對提供的服務,更是對教育發展的促進,增強在線教育的核心競爭力,保持在線教育的健康發展。4.1實現針對不同用戶的個性化精準服務
在從以資源為核心的在線教育平臺建設到以用戶為核心的個性化在線教育平臺建設過程中,最主要的變化的就是針對不同用戶提供不同的個性化服務。而云計算和大數據的應用就在于加強對在線教育的平臺用戶研究與交互數據的分析利用。并基于分析結果。改善服務內容,提升個性化服務的質量,完成平臺對用戶的跟蹤服務、精準服務、知識關聯服務和宣傳推廣服務。面對平臺快速增長的數據,從中提取有價值的信息,實時分析反饋,建立不同類別的用戶模型,達到針對不同用戶提供針對性服務、增強用戶體驗、提高服務質量的目標。即使分析的數據源相同,但是由于提供對象不同,分析結果會不同,提供的服務也不同,做到精準服務。即使是同類用戶,針對不同的個體,分析數據源不同,結果不同,提供的服務也不盡相同,做到個性化服務。
4.2提供教育發展動向以及熱點的變化
通過大數據和云計算技術,改變了被動更新教學資源的情況,變成根據在線學習者的需求主動更新資源,提升了在線教育平臺的作用。不僅為在線學習者提供了需要的學習資源,也為在線教師提供更有質量的教學資源和研究依據。在線教育交互平臺通過對用戶數據的收集、整理、分析、深度挖掘和匯總,在宏觀上分析相關教育領域的發展動向和熱點變化,更快地洞察最新的學習者興趣走向,以及相關領域的內容進展,更新在線平臺的學習資源,并且保證學習內容的實時性和前沿性。同時通過匯總結果有效評估在線學習者對各種教學資源的使用情況,并且根據熱點分析和目前已有教學資源交叉對比,可以有效評估教學資源的質量,利于在線教育交互平臺持久發展。4.3提供無限量的數據存儲能力和更可靠的數據安全性
隨著在線教育交互的發展,信息數據量迅猛增長,產生出大量的半結構化、非結構化信息數據,對存儲的要求愈加嚴格。云計算的出現使得海量數據的存儲與運算得到了解決,分布式存儲的方式可以持續收集大量數據,不會造成存儲空問的不足。在線教育交互平臺應用“云存儲”方式,保證存儲數據的可靠性,并能夠實時更新,有效解決海量數據資源的查詢、管理等問題。云計算使用數據多副本容錯、設備同構可互換等手段來保障平臺的數據存儲安全。數據存儲到“云”中,不會受到計算機病毒或硬盤損壞造成的數據丟失。同時解放了用戶對終端設備能力的要求。4.4提高在線教育交互平臺管理能力
應用云計算和大數據的在線教育交互平臺,能夠面向具體應用的數據需求,做到快速、及時和有效地響應。根據需求的變化和增長,平臺具有很好的性能擴展空問和擴容時穩定和可靠的支持,高效處理多種類型數據。在線教育機構以此平臺為基礎利用云計算技術和大數據的優勢,充分挖掘自身數據價值,實現數據資產從成本中心到利潤中心的轉變。通過整合數據資產,對數據資產進行標準化,形成靈活可擴展、易于更新、可管控的、可隔離、綠色環保的高效分析型數據管理交互平臺,實現支持標準開發、用戶自服務、多元化開發多種應用支持模式,形成松禍合、可異構的基礎數據和應用數據兩級數據管理層次。同時,在線教育機構可以駕馭自身數據資產,全面提升平臺的數據信息管理能力,盡力獲取對在線學習者和在線教師的洞察,以數據驅動在線教育的發展。
5.結論
對于在線教育交互這個重要研究領域而言,云計算和大數據技術的出現不僅影響著在線教育交互的形態,也為交互信息分析提供了新的思路和手段。一方面,新的技術使交互行為不斷向著實時化和碎片化的方向發展,使交互過程日益復雜;另一方面,新的技術又使獲得大量交互數據、特別是行為數據成為了可能,從而有更多了解在線學習過程和進行教學決策的依據。在線教育交互作為信息服務,盡管在線教育交互平臺有資源的優勢,但在技術等方面的劣勢也限制了其本身的發展。本文構建基于大數據和云計算支持的在線教育交互平臺模型,分析平臺的功能實現,使在線的學習者和教師可以實現完美的在線交互活動,總結出利用云計算和大數據的在線教育交互平臺的特點優勢。因此,在線教育交互平臺的快速發展需要利用云計算和大數據創新提升在線教育交互的核心競爭力。
第三篇:數據挖掘教學方法研究論文
摘要:在本科高年級學生中開設符合學術研究和工業應用熱點的進階課程是十分必要的。以數據挖掘課程為例,本科高年級學生了解并掌握數據挖掘的相關技術,對于其今后的工作、學習不無裨益。著重闡述數據挖掘等進階課程在本科高年級學生中的教學方法,基于本科高年級學生的實際情況,以及進階課程的知識體系特點,提出有針對性的教學方法參考,從而提高進階課程的教學效果。
關鍵詞:數據挖掘;進階課程;教學方法研究;本科高年級
學生在本科高年級學生中開設數據挖掘等進階課程是十分必要的,以大數據、數據挖掘為例,其相關技術不僅是當前學術界的研究熱點,也是各家企事業單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學位的學生,對于即將走上工作崗位的學生,了解并掌握一些大數據相關技術,尤其是數據挖掘技術,都是不無裨益的。在目前本科教學中,對于數據挖掘等課程的教學,由于前序課程的要求,往往是放在本科四年級進行。如何激發本科四年級學生在考研,找工作等繁雜事務中的學習興趣,從而更好地掌握數據挖掘的相關技術是本課程面臨的主要挑戰,也是所有本科進階課程所面臨的難題之一。
1數據挖掘等進階課程所面臨的問題
1.1進階課程知識體系的綜合性
進階課程由于其理論與技術的先進性,往往是學術研究的前沿,工業應用的熱點,是綜合多方面知識的課程。以數據挖掘課程為例,其中包括數據庫、機器學習、模式識別、統計、可視化、高性能技術,算法等多方面的知識內容。雖然學生在前期的本科學習中已經掌握了部分相關內容,如數據庫、統計、算法等,但對于其他內容如機器學習、人工智能、模式識別、可視化等,有的是與數據挖掘課程同時開設的進階課程,有的已經是研究生的教學內容。對于進階課程繁雜的知識體系,應該如何把握廣度和深度的關系尤為重要。
1.2進階課程的教學的目的要求
進階課程的知識體系的綜合性體現在知識點過多、技術特征復雜。從教學效益的角度出發,進階課程的教學目的是在有限的課時內最大化學生的知識收獲。從教學結果的可測度出發,進階課程的教學需要能夠有效驗證學生掌握重點知識的學習成果。1.3本科高年級學生的實際情況本科高年級學生需要處理考研復習,找工作等繁雜事務,往往對于剩余本科階段的學習不重視,存在得過且過的心態。進階課程往往是專業選修課程,部分學分已經修滿的學生往往放棄這部分課程的學習,一來沒有時間,二來怕拖累學分。
2數據挖掘等進階課程的具體教學方法
進階課程的教學理念是在有限的課時內,盡可能地提高課程的廣度,增加介紹性內容,在授課中著重講解1~2個關鍵技術,如在數據挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復雜度一般,應用廣泛的重要知識點,并利用實踐來檢驗學習成果。
2.1進階課程的課堂教學
數據挖掘等進階課程所涉及的知識點眾多,在課堂上則采用演示和講授相結合的方法,對大部分知識點做廣度介紹,而對需要重點掌握知識點具體講授,結合實踐案例及板書。在介紹工業實踐案例的過程中,對于具體數據挖掘任務的來龍去脈解釋清楚,尤其是對于問題的歸納,數據的處理,算法的選擇等步驟,并在不同的知識點的教學中重復介紹和總結數據挖掘的一般性流程,可以加深學生對于數據挖掘的深入理解。對于一些需要記憶的知識點,在課堂上采用隨機問答的方式,必要的時候可以在每堂課的開始重復提問,提高學習的效果。
2.2進階課程的課后教學
對于由于時間限制無法在課上深入討論的知識點,只能依靠學生在課后自學掌握。本科高年級學生的課后自學的動力不像低年級學生那么充足,可以布置需要動手實踐并涵蓋相關知識點的課后實踐,但盡量降低作業的工程量。鼓勵學生利用開源軟件和框架,基于提供的數據集,實際解決一些簡單的數據挖掘任務,讓學生掌握相關算法技術的使用,并對算法有一定的了解。利用學院與大數據相關企業建立的合作關系,在課后通過參觀,了解大數據技術在當前企業實踐中是如何應用的,激發學生的學習興趣。
2.3進階課程的教學效果考察進階課程的考察不宜采取考試的形式,可以采用大作業的形式。從具體的數據挖掘實踐中檢驗教學的成果,力求是學生在上完本課程后可以解決一些簡單的數據挖掘任務,將較復雜的數據挖掘技術的學習留給學生自己。
3結語
數據挖掘是來源于實踐的科學,學習完本課程的學生需要真正理解,掌握相關的數據挖掘技術,并能夠在實際數據挖掘任務中應用相關算法解決問題。這也對教師的教學水平提出了挑戰,并直接與教師的科研水平相關。在具體的教學過程中,發現往往是在講授實際科研中遇到的問題時,學生的興趣較大,對于書本上的例子則反映一般。進階課程在注重教學方法的基礎上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學過程變成了教學相長的過程。
參考文獻:
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數據挖掘》課程教學方法探討[J].現代計算機,2014(13).[2]蔣盛益,李霞,鄭琪.研究性學習和研究性教學的實證研究———以數據挖掘課程為例[J].計算機教育,2014(24).[3]張曉芳,王芬,黃曉.國內外大數據課程體系與專業建設調查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網絡》課程特點、挑戰和解決方案[J].現代計算機,2016(35).[5]王永紅.計算機類專業剖析中課程分析探討[J].現代計算機,2011(04).
第四篇:大數據與云計算論文
大數據與云計算
摘 要:大數據(Big Data)這個概念近年來在越來越多的場合、被越來越多的人提及,并且經常和云計算聯系在一起,云計算與大數據之間到底是什么關系成為熱點話題。本
專題報告包含以下四個方面內容:1.大數據的價值;2.大數據帶來的挑戰;3.大數據研究成果;4.云計算是大數據挖掘的主流方式。通過本報告闡述我們對大數據的理解,以及對大數據的價值的認識,探討大數據處理與挖掘技術,大數據主要著眼于“數據”,提供數據采集、挖掘、分析的技術和方法;云計算技術主要關注“計算”,提供IT 解決方案。大數據、云計算技術可以促進持續審計方式的發展、總體審計模式的應用、審計成果的綜合應用、相關關系證據的應用、高效數據審計的發展和大數據審計師的發展。強化大數據、云計算技術審計應用的措施包括制定長遠發展戰略、加快審計法規建設、建立行業平臺、加強研發和提高利用能力。關鍵詞:大數據 云計算 數據挖掘 對審計影響 政策建議 引言
目前,大數據伴隨著云計算技術的發展,正在對全球經濟社會生活產生巨大的影響。大數據、云計算技術給現代審計提供了新的技術和方法,要求審計組織和審計人員把握大數據、云計算技術的內容與特征,促進現代審計技術和方法的進一步發展。
一、大數據、云計算的涵義與特征
隨著云計算技術的出現,大數據吸引了全世界越來越多的關注。哈佛大學社會學教授加里·金(2012)說: “這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”(一)大數據的涵義與特征
“數據”(data)這個詞在拉丁文里是“已知”的意思,也可以理解為“事實”。2009 年,“大數據”概念才逐漸開始在社會上傳播。而“大數據”概念真正變得火爆,卻是因為美國奧巴馬政府在2012 年高調宣布了其“大數據研究和開發計劃”。這標志著“大數據”時代真正開始進入社會經濟生活中來了。“大數據”(big data),或稱巨量資料,指的是所涉及的數據量規模大到無法利用現行主流軟件工具,在一定的時間內實現收集、分析、處理或轉化成為幫助決策者決策的可用信息。互聯網數據中心(IDC)認為“大數據”是為了更經濟、更有效地從高頻率、大容量、不同結構和類型的數據中獲取價值而設計的新一代架構和技術,用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。大數據具有4 個特點: 第一,數據體量巨大(Volume),從TB 級別躍升到PB 級別。第二,處理速度快(Velocity),這與傳統的數據挖掘技術有著本質的不同。第三,數據種類多(Variety),有圖片、地理位置信息、視頻、網絡日志等多種形式。第四,價值密度低,商業價值高(Value)。存在單一數據的價值并不大,但將相關數據聚集在一起,就會有很高的商業價值(金良,2012)。大數據時代,不僅改變了傳統的數據采集、處理和應用技術與方法,還促使人們思維方式的改變。大數據的精髓在于促使人們在采集、處理和使用數據時思維的轉變,這些轉變將改變人們理解和研究社會經濟現象的技術和方法。
(1)是在大數據時代,不依賴抽樣分析,而可以采集和處理事物整體的全部數據。19 世紀以來,當面臨大的樣本量時,人們都主要依靠抽樣來分析總體。但是,抽樣技術是在數據缺乏和取得數據受限制的條件下不得不采用的一種方法,這其實是一種人為的限制。過去,因為記錄、儲存和分析數據的工具不夠科學,只能收集少量數據進行分析。如今,科學技術條件已經有了很大的提高,雖然人類可以處理的數據依然是有限的,但是可以處理的數據量已經大量增加,而且未來會越來越多。隨著大數據分析取代抽樣分析,社會科學不再單純依賴于抽樣調查和分析實證數據,現在可以收集過去無法收集到的數據,更重要的是,現在可以不再依賴抽樣分析。
(2)是在大數據時代,不再熱衷于追求數據的精確度,而是追求利用數據的效率。當測量事物的能力受限制時,關注的是獲取最精確的結果。但是,在大數據時代,追求精確度已經既無必要又不可行,甚至變得不受歡迎。大數據紛繁多樣,優劣摻雜,精準度已不再是分析事物總體的主要手段。擁有了大數據,不再需要對一個事物的現象深究,只要掌握事物的大致發展趨勢即可,更重要的是追求數據的及時性和使用效率。與依賴于小數據和精確性的時代相比較,大數據更注重數據的完整性和混雜性,幫助人們進一步認識事物的全貌和真相。
(3)是在大數據時代,人們難以尋求事物直接的因果關系,而是深入認識和利用事物的相關關系。長期以來,尋找因果關系是人類發展過程中形成的傳統習慣。尋求因果關系即使很困難且用途不大,但人們無法擺脫認識的傳統思維。在大數據時代,人們不必將主要精力放在事物之間因果關系的分析上,而是將主要精力放在尋找事物之間的相關關系上。事物之間的相關關系可能不會準確地告知事物發生的內在原因,但是它會提醒人們事情之間的相互聯系。人們可以通過找到一個事物的良好相關關系,幫助其捕捉到事物的現在和預測未來。(二)云計算的涵義與特征
“云計算”概念產生于谷歌和IBM 等大型互聯網公司處理海量數據的實踐。2006 年8 月9 日,Google首席執行官埃里克·施密特(Eric Schmidt)在搜索引擎大會首次提出“云計算”的概念。2007 年10 月,Google 與IBM 開始在美國大學校園推廣云計算技術的計劃,這項計劃希望能降低分布式計算技術在學術研究方面的成本,并為這些大學提供相關的軟硬件設備及技術支持(Michael Mille,2009)。目前全世界關于“云計算”的定義有很多。“云計算”是基于互聯網的相關服務的增加、使用和交付模式,是通過互聯網來提供動態易擴展且經常是虛擬化的資源。美國國家標準技術研究院(NIST)2009年關于云計算的定義是: “云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務等),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。”根據這一定義,云計算的特征主要表現為: 首先,云計算是一種計算模式,具有時間和網絡存儲的功能。其次,云計算是一條接入路徑,通過廣泛接入網絡以獲取計算能力,通過標準機制進行訪問。第三,云計算是一個資源池,云計算服務提供商的計算資源,通過多租戶模式為不同用戶提供服務,并根據用戶的需求動態提供不同的物理的或虛擬的資源。第四,云計算是一系列伸縮技術,在信息化和互聯網環境下的計算規模可以快速擴大或縮小,計算能力可以快速、彈性獲得。第五,云計算是一項可計量的服務,云計算資源的使用情況可以通過云計算系統檢測、控制、計量,以自動控制和優化資源使用。(三)大數據與云計算的關系
從整體上看,大數據與云計算是相輔相成的。大數據主要專注實際業務,著眼于“數據”,提供數據采集、挖掘、分析的技術和方法,強調的是數據存儲能力。云計算主要關注“計算”,關注IT 架構,提供IT 解決方案,強調的是計算能力,即數據處理能力。如果沒有大數據的數據存儲,那么云計算的計算能力再強大,也難以找到用武之地;如果沒有云計算的數據處理能力,則大數據的數據存儲再豐富,也終究難以用于實踐中去。
從技術上看,大數據依賴于云計算。海量數據存儲技術、海量數據管理技術、MapReduce 編程模型都是云計算的關鍵技術,也都是大數據的技術基礎。而數據之所以會變“大”,最重要的便是云計算提供的技術平臺。數據被放到“云”上之后,打破了過去那種各自分割的數據存儲,更容易被收集和獲得,大數據才能呈現在人們眼前。而巨量的數據也只能依靠云計算強大的數據處理能力,才能夠“淘盡黃沙始得金”。
從側重點看,大數據與云計算的側重點不同。大數據的側重點是各種數據,廣泛、深入挖掘巨量數據,發現數據中的價值,迫使企業從“業務驅動”轉變為“數據驅動”。而云計算主要通過互聯網廣泛獲取、擴展和管理計算及存儲資源和能力,其側重點是IT 資源、處理能力和各種應用,以幫助企業節省IT部署成本。云計算使企業的IT 部門受益,而大數據使企業的業務管理部門受益。
從結果看,大數據與云計算帶來不同的變化。大數據對社會經濟帶來的變化是巨大的,涉及到各個領域。大數據已經與資本、人力一起作為生產的主要因素影響著社會經濟的發展。數據創造價值,而挖掘數據價值、利用數據的“推動力”就是云計算。云計算將信息存儲、分享和挖掘能力極大提高,更經濟、高效地將巨量、高速、多變的終端數據存儲下來,并隨時進行計算與分析。通過云計算對大數據進行分析、總結與預測,會使得決策更可靠,釋放出更多大數據的內在價值。
二、大數據、云計算技術對審計的影響分析
審計技術和方法的發展是隨著科學和管理技術的發展而發展的。現代審計技術和方法體系是在原始的查賬基礎上從低級向高級、從不完備到比較完備發展起來的。在業務和會計處理手工操作階段,審計實施的是賬表導向的審計技術和方法;當內部控制理論和方法全面應用于業務和會計處理時,審計實施的是系統導向的審計技術和方法;當風險管理理論和方法全面應用于業務和財務管理時,審計實施的是風險導向審計技術和方法;與風險導向審計技術和方法并行的是,計算機技術廣泛應用于業務和會計處理時,審計實施的是IT 審計技術和方法。目前,面對大數據、云計算技術的產生和發展,審計人員需要應時而變來適應由此而帶來的變化,分析大數據、云計算技術對審計方式、審計抽樣技術、審計報告模式、審計證據搜集等技術和方法的影響。(一)大數據、云計算技術促進持續審計方式的發展
傳統審計中,審計人員只是在被審計單位業務完成后才進行審計,而且審計過程中并不是審計所有的數據和信息,只是抽取其中有的一部分進行審計。這種事后和有限的審計對被審計單位復雜的生產經營和管理系統來說很難及時做出正確的評價,而且對于評價日益頻繁和復雜的經營管理活動的真實性和合法性則顯得過于遲緩。隨著信息技術迅速發展,越來越多的審計組織對被審計單位開始實施持續審計方式,以解決審計結果與經濟活動的時差問題。但是,審計人員實施持續審計時,往往受目前業務條件和信息化手段的限制,取得的非結構化數據無法數據化,或者無法取得相關的明細數據,致使對問題的判斷也難以進一步具體和深入。而大數據、云計算技術可以促進持續審計方式的發展,使信息技術與大數據、云計算技術較好交叉融合,尤其對業務數據和風險控制“實時性”要求較高的特定行業,如銀行、證券、保險等行業,在這些行業中實施持續審計迫在眉睫。如審計組織對商業銀行的審計,實行與商業銀行建立業務和數據系統的接口,在開發的持續審計系統中固化了非結構化數據結構化和數據分析模塊,該模塊可以在海量貸款客戶中挖掘、分析出行業性和區域性貸款風險趨勢,實現在線的風險預警,并將發現的風險數據、超預警值指標及問題登記為疑點,并建立實時審計工作底稿,按照重要程度進行歸類、核實或下發給現場審計人員進行現場核實,以較好處理非結構化數據的利用和數據的實時分析利用問題。(二)大數據、云計算技術促進總體審計模式的應用
現時的審計模式是在評價被審計單位風險基礎上實施抽樣審計。在不可能收集和分析被審計單位全部經濟業務數據的情況下,現時的審計模式主要依賴于審計抽樣,從局部入手推斷整體,即從抽取的樣本著手進行審計,再據此推斷審計對象的整體情況。這種抽樣審計模式,由于抽取樣本的有限性,而忽視了大量和具體的業務活動,使審計人員無法完全發現和揭示被審計單位的重大舞弊行為,隱藏著重大的審計風險。而大數據、云計算技術對審計人員而言,不僅僅是一種可供采用的技術手段,這些技術和方法將給審計人員提供實施總體審計模式的可行性。利用大數據、云計算技術,對數據的跨行業、跨企業搜集和分析,可以不用隨機抽樣方法,而采用搜集和分析被審計單位所有數據的總體審計模式。利用大數據、云計算技術的總體審計模式是要分析與審計對象相關的所有數據,使得審計人員可以建立總體審計的思維模式,可以使現代審計獲得革命性的變化。審計人員實施總體審計模式,可以規避審計抽樣風險。如果能夠收集總體的所有數據,就能看到更細微、深入的信息,對數據進行多角度的深層次分析,從而發現隱藏在細節數據中的對審計問題更具價值的信息。同時,審計人員實施總體審計模式,能發現從審計抽樣模式所不能發現的問題。大數據、云計算技術給審計人員提供了一種能夠從總體把握審計對象的技術手段,從而幫助審計人員能從總體的視角發現以前難以發現的問題。
(三)大數據、云計算技術促進審計成果的綜合應用
目前,審計人員的審計成果主要是提供給被審計單位的審計報告,其格式固定,內容單一,包含的信息量較少。隨著大數據、云計算技術在審計中廣泛應用,審計人員的審計成果除了審計報告外,還有在審計過程中采集、挖掘、分析和處理的大量的資料和數據,可以提供給被審計單位用于改進經營管理,促進審計成果的綜合應用,提高審計成果的綜合應用效果。首先,審計人員通過對審計中獲取的大量數據和相關情況資料的匯總、歸納,從中找出財務、業務和經營管理等方面的內在規律、共性問題和發展趨勢,通過匯總歸納宏觀性和綜合性較強的審計信息,為被審計單位投資者和其他利益相關者提供數據證明、關聯分析和決策建議,從而促進被審計單位管理水平的提高。其次,審計人員通過應用大數據、云計算技術,可以將同一問題歸入不同的類別進行分析和處理,從不同的角度、不同的層面整合提煉以滿足不同層次的需求。再次,審計人員將審計成果進行智能化留存,通過大數據、云計算技術,將問題規則化并固化到系統中,以便于計算或判斷問題發展趨勢,向被審計單位進行預警。最后。審計人員將審計成果、被審計單位與審計問題進行關聯,并進行信息化處理,在進行下次審計時,減少實地審計的時間和工作量,提高審計工作的效率。(四)大數據、云計算技術促進相關關系證據的應用
審計人員在審計過程中,應根據充分、適當的審計證據發表審計意見,出具審計報告。但是,在大數據、云計算環境下,審計人員既面臨巨量數據篩選的考驗,又面臨搜集適當審計證據的挑戰。審計人員在搜集審計證據時,傳統的思維路徑都是基于因果關系來搜集審計證據,而大數據分析將會更多地運用相關關系分析來搜集和發現審計證據。但從審計證據發現的角度來看,由于大數據技術提供了前所未有的跨領域、可供量化的維度,使得審計問題大量的相關信息能夠得以記錄和計算分析。大數據、云計算技術沒有改變事物間的因果關系,但在大數據、云計算技術中對相關關系的開發和利用,使得數據分析對因果邏輯關系的依賴降低了,甚至更多地傾向于應用基于相關關系的數據分析,以相關關系分析為基礎的驗證是大數據、云計算技術的一項重要特征。在大數據、云計算技術環境下,審計人員能搜集到的審計證據大多是電子證據(秦榮生,2013)。電子證據本身就非常復雜,云計算技術使獲取有因果關系的證據更加困難。審計人員應從長期依賴因果關系來搜集和發現審計證據,轉變成為利用相關關系來搜集和發現審計證據。(五)大數據、云計算技術促進高效數據審計的發展
直到今天,審計人員的數字審計技術依然建立在精準的基礎上。這種思維方式適用于掌握“小數據量”的情況,因為需要分析的數據很少,所以審計人員必須盡可能精準地量化被審計單位的業務。隨著大數據、云計算技術成為日常生活中的一部分,審計人員應開始從一個比以前更大、更全面的角度來理解被審計單位,將“樣本= 總體”植入審計人員的思維中。相比依賴于小數據和精確性的時代,大數據更強調數據的完整性和混雜性,幫助審計人員進一步接近事情的真相,“局部”和“精確”將不再是審計人員追求的目標,審計人員追求的是事物的“全貌”和“高效”。圍繞大數據,一批新興的數據挖掘、數據存儲、數據處理與分析技術將不斷涌現。在實施審計時,審計人員應利用大數據、云計算技術,使用分布式拓樸結構、云數據庫、聯網審計、數據挖掘等新型的技術手段和工具,以提高審計的效率。
(六)大數據、云計算技術促進大數據審計師的發展
大數據、云計算時代,數據的真實、可靠是大數據發揮作用的前提。這客觀上要求專業人員來對大數據的真實性、可靠性進行鑒證,審計人員可以扮演這種角色,或者稱為數據審計師。能對大數據真實性、可靠性進行鑒證的數據審計師應該是計算機科學、數學、統計學和審計學領域的專家,他們應有大數據分析和預測的評估能力。數據審計師應恪守公正的立場和嚴守保密的原則,面對海量的數據和紛繁復雜的相關關系,選取分析和預測工具,以及解讀數據及數據計算結果是否真實、可靠。一旦出現爭議,數據審計師有權審查與分析結果相關的運算法則、統計方法以及數據采集、挖掘和處理過程。數據審計師的出現是為滿足以市場為導向來解決數據真實性、可靠性問題的需求,這與20 世紀初期為了處理財務信息虛假而出現的審計人員一樣,都是為了滿足新需求而出現的。
三、大數據挖掘
數據的價值只有通過數據挖掘才能從低價值密度的數據中發現其潛在價值,而大數據挖掘技術的實現離不開云計算技術。在業界,全球著名的Google、EMC、惠普、IBM、微軟等互聯網公司都已經意識到大數據挖掘的重要意義。上述IT 巨頭們紛紛通過收購大數據分析公司,進行技術整合,希望從大數據中挖掘更多的商業價值。數據挖掘通常需要遍歷訓練數據獲得相關的統計信息,用于求解或優化模型參數,在大規模數據上進行頻繁的數據訪問需要耗費大量運算時間。數據挖掘領域長期受益于并行算法和架構的使用,使得性能逐漸提升。過去15 年來,效果尤其顯著。試圖將這些進步結合起來,并且提煉。GPU平臺從并行上得到的性能提升十分顯著。這些GPU平臺由于采用并行架構,使用并行編程方法,使得計算能力呈幾何級數增長。即便是圖形處理、游戲編程是公認的復雜,它們也從并行化受益頗多。研究顯示數據挖掘、圖遍歷、有限狀態機是并行化未來的熱門方向。MapReduce 框架已經被證明是提升GPU 運行數據挖掘算法性能的重要工具。D.Luo 等提出一種非平凡的策略用來并行一系列數據挖掘與數據挖掘問題,包括一類分類SVM 和兩類分類SVM,非負最小二乘問題,及L1 正則化回歸(lasso)問題。由此得到的乘法算法,可以被直截了當地在如MapReduce 和CUDA 的并行計算環境中實現。K.Shim 在MapReduce 框架下,討論如何設計高MapReduce 算法,對當前一些基于MapReduce 的數據挖掘和數據挖掘算法進行歸納總結,以便進行大數據的分析。Junbo Zhang 等提出一種新的大數據挖掘技術,即利用MapRedue 實現并行的基于粗糙集的知識獲取算法,還提出了下一步的研究方向,即集中于用基于并行技術的粗糙集算法處理非結構化數據。F.Gao 提出了一種新的近似算法使基于核的數據挖掘算法可以有效的處理大規模數據集。當前的基于核的數據挖掘算法由于需要計算核矩陣面臨著可伸縮性問題,計算核矩陣需要O(N2)的時間和空間復雜度來計算和存儲。該算法計算核矩陣時大幅度降低計算和內存開銷,而且并沒有明顯影響結果的精確度。此外,通過折中結果的一些精度可以控制近似水平。它獨立于隨后使用的數據挖掘算法并且可以被它們使用。為了闡明近似算法的效果,在其上開發了一個變種的譜聚類算法,此外設計了一個所提出算法的基于MapReduce 的實現。在合成和真實數據集上的實驗結果顯示,所提出的算法可以獲得顯著的時間和空間節省。Christian Kaiser 等還利用MapReduce 框架分布式實現了訓練一系列核函數學習機,該方法適用于基于核的分類和回歸。Christian Kaiser 還介紹了一種擴展版的區域到點建模方法,來適應來自空間區域的大量數據。Yael Ben-Haim 研究了三種MapReduce 實現架構下并行決策樹分類算法的設計, 并在Phoenix 共享內存架構上對SPRINT 算法進行了具體的并行實現。F.Yan 考慮了潛在狄利克雷分配(LDA)的兩種推理方法——塌縮吉布斯采樣(collapsed Gibbssampling,CGS)和塌縮變分貝葉斯推理(collapsedvariational Bayesian,CVB)在GPU 上的并行化問題。為解決GPU 上的有限內存限制問題,F.Yan 提出一種能有效降低內存開銷的新穎數據劃分方案。這種劃分方案也能平衡多重處理器的計算開銷,并能容易地避免內存訪問沖突。他們使用數據流來處理超大的數據集。大量實驗表明F.Yan 的并行推理方法得到的LDA 模型一貫地具有與串行推理方法相同的預測能力;但在一個有30 個多核處理器的GPU 上,CGS 方法得到了26倍的加速,CVB 方法得到了196 倍的加速。他們提出的劃分方案和數據流方式使他們的方法在有更多多重處理器時可伸縮,而且可被作為通用技術來并行其它數據挖掘模型。Bao-Liang Lu 提出了一種并行的支持向量機,稱為最小最大模塊化網絡(M3),它是基“分而治之”的思想解決大規模問題的有效的學習算法。針對異構云中進行大數據分析服務的并行化問題G.Jung 提出了最大覆蓋裝箱算法來決定系統中多少節點、哪些節點應該應用于大數據分析的并行執行。這種方法可以使大數據進行分配使得各個計算節點可以同步的結束計算,并且使數據塊的傳輸可以和上一個塊的計算進行重疊來節省時間。實驗表明,這種方法比其他的方法可以提高大約60% 的性能。在分布式系統方面,Cheng 等人 提出一個面向大規模可伸縮數據分析的可伸縮的分布式系統——GLADE。GLADE 通過用戶自定義聚合(UDA)接口并且在輸入數據上有效地運行來進行數據分析。文章從兩個方面來論證了系統的有效性。第一,文章展示了如何使用一系列分析功能來完成數據處理。第二,文章將GLADE 與兩種不同類型的系統進行比較:一個用UDA 進行改良的關系型數據庫(PostgreSQL)和MapReduce(Hadoop)。然后從運行結果、伸縮性以及運行時間上對不同類型的系統進行了比較。
四、總結 大數據的超大容量自然需要容量大,速度快,安全的存儲,滿足這種要求的存儲離不開云計算。高速產生的大數據只有通過云計算的方式才能在可等待的時間內對其進行處理。同時,云計算是提高對大數據的分析與理解能力的一個可行方案。大數據的價值也只有通
過數據挖掘才能從低價值密度的數據中發現其潛在價值,而大數據挖掘技術的實現離不開云計算技術。總之,云計算是大數據處理的核心支撐技術,是大數據挖掘的主流方式。沒有互聯網,就沒有虛擬化技術為核心的云計算技術,沒有云計算就沒有大數據處理的支撐技術。
參考文獻
秦榮生.大數據、云計算技術對審計的影響研究 何清.大數據與云計算
張為民.云計算: 深刻改變未來
文峰.云計算與云審計———關于未來審計的概念與框架的一些思考
Big data and cloud computing Big Data(Big Data)in recent years, more and more occasions, the concept is mentioned more and more people, And often, and cloud computing together, what is the relationship between cloud computing and big data become a hot topic.this Special report contains the following four aspects: 1.The value of big data;2.Big data challenge;3.Big data research;4.Cloud computing is the mainstream way of data mining.Through this report on our understanding of big data, as well as the understanding of the value of big data, large data processing and mining technology, large data mainly focus on “data”, provide the technology and methods of data collection, mining and analysis;Cloud computing technology focusing on “computing”, providing IT solutions.Big data and cloud computing technology can promote the development of continuous audit mode, the overall audit mode of application, the audit results of comprehensive application, the application of related evidence, the development of efficient data audit and the development of large data auditor.Strengthen big data and cloud computing technology measures of audit applications include set up long-term development strategy, accelerate the construction of the audit regulations, establish a platform, to strengthen research and development and improve the utilization ability.Keywords: big data cloud computing data mining impact on the audit policy Suggestions
第五篇:數據挖掘研究現狀
一、時代的挑戰
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據庫被用于商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。于是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰,數據挖掘和知識發現(DMKD)技術應運而生,并得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
二、研究現狀
KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。迄今為止,由美國人工智能協會主辦的KDD國際研討會已經召開了7次,規模由原來的專題討論會發展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發現方法轉向系統應用,并且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當前計算機科學界的一大熱點。
此外,數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了 KDD專題或專刊。IEEE的Knowledge and Data Engineering 會刊領先在1993年出版了KD D技術專刊,所發表的5篇論文代表了當時KDD研究的最新成果和動態,較全面地論述了KDD 系統方法論、發現結果的評價、KDD系統設計的邏輯方法,集中討論了鑒于數據庫的動態性冗余、高噪聲和不確定性、空值等問題,KDD系統與其它傳統的機器學習、專家系統、人工神經網絡、數理統計分析系統的聯系和區別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業的具體應用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領導整個潮流的DMKD開發和研究中心,當數設在美國EMDEN的IBM公司開發部。至于DMKD書籍,可以在任何計算機書店找到十多本,但大多帶有商業色彩。
三、內容和本質
隨著DMKD研究逐步走向深入,人們越來越清楚地認識到,DMKD的研究主要有3個技術支柱,即數據庫、人工智能和數理統計。
數據庫技術在經過了80年代的輝煌之后,已經在各行各業成為一種數據庫文化或時尚,數據庫界目前除了關注萬維網數據庫、分布式數據庫、面向對象數據庫、多媒體數據庫、查詢優化和并行計算等技術外,已經在開始反思。數據庫最實質的應用僅僅是查詢嗎?理論根基最深的關系數據庫最本質的技術進步點,就是數據存放和數據使用之間的相互分離。查詢是數據庫的奴隸,發現才是數據庫的主人;數據只為職員服務,不為老板服務!這是很多單位的領導在熱心數據庫建設后發出的感嘆。
由于數據庫文化的迅速普及,用數據庫作為知識源具有堅實的基礎;另一方面,對于一個感興趣的特定領域——客觀世界,先用數據庫技術將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發掘或發現的所有知識都是針對該數據庫而言的。因此,在需求的驅動下,很多數據庫學者轉向對數據倉庫和數據挖掘的研究,從對演繹數據庫的研究轉向對歸納數據庫的研究。
專家系統曾經是人工智能研究工作者的驕傲。專家系統實質上是一個問題求解系統 ,目前的主要理論工具是基于謂詞演算的機器定理證明技術——二階演繹系統。領域專家長期以來面向一個特定領域的經驗世界,通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統時,知識工程師首先要從領域專家那里獲取知識,這一過程實質上是歸納過程,是非常復雜的個人到個人之間的交互過程,有很強的個性和隨機性。因此 ,知識獲取成為專家系統研究中公認的瓶頸問題。
其次,知識工程師在整理表達從領域專家那里獲得的知識時,用if-then等類的規則表達,約束性太大,用常規數理邏輯來表達社會現象和人的思維活動局限性太大,也太困難, 勉強抽象出來的規則有很強的工藝色彩,差異性極大,知識表示又成為一大難題。
此外,即使某個領域的知識通過一定手段獲取并表達了,但這樣做成的專家系統對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎的。人工智能學家 Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽象經驗法則,離開常識的專家系統有時會比傻子還傻。例如戰場指揮員會根據“在某地發現一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統的應用,使得專家系統目前還停留在構造諸如發動機故障論斷一類的水平上。人工智能學者開始著手基于案例的推理,尤其是從事機器學習的科學家們,不再滿足自己構造的小樣本學習模式的象牙塔,開始正視現實生活中大量的、不完全的、有噪聲的、模糊的、隨機的大數據樣本,也走上了數據挖掘的道路。
數理統計是應用數學中最重要、最活躍的學科之一,它在計算機發明之前就誕生了, 迄今已有幾百年的發展歷史。如今相當強大有效的數理統計方法和工具,已成為信息咨詢業的基礎。信息時代,咨詢業更為發達。然而,數理統計和數據庫技術結合得并不算快,數據庫查詢語言SQL中的聚合函數功能極其簡單,就是一個證明。咨詢業用數據庫查詢數據還遠遠不夠。一旦人們有了從數據查詢到知識發現、從數據演繹到數據歸納的要求,概率論和數理統計就獲得了新的生命力,所以才會在DMKD這個結合點上,立即呈現出“忽如一夜春風來,千樹萬樹梨花開”的繁榮景象。一向以數理統計工具和可視化計算聞名的美國SA S公司,領先宣布進入DMKD行列。
數據挖掘所能發現的知識有如下幾種:廣義型知識,反映同類事物共同性質的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關聯型知識,反映事物之間依賴或關聯的知識;預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發展方向
當前,DMKD研究正方興未艾,預計在21世紀還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化;尋求數據挖掘過程中的可視化方法,使得知識發現的過程能夠被用戶理解 ,也便于在知識發現過程中的人機交互;研究在網絡環境下的數據挖掘技術,特別是在Int ernet上建立DMKD服務器,與數據庫服務器配合,實現數據挖掘;加強對各種非結構化數據的挖掘,如文本數據、圖形圖像數據、多媒體數據。但是,無論怎樣,需求牽引,市場驅動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產品將會問世