第一篇:大數據認識
大數據認識
班級:B200216電商本科2 姓名:陳家瑋 學號:20021624
一
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
層面
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這里分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這里分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
價值
1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷 2)做小而美模式的中小微企業可以利用大數據做服務轉型
3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值 趨勢
趨勢一:數據的資源化
何為資源化,是指大數據成為企業和社會關注的重要戰略資源,并已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。
趨勢二:與云計算的深度結合
大數據離不開云處理,云處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和云計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。趨勢三:科學理論的突破
隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智能等相關技術,可能會改變數據世界里的很多算法和基礎理論,實現科學技術上的突破。
趨勢四:數據科學和數據聯盟的成立
未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基于數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之后,數據共享將擴展到企業層面,并且成為未來產業的核心一環。
趨勢五:數據泄露泛濫
未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防范。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而并非在數據保存的最后一個環節,僅僅加強后者的安全措施已被證明于事無補。
趨勢六:數據管理成為核心競爭力
數據管理成為核心競爭力,直接影響財務表現。當“數據資產是企業核心資產”的概念深入人心之后,企業對于數據管理便有了更清晰的界定,將數據管理作為企業核心競爭力,持續發展,戰略性規劃與運用數據資產,成為企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對于具有互聯網思維的企業而言,數據資產競爭力所占比重為36.8%,數據資產的管理效果將直接影響企業的財務表現。
趨勢七:數據質量是BI(商業智能)成功的關鍵
采用自助式商業智能工具進行大數據處理的企業將會脫穎而出。其中要面臨的一個挑戰是,很多數據源會帶來大量低質量數據。想要成功,企業需要理解原始數據與數據分析之間的差距,從而消除低質量數據并通過BI獲得更佳決策。
趨勢八:數據生態系統復合化程度加強
大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生態系統。而今,這樣一套數據生態系統的基本雛形已然形成,接下來的發展將趨向于系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得數據生態系統復合化程度逐漸增強。
二
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。
優點
高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
hadoop大數據處理的意義
Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎,并將碎片任務(Map)發送到多個節點上,之后再以單個數據集的形式加載(Reduce)到數據倉庫里。
大數據精髓
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制)B.不是精確性,而是混雜性:研究數據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、.Hypertable是另類。它存在于Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb 商用大數據生態圈:
1、一體機數據庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、Tableau、以及國內的Yonghong Data Mart。大數據分析
Analytic Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。
Data Mining Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
Semantic Engines(語義引擎)
我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。
Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。
數據存儲,數據倉庫
數據倉庫是為了便于多維分析和多角度展示數據按特定模式進行存儲所建立起來的關系型數據庫。在商業智能系統的設計中,數據倉庫的構建是關鍵,是商業智能系統的基礎,承擔對業務系統數據整合的任務,為商業智能系統提供數據抽取、轉換和加載(ETL),并按主題對數據進行查詢和訪問,為聯機數據分析和數據挖掘提供數據平臺。
第二篇:大數據本科專業申報及認識
大數據本科專業申報及認識
摘要:從產業發展、數據科學的學科特征、大數據專業與其他相關專業的不同等3個方面,闡述增設大數據本科專業的合理性和必要性;以對外經濟貿易大學專業建設為例,指出大數據專業人才應該能夠圍繞互聯網平臺上經濟金融數據的商業價值進行挖掘并揭示數據間關系。
關鍵詞:數據科學;大數據技術;大數據科學與應用
引言
互聯網、云計算、移動計算等新興技術拓展了人類創造和利用信息的范圍和模式。聯合國在2012年發布的大數據白皮書《大數據促發展:挑戰與機遇》中指出,大數據時代已經到來,大數據的出現將會對社會各個領域產生深刻影響。2013年被稱為中國大數據元年,各行各業開始高度關注大數據的研究和應用。在云計算技術、非結構化數據存儲技術的助力下,大數據已經成為當前學術界、工業界的熱點和焦點。從公司戰略到產業生態,從學術研究到生產實踐,從城鎮管理乃至國家治理,都將發生本質的變換,大數據將成為時代變革的力量。“用數據來說話、用數據來管理、用數據來決策、用數據來創新”的文化氛圍與時代特征愈發鮮明。大數據時代新特征要求設計和構建相應的管理決策分析模型與方法,有效地將信息科學和商業應用相結合。因此,掌握大數據核心技術且同時擁有“經管”專業知識的人才儲備將成為國家大數據戰略布局的重中之重。
1產業發展需要大數據人才
與大數據概念知名度和企業熱情形成對比的是,大數據正面臨全球性的人才荒。企業對新型大數據分析和預測技術人才的熱情和需求正在超過傳統的商業智能和信息管理人才。
根據麥肯錫報告,僅僅在美國市場,2018年大數據人才(包括高級數據分析專家)缺口將高達19萬。此外美國企業還需要150萬能夠提出正確問題并運用大數據分析結果的大數據相關管理人才。商業數據分析是現在全美增長最迅速的領域,據New Vantage Partners公司對美國《財富》500強公司調查顯示:85%的500強企業已經或正在籌劃推出大數據項目,未來幾年這些企業在數據分析上的投資將平均上漲36%。《哈佛商業評論》的一篇文章將數據分析稱作“21世紀最熱門的職業”。人力資源公司Kforce的調研報告預測2014年全球大數據相關的八大職業平均年薪將達到11.75萬~14.06萬美元。中國是人才大國,但掌握和應用大數據技術的創新人才仍是稀缺資源,培養大數據相關人才成為最為緊迫的問題。在這樣的形勢下,對外經濟貿易大學于2015年7月向教育部申報開設“大數據科學與應用(目錄外)”本科專業。
2.“數據科學”的時代性、科學性與合理性分析
“大數據”已經成為全球科技界和企業界關注的熱點。數據為王的時代已經到來,企業關注的重點從追求計算機的計算速度轉變為大數據處理能力,從以軟件編程為主轉變為以數據為中心。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署。美國政府認為大數據是“未來的新石油”,將“大數據研究”上升為國家意志,這對未來的科技與經濟發展必將帶來深遠影響。
大數據研究的熱潮激勵基礎研究的科研人員開始考慮“數據科學”問題。目前大數據的工程技術研究已走在科學研究的前面。美國政府6個部門啟動的大數據研究計劃中,國家科學基金會的研究內容提到要“形成一個包括數學、統計基礎和計算機算法的獨特學科”。圖靈獎得主吉姆?格雷描繪了數據密集型科研第四范式的愿景,將大數據科研從第三范式(計算機模擬)中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數學模型的傳統研究方式。
大數據研究能成為一門科學的前提是,在一個領域發現的數據相互關系和規律具有可推廣到其他領域的普適性。提煉“大數據”的共性還需要一段時間的實踐積累才會逐步清晰明朗。將大量多元異構、交互性和時效性強并包含大量噪聲的數據作為研究對象的專門學科,依然具備了鮮明的學科特征。
3大數據專業與其他相關專業的異質性分析
由于大數據專業主要支撐技術來源于信息技術,所以在專業申報中應將該專業所屬學科門類及專業類推薦設在計算機科學與技術學科下,大數據專業與計算機學科下所屬專業的關系及區分度可以概括如下幾點。
(1)研究對象的側重點不同。“大數據科學與應用”專業研究的核心對象是“大數據”,既不是硬件、軟件理論研究,也不是計算機技術在某個領域的應用研究或者某一特定計算機技術的理論和應用研究,并且“大數據”引發的研究不可能在短時間完成,“大數據”問題研究具備了跨行業、跨領域的普適性。除去該專業所需的計算機學科之外的專業知識,就計算機學科內部而言,該專業所需知識在計算機學科的其他專業都有涉及,但又不被完全包含,所以不便將其歸人現有專業之中。
(2)大數據科學素養要求高。該專業對學生在“大數據科學素養”方面有更高的要求,在理論上,強調學生有很好的數理統計基礎、扎實的數據結構和算法的基本功,能夠很好地理解和掌握各種機器學習和數據挖掘算法;在實踐上,強調學生具備海量數據獲取、數據組織與存儲、數據清洗、數據預處理、數據分析以及數據可視化的工程實踐能力,掌握數據處理各個環節的基本技能;在理論與實踐結合方面,強調學生掌握處理“大數據”的先進技術和理論,即掌握與云計算相關的大數據處理平臺及其生態系統,強調與數據來源緊密相關的新技術的融合與互動,即理解和掌握物聯網、移動互聯網相關理論和技術。
(3)專業具備前所未有的復合性特征。對大數據而言,技術走在科學前面。目前的局面是各個學科(如生物、醫療、金融等)的科學家都以自己為主處理本領域的海量數據,各領域的科學問題還掌握在各學科的科學家手里。本專業的設置希望從一開始就以培養復合型人才為目標,以大數據為核心研究對象,強調學生對專業領域(經濟、金融、電子商務)數據的理解能力,深刻體現技術為數據服務的思想。
(4)與統計學專業的區別。本專業與統計學專業的最大區別來自于對IT技術的理解和掌握,強調數據在獲取、清洗、存儲、處理和展示等各個環節與IT技術的深度融合,而不僅僅是將IT技術作為輔助手段;就數據處理的種類而言,更重視對非結構化和半結構化數據(統計學專業處理的數據一般為結構化數據)的處理。
(5)與信息管理專業的區別。本專業與信息管理專業的區別主要體現在看待數據和信息的角度。信息管理主要強調在理解數據和業務流程的基礎上,通過科學的分析和設計方法,實現管理信息系統,強調利用計算機技術介入、改造和升級原有的業務系統。“大數據”相關理論和技術更側重對數據本身的洞察與理解,相對而言更加獨立于原有的業務系統,更專注對海量、復雜、多元數據的深度分析和處理能力,更依賴于大數據處理平臺和技術,也更好地支撐了物聯網、移動互聯網的應用和發展。
4國內外大數據相關專業發展情況及就業前景分析
4.1大數據相關專業發展情況
由于市場對大數據人才的需求日益激烈,國外很多大學開始專門開設數據分析類專業。美國US News排名Top50院校中的哈佛大學、哥倫比亞大學、斯坦福大學、芝加哥大學、麻省理工學院、卡內基梅隆大學等15所高校均開設了大數據相關專業。另外,由于大數據在2012-2013年開始興起,人才市場無法迅速培養出大量符合企業期望的人才,美國一些公司采取了更現實的做法:和大學合作,長期培養大數據專業人才以及開展相關研究,比如英特爾就和數據學專業排名靠前的麻省理工學院合作,建立了大數據科學技術中心。
目前,國內大數據相關專業主要開設在研究生層次。2014年中國科學院大學開設首個“大數據技術與應用”專業方向,該專業面向科研發展及產業實踐,培養信息技術與行業需求結合的復合型的大數據人才;2014年清華大學成立數據科學研究院,推出多學科交叉培養的大數據碩士項目;中國人民大學也設立了大數據應用與云管理、大數據與應用統計、大數據應用方向以及大數據與云計算研究方向;北京航空航天學院軟件學院開設了大數據和云計算研究方向,并已經有畢業生;另外,上海交通大學、浙江大學、天津大學、廈門大學等也在研究生層次建立大數據專業。
許多高校同時也在籌建本科的大數據相關專業,西安交通大學、北京交通大學等與IBM公司合作啟動了大數據本科專業的建設或者改造現有相關專業。針對當前中國市場急劇擴大的大數據與分析技能需求和人才缺口,IBM投入1億美元在中國大學推行大數據教育,并推出“IBMU-100”合作計劃,在100所高校設立大數據與分析技術中心,在其中30所高校開設本科和碩士課程,在5所大學設立“卓越中心”。
4.2復合型人才就業前景
Glassdoor公司2016年1月發布的“美國最好的工作”排名中,數據科學家位居第一,底薪為11.6萬美元。通過分析大數據人才市場需求、與大數據公司研討以及對業界的調研,我們認為對外經濟貿易大學開設大數據專業及就業方向主要有如下三個方面:
(1)貿易金融方向大數據分析師:主要就業崗位在供應鏈融資公司、P2P信貸征信平臺、商業銀行等。
(2)網絡營銷方向大數據分析師:主要就業崗位在互聯網廣告、020營銷公司、大型網絡媒體等。
(3)物流與電子商務方向大數據分析師。主要就業崗位在電子商務公司、現代物流公司、第三方支付公司等。
學生職業生涯成長目標為首席數據官(CDO),如圖1所示。
5對外經濟貿易大學開設大數據分析專業的基礎及對大數據專業的認識
5.1財經學校背景優勢支撐大數據專業申報
對外經濟貿易大學在經貿、金融、管理、法律等專業擁有得天獨厚的條件。秉承創新“商業大數據人才”的培養方略,建立適合財經類院校的商務大數據專業,為國家產業轉型與行業發展需求貢獻合格的人才,支撐國家大數據戰略的實現,是我們申報開設大數據專業的出發點。從社會發展需求出發,建設以國際化、精品化、金融與商務相結合為特色的大數據專業是我們進行專業建設的指導思想。
5.2師資隊伍建設與儲備
大數據專業申報所依托的信息學院近年來引進了多名優秀的具有海內外大數據分析背景的人才充實到教學科研隊伍中。師資隊伍多元化教育背景和工作經歷是學院的巨大財富,也為該專業的創建提供了先決條件。同時2014年信息學院先后兩次派教師參加大數據核心課程培訓,為新專業申報進行了專業師資的儲備。
5.3成立產學結合的大數據專業建設小組并開展專業研討
信息學院為建設大數據專業,多次召開專業建設研討會,特別邀請承擔2015CCTV兩會大數據制作的專業大數據公司技術總監來學院介紹大數據的采集、處理、展示等全過程;邀請新浪微博大數據中心建設人員就大數據專業人才需求、專業定位進行研討。組建了有大數據企業參加的專業申報籌備小組,億贊普大數據公司技術總監作為專業建設成員參與專業建設和課程體系設計與實施。
5.4與大數據企業和大數據產業協會聯系緊密
信息學院大數據專業籌備組成員與中國信息化協會大數據分會、一線大數據聯盟、中國大數據產業規劃聯盟、中國物流大數據產業合作聯盟等產業協會建立了緊密的合作關系;與91金融超市建立了科學研究和實習基地;與京翰數據技術公司就物流大數據研發建立并簽署了科研合作協議;2015年與京東物流大數據創新部進行合作接洽。
5.5人才培養方案及實踐教學環境建設
目前大數據人才培養方案還處于探索階段,鑒于大數據是一個交叉專業,業界的共識是在計算機科學技術相關專業基礎上融合機器學習、數據挖掘的數據分析技術。針對業界共識與對外經濟貿易大學學科背景實際,我們設計了具有對外經濟貿易大學特色的人才培養方案,其主線是“大數據分析+信息技術+經濟貿易應用”。
大數據是應用性、實踐性很強的專業,信息學院擁有國家級實驗教學示范中心,為大數據人才培養提供了可行的實踐教學環境。
5.6對大數據專業的認識
IBM公司賦予大數據“領悟數據,提升見識,洞察秋毫,驅動優化”四個內涵,這也構成了本專業的基本特點:側重于大數據技術的應用,強調大數據間相關性的發現,其核心能力是“大數據中的價值發現和應用”。“大數據科學與應用”專業設置具有顯著的跨學科特點,學生不僅要掌握統計學、計算機科學、信息管理等專業的基礎知識,還要具備其他專業領域較深的知識背景(如經濟貿易或金融專業領域知識),最重要的是要有依托數據創造價值的能力。
在專業籌備和申報過程中,我們認為大數據專業的技術核心應圍繞大數據采集、組織與存儲、分析與處理、結果呈現而進行,而大數據的數據源及內容應該來源于經濟貿易、金融交易、物流與電子商務等商務與管理應用領域。所以我們將該專業的培養目標界定為:旨在培養具備大數據科學素養,掌握經濟管理、網絡金融、電子商務等領域知識的專業人才,為以大數據技術為支撐的相關行業培養國際化、復合型的高素質人才;人才要具備將領域知識與計算機技術和大數據技術融合、創新的能力,能夠從數據工程的視角從事經濟、金融、電子商務等領域的大數據采集、組織、管理、分析以及應用的工作。
6結語
時代發展呼吁建立大數據專業人才培養體系,對外經濟貿易大學“大數據科學與技術”專業申報經歷了通訊評審、網上公示、專家委員會會審等系列程序。教育部學科發展與專業設置專家委員會評議后建議將專業名稱統一規范為“數據科學與大數據技術”。我們認為這樣更能體現工學學士學位特征。專業申報只是我們邁出的第一步,建設有對外經濟貿易大學特色的大數據專業,培養受社會歡迎的、高質量的大數據人才,我們深感任重而道遠。
第三篇:對醫療大數據的認識
重慶大學研究生文獻綜述
對醫療大數據的認識
姓
名: 學
號: 指導教師: 專
業:
重慶大學光電工程學院
二O一六年十一月 醫療大數據產生的背景
在任何一個初具規模的醫院,每天接待上萬的患者前來就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起是一個龐大的數據。據統計,上海市區域醫療信息平臺(上海市“醫聯工程”及縣區衛生數據中心)已經積累了覆蓋3900萬人群、1400TB數據量的電子診療與健康檔案等醫療衛生數據(涵蓋了全市38家三級醫院3900萬就診人群的醫療信息,包括患者基本信息、就診信息、健康檔案、檢驗及影像檢查報告、醫學影像圖像文件、住院相關病歷、醫保結算等醫療衛生數據,涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個數據量將會持續快速增長,為醫院的數據存儲、集成、調用等應用帶來巨大壓力。除了數據規模巨大之外,醫療行業的數據類型和結構極其復雜,如PACS影像、B超、病例分析等業務產生的非結構化數據,這些數據存儲復雜,并且對傳統的處理方法和技術帶來巨大挑戰【1】。醫療大數據得到人們的關注,并渴望有一種新的技術可以從這些看似雜亂無章的數據中得到價值。目前,為了提高人們的健康水平以及醫療水平,醫療行業在大數據環境下的各個領域異常活躍[2]。醫療大數據的相關概念
2.1 醫療大數據的定義
醫療數據是醫生對患者診療和治療過程中產生的數據,包括患者基本數據、入出轉數據、電子病歷、診療數據、醫學影像數據、醫學管理、經濟數據等,以患者為中心,成為醫療信息的主要來源。
隨著醫療衛生信息化建設進程的不斷加快,醫療數據的類型和規模正以前所未有的速度快速的增長,以至于無法利用目前主流軟件工具,在合理的時間內達到擷取、管理并整合成為能夠幫助醫院進行更積極目的經營決策的有用信息。規模巨大的臨床實驗數據、疾病診斷數據以及居民行為健康數據等匯聚在一起形成了醫療大數據。
2.2 醫療大數據的主要來源
2.2.1 制藥企業、生命科學
藥物研發所產生的數據是相當密集的,對于中小型的企業也在百億字節(TB)以上的。在生命科學領域,隨著計算能力和基因測序能力逐步增加,美國哈弗醫學院個人基因組項目負責人詹姆·鮑比就認為,到2015年,將會有5000萬人擁有個人基因圖譜,而一個基因組序列文件大小約為750MB[3]。
2.2.2 臨床醫療、實驗室數據
臨床和實驗室數據整合在一起,使得醫療機構面臨的數據增長非常快,一張普通CT圖像含有大約150MB的數據,一個標準的病理圖則接近5GB。如果將這些數據量乘
以人口數量和平均壽命,僅一個社區醫院積累的數據量就可達數萬億字節甚至數千萬億字節(PB)之多。
2.2.3 費用、醫療保險、利用率
患者在就醫過程中產生的費用信息、報銷信息、新農合基金使用情況等。
2.2.4 健康管理、社交網絡
隨著移動設備和移動互聯網的飛速發展,便攜化的生理設備正在普及,如果個人健康信息都能連入互聯網,那么由此產生的數據量將不可估量。
2.3 醫療數據的基本類型
2.3.1 醫院信息系統(HIS)數據
HIS是醫院的核心系統,是對醫院及其所屬各部門的人流、物流、財流進行綜合管理的系統,圍繞著醫療活動的各個階段產生相關數據,包括各門診數據及病房數據兩大主流數據流。
2.3.2 檢驗信息系統(LIS)數據
LIS是HIS的一個重要組成部分,其主要功能是將實驗儀器傳出的檢驗數據經分析后,生成檢驗報告,通過網絡存儲在數據庫中,使醫生能夠方便、及時的看到患者的檢驗結果。
2.3.3 醫學影像存檔和傳輸系統(PACS)數據
PACS數據主要是將數字化醫院影像科室日常核磁、CT、超聲、各種X線機、各種紅外儀等設備產生的圖像存儲起來。
2.3.4 電子病歷(EMR)數據
EMR不同于以醫療機構為中心的門診或者住院病歷,是真正以患者為中心的診斷和其他檢驗數據的“數據池”,它將患者診斷過程中生成的影像和信號,如X線檢查、CT掃描等納入電子病歷中,并以統一的形式組織起來。
2.4 醫療大數據的特性
2.4.1 數據規模大(volume)
例如一個CT圖像含有大約150MB的數據,而一個基因組序列文件大小約為750MB,一個標準的病理圖則大得多,接近5GB。
2.4.2 數據結構多樣(variety)
相對于其他行業,醫學中的數據類型更加多種多樣,如電子病案中關于人口學特征的數據為純文本型;檢驗科中有關患者生理、生化指標為數字型;影像科中如B超、CT、MR、X線片等為圖像資料。
醫療數據通常會包含各種結構化表、非(半)結構化文本文檔(XML和敘述文本)、醫療影像等多種多樣的數據存儲形式。
2.4.3 數據增長快速(velocity)
一方面,醫療信息服務中包含大量在線或實時數據分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報表生成、健康指標預警等;另一方面,得益于信息技術的發展,越來越多的醫療信息被數字化,因此在很長一段時間里,醫療衛生領域數據的增長速度將依然會很快。
2.4.4 數據價值巨大(value)
毋庸置疑,數據是石油,是資產,是資源,醫療大數據不僅與每個人的個人生活息息相關,對這些數據的有效利用更關系到國家乃至全球的疾病防控、新藥品研發和頑疾攻克的能力。
2.4.5 多態性
醫療大數據包括純數據(如體檢、化驗結果)、信號(如腦電信號、心電信號等)、圖像(如B超、X線等)、文字(如主訴、現/往病史、過敏史、檢測報告等),以及用以科普、咨詢的動畫、語音盒視頻信息等多種形態的數據,是區別于其他領域數據的最顯著特征。
2.4.6 不完整性
醫療數據的搜集和處理過程經常相互脫節,這使得醫療數據庫不可能對任何疾病信息都能全面反映。大量數據來源于人工記錄,導致數據記錄的偏差和殘缺,許多數據的表達、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫療大數據的不完整性
2.4.7 時間性
患者的就診、疾病的發生過程在時間上有一個進度,醫學檢測的波形、圖像都是時間函數,這些都具有一定的時序性。
2.4.8 冗余性
醫學數據量大,每天都會產生大量信息,其中可能會包含重復、無關緊要甚至是互相矛盾的記錄。醫療大數據的主要應用
根據全球管理咨詢公司麥肯錫的一份最新報告顯示,醫療保健領域如果能夠充分有效地利用大數據資源,醫療機構和消費者便可節省高達4500億美元的費用[4]。
3.1 服務居民
居民健康指導服務系統,提供精準醫療、個性化健康保健指導,使居民能在醫院、社區及線上的服務保持持續性。例如,提供心血管、癌癥、高血壓、糖尿病等慢病干
預、管理、健康預警及健康宣教(保健方案訂閱、推送)。
醫療機構物聯網的建設,包括移動醫療、臨床監控、遠程患者監控等(例如,充血性心臟的標志之一是由于保水而增加體重,通過遠程監控體重發現相關疾病,提醒醫生及時采取治療措施,防止急性狀況發生),減少患者住院時間,減少急診量,提高家庭護理比例和門診醫生預約量。
3.2 服務醫生
臨床決策支持,如用藥分析、藥品不良反應、疾病并發癥、治療療效相關性分析、抗生素應用分析;或是制定個性化治療方案。
3.3 服務科研
包括疾病診斷與預測、提高臨床試驗設計的統計工具和算法、臨床實驗數據的分析與處理等方面,如針對重大疾病識別疾病易感染基因、極端表型人群;提供最佳治療路徑。
3.4 服務管理機構
規范性用藥評價、管理績效分析;流行病、急病等預防干預及措施評價;公眾健康監測,付款(或定價)、臨床路徑的優化等。
3.5 公眾健康服務
包括危及健康因素的監控與預警、網絡平臺、社區服務等方面。國內外醫療大數據技術應用現狀
4.1 國外醫療大數據技術應用現狀
美國遠程醫療(telemedicine)公司研制成功了一款功能強大的醫療設備“智能心臟”(smartheart),把手機變成了一款功能齊全的醫療工具,用來監測用戶可能存在的心臟病問題。智能心臟與智能手機相連,在安裝運行了相應的程序后,手機擁有“醫療級”的心臟監測功能,并能夠在30s內在手機屏幕上顯示用戶的心電圖。醫生可隨時對患者的心臟進行監測和分析,提前做好預防措施。智能心臟解決了心臟病預防方面最關鍵的問題—時間。這在心臟病預防領域是一項重大的突破性技術。目前,“智能心臟”設備已經開始在網上銷售。
意大利電信近期推出了Nuvola It Home Docto 系統,可讓在都靈Molinette 醫院的慢性病患者通過手機在家中監測自己的生理參數,相關數據將自動的通過手機發送到醫療平臺,也可以通過ADSL、WiFi 和衛星網絡得到應用。醫生通過網頁接入這
個平臺,及時獲取數據并調整治療方案。
4.2 國內醫療大數據技術應用現狀
IBM在上海的部分醫院推出了BYOD系統,即員工自費終端,用來提高醫生和護士在醫院的移動性。通過和開發商合作,推出移動護理應用,將醫生和護士的各種移動終端連在同一網絡下,便于醫生和護士了解患者在醫院的位置和健康狀況,也提高了醫生和護士的移動性。
在上海,醫聯工程橫向覆蓋全市三級醫院,縱向連通各區屬醫療機構,已覆蓋3900萬患者,建成國內最大的患者診療檔案庫,擁有8.2億條醫囑、1.8億個病案、8100萬份檢驗檢查報告和107太字節醫學影像數據;醫聯工程在服務醫改、支撐資源整合、分布式影像網絡會診、三級醫院診療信息社區調閱等方面,大幅度提升了區域衛生服務水平。
醫聯工程建成以來,對于患者,就醫更方便,“一院辦卡,跨院就醫”“就醫一站式付費”,共發放1300余萬張醫聯卡,每月提供70萬專家預約號源,人均節約就診時間60min、排隊時間45min;對于醫生,服務看診、提高醫療質量,支持每日5000人次實時診療檔案調閱、1.25萬人次重復醫療智能提醒,節約大量醫療費用;對于管理者,實現精細化管理,建成集醫療管理、績效考核和統計分析為一體的整合平臺,為醫院管理提供決策支持。醫療大數據安全
5.1 人的安全
醫療大數據安全中“人”的安全,涉及的是數據隱私保護問題。在醫療過程中,患者的個人隱私主要有:在體檢、診斷、治療、疾病控制、醫學研究過程中涉及的個人肌體特征、健康狀況、人際接觸、遺傳基因、病史病歷等[5]。這些內容還能被分為顯性與隱性,顯性一般是醫囑、診斷書、X線片、檢查結果、報告單、病歷、病案、住院患者床頭卡等數據;隱性則是指蘊藏在這些數據歷的信息,如患者血液組織所蘊含著的基因信息,患者罹患疾病所反應出的生活方式或者折射出的家族遺傳歷史等。
5.2 數據安全
一是易成為網絡攻擊的顯著目標,在網絡空間中,醫療大數據的關注高,其中含有的敏感數據會吸引潛在的攻擊者;二是對現有存儲或者安全防范措施提出挑戰,特別是數據大集中后復雜多樣的數據存放在一起,常規的安全掃描手段無法滿足安全要求。這些問題將表現在數據資源共享、數據資產界定和盤活,以及數據真實性判斷等各個方面。醫療大數據的未來展望
6.1 社會化醫學
曾任美國克利夫蘭醫學中心(Cleveland Clinic)心血管科主任的美國心臟病學家埃里克·托普(Eric Topol),新近出版了一本名為《顛覆醫療》[6]的書,在此書中他認為:互聯網的沉浸式和參與式文化培育了消費者,“每10個美國人中就有超過8位在網絡上查詢與健康相關的問題”,甚至有的“患者會自帶著一系列摘自網絡的醫學問題”去訪問醫生,對自身病情、疾病和藥物的知悉程度較過去高出很多,與此同時,醫生的權威性大幅度降低。由此可見,這就是未來的趨勢—社會化醫學。
6.2 個性化醫學
個性化醫療,是指以個人基因組數據位基礎,結合蛋白質組和代謝組等相關內環境數據,考察遺傳變異、對特定疾病的易感性和對特殊藥物的反應的關系,為患者量身設計出最佳治療方案,以期達到治療效果最大化和副作用最小化的定制醫療模式。實施個性化醫療,首先針對特定疾病亞群進行分類,然后根據這些亞群的特異性發病機制進行藥物開發,最終對這些亞群患者進行針對性治療。這些涉及醫學、生物、環境、社會和心理等諸多因素,傳統的數據分析技術會遭遇瓶頸,很難以開展針對性研究,故而引發了大數據技術的介入。在現有研究中,通過對醫療大數據的分析和利用,可以完善個性化醫療。較著名的是德國默克公司正與Regenstrief研究院一起實施的個性化醫療項目。考察遺傳變異、對特定疾病的易感染性和對特殊藥物的反應三者之間的關系,然后在藥物研發和用藥過程中考慮個人的遺傳變異因素。針對不同的患者采取不同的治療方案,或者根據患者的實際情況調整藥物劑量,可以減少副作用。總結
根據國際數據公司(International Data Corporation,IDC)的預測,中國的大數據市場在2012~2016年將增長5倍,其中最多份額將集中在政府、銀行、醫療衛生、電信等四大行業【7】。醫療行業的數據已進入大數據時代,使用大數據庫作為工具,將會輔助產生更有效、更加經濟的醫療政策,更好的產品和服務[8]醫療大數據為我國帶來了機遇的同時也帶來了挑戰,雖然只是剛剛起步,但是前景還是值得期待的。
參考文獻
[1](于廣軍 楊佳泓主編 醫療大數據 上海科學技術出版社P14)
[2](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[3](David Marco,John Wiley.Building and managing the meta data repository: a full lifecycle guide[M].New York: John Wiley & Sons Inc,2000)
[4](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[5](湯嘯天.個人健康醫療信息和隱私權保護[J].同濟大學學報:社會科學版,2006,17(3):117-123)
[6](http://)
[7](Inmon W.Building the data warehouse[M].3rd ed.New York: John Wiley & Sons Inc,2002)
[8](郭曉科主編 《大數據》 清華大學出版社 p22)
第四篇:對大數據的認識
對于大數據的認識和理解
這學期選修了網絡工程這門課程,當時是抱著掃盲的態度選的這門課程,給自己定的目標不高,只需要對一些基礎的概念和網絡結構有些認識就可以,以免以后在人前談論的時候不至于成為IT文盲,被一些專業性的技術人員所嚇倒。事實證明,態度決定一切,由于自己剛開始設定的目標就比較低,所以注定能夠上升到的水平也就不高。
經過這幾周的學習,對計算機網絡的基礎知識和大致結構有了一個粗淺的認識。由于學生本身這方面的基礎不扎實,知識結構在這方面比較薄弱,所以不能在技術方面進行深入的研究,只能對一些理論性的知識做一些了解和認識,建立起大概的知識框架。在學習過程中,魏忠老師所提及的知識中有一點印象最為深刻,關于大數據Big Data方面的提及引起了我很大的興趣,越是自己私下里做了一些閱讀和查詢(主要是維克托·邁爾-舍恩伯格的《大數據時代》和網絡上查看的一些資料)。最后提交的這篇課程總結就著重報告一下自己在閱讀了他人關于大數據的一些理論后自身的認識。
在這之前,我發現身邊很多人都提起過大數據,其中包括老師和同學。可是對于這些熱門的新技術、新趨勢人們往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什么關系?估計很少同學能說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然在聊天時不會顯得很“無知”,因為現在人們普遍都有以一種信息焦慮感,別人知道的東西我不知道,就會感到焦慮,無論這些信息對你有沒有用;二是在工作和生活環境中真正能參與實踐大數據的案例實在太少了,所以大家沒有必要花時間去知其所以然。當然我也一樣,雖然我希望能有些不一樣,但是自己實在欠缺IT這方面的知識,所以也只能查閱一些資料,翻閱了最新的專業書籍,在自己局限的認識下把這些些零散的資料碎片或不同理解論述綜合起來做一個類似于文獻綜述的報告,其實我很真誠的希望進入事物探尋本質。下面就從理論、技術、實踐這三個層面寫一下大數據的認識
大數據的一些相關理論:
最早提出大數據時代到來的是麥肯錫:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
業界(IBM 最早定義)將大數據的特征歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同。
很早就流傳著一句話:三分技術,七分數據,得數據者得天下。先不論這句話是誰說得,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了很多例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的
是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Fare cast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。這里維克托·邁爾-舍恩伯格所認為的大數據思維是:1需要全部數據樣本而不是抽樣;2關注效率而不是精確度;3關注相關性而不是因果關系。
大數據是什么?投資者眼里是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
大數據的一些相關技術: 1)云技術:
大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架來向數
十、數百或甚至數萬的電腦分配工作。可以說,云計算充當了工業革命時期的發動機的角色,而大數據則是電。
云計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。如今,在Google、Amazon、Facebook等一批互聯網企業引領下,一種行之有效的模式出現了:云計算提供基礎架構平臺,大數據應用運行在這個平臺上。
業內是這么形容兩者的關系:沒有大數據的信息積淀,則云計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大數據的信息積淀再豐富,也終究只是鏡花水月。
那么大數據到底需要哪些云計算技術呢?
這里暫且列舉一些,比如虛擬化技術,分布式處理技術,海量數據的存儲和管理技術,NOSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。
2)分布式技術:
分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分布式處理系統的定義。
3)感知技術:
大數據的采集和感知技術的發展是緊密聯系的。以傳感器技術,指紋識別技術,RFID技術,坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的數據信息。
其實,這些感知被逐漸捕獲的過程就是就世界被數據化的過程,一旦世界被完全數據化了,那么世界的本質也就是信息了
大數據的實踐:
政府各個部門都握有構成社會基礎的原始數據,比如,氣象數據,金融數據,信用數據,電力數據,煤氣數據,自來水數據,道路交通數據,客運數據,安全刑事案件數據,住房數據,海關數據,出入境數據,旅游數據,醫療數據,教育數據,環保數據等等。這些數據在每個政府部門里面看起來是單一的,靜態的。
但是,如果政府可以將這些數據關聯起來,并對這些數據進行有效的關聯分析和統一管理,這些數據必定將獲得新生,其價值是無法估量的。
具體來說,現在城市都在走向智能和智慧,比如,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依托于大數據,可以說大數據是智慧的核心能源。從國內整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通信網絡和數據平臺等基礎設施建設投資規模接近5000億元。“十二五”期間智慧城市建設拉動的設備投資規模將達1萬億元人民幣。大數據為智慧城市的各個領域提供決策支持。在城市規劃方面,通過對城市地理、氣象等自然信息和經濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻性。在交通管理方面,通過對道路交通信息的實時挖掘,能有效緩解交通擁堵,并快速響應突發狀況,為城市交通的良性運轉提供科學的決策依據。在輿情監控方面,通過網絡關鍵詞搜索及語義智能分析,能提高輿情分析的及時性、全面性,全面掌握社情民意,提高公共服務能力,應對網絡突發的公共事件,打擊違法犯罪。在安防與防災領域,通過大數據的挖掘,可以及時發現人為或自然災害、恐怖事件,提高應急處理能力和安全防范能力。
學生在閱讀了大數據相關的一些書籍和文章之后,提取出的一些觀點和理論,并稍加了自己對大數據的一些認識,寫成了這篇課程總結,因為自身的專業性不強,欠缺這方面的知識和技術,所以有些說法可能存在漏洞或者錯誤,希望老師不要見笑并加以指正。最后感謝老師這兩個月來的教導。老師幽默的語言,靈活的教學方式營造了活躍的課堂環境,這些都得到了同學們的廣泛好評。最后再次感謝教授!
第五篇:中小學教育中的大數據應用認識 - 副本
中小學教育中的大數據應用認識
摘要:大數據意義之“大”,更深層次的在于對海量數據的采集處理、統計分析、挖掘應用。教育大數據的分析應用,是教育信息化發展背景下的教育教學管理方式的創新摸索,是未來教育教學改革、教育質量監控的數據依據。
大數據就是巨量的數據,典型為PB或者EB存儲數量級的數據。Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,按照進率1024(2的十次方)遞增,按照目前主流硬盤TB單位計算,一個PB概念的存儲就不是一個普通機房所能容納,而EB存儲或許只有搜索引擎公司才具備。
大數據意義之“大”,更深層次的在于對海量數據的采集處理、統計分析、挖掘應用,而且這些分析處理并不是一般數據庫和軟件技術所能承受,而必然采用分布式架構,依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
所以,不能簡單地以數據的規模大小來界定大數據,而是要注重是否滿足用戶需求的數據處理與分析的復雜程度。再者,大數據在教育中的應用,從發展階段或者從應用上來看,我覺得也可以分為兩個層次。
一、教育大數據的資源共享功能 2012 年9 月29 日,國務委員劉延東在全國教育信息化工作電視電話會議上提出:“十二五”期間,要以建設好“三通兩平臺”為抓手,也就是“寬帶網絡校校通、優質資源班班通、網絡學習空間人人通”,建設教育資源公共服務平臺和教育管理公共服務平臺。抓住機遇,乘勢而上,開拓進取,以信息化帶動教育現代化,促進我國教育事業科學發展的重大戰略任務。
教育信息化建設目前大力發展,“三通兩平臺”建設為教育的大數據應用奠定了堅實的基礎。教育教學管理涉及的大數據非常廣泛。在教育管理平臺、資源管理平臺、在線學習的平臺和課程管理平臺、視頻直錄播平臺、校園一卡通等等這些系統中,日常教育教學活動中所產生的管理人員、教師、學生以及家長等各類行為數據,如師生基本信息、教育管理及考勤、學籍學分處理、教學活動信息、教育教學研究、設備儀器管理、各類通訊信息,都可以成為教育大數據。
在這個信息時代,大數據的資源共享應用在教育信息化中起到越來越重要的作用,在教育教學中從很大程度上幫助了教師創新教學模式和教學方法。而如何用好大數據深層次的功能,是我們面臨的更加重要的課題。
二、教育大數據的分析應用功能
有人說:我們正在使用大數據,正在下載文字、圖片、視頻、課件,正在利用平臺及平臺資源開展一系列教育教學活動。的確,這是應用,但不是分析應用,不是大數據層次的應用。
2012年,浙江諸暨、東陽相繼出現教育云概念。諸暨區域教育云以軟硬件系統需求角度出發,東陽教育云全國規模化應用試點以資源建設角度出發,相繼獲得了省級、國家級認可,其目的都是為了配合教育教學應用推進而展開。這是教育相對發達省份浙江的兩個縣級市,在教育信息化發展的今天,為適應日益增長的教育教學應用實際需求而進行的新模式的探索。
大數據用最原始的方式入“云”,簡單點說,是每一個人、每一個部門、每一個家庭、每一個行業,不同個體、單位進行各類行為操作的匯總。記錄的不單單的輸入的數據本身,而延伸植入了輸入者本身的一切相關聯信息。當你在論壇發表一條消息,你的資料同時就被關聯,一起被關聯的還有你曾經在網絡上發布其他信息,以及與你相關的聯系人。這不是簡單的數據拷貝,也不是數據錄入員的簡單錄入,這樣的情況下,教育資源云技術化,首先就擺在了我們面前。
(一)云計算與大數據的關系
2006年8月9日,Google首席執行官埃里克·施密特(Eric Schmidt)在搜索引擎大會(SES San Jose 2006)首次提出“云計算”(Cloud Computing)的概念。云計算是為適應越來越大的計算、越來越多的數據、越來越快的速度要求而產生的主流IT技術。當云計算出現了之后,大數據概念自然而然的進入IT視野,并迅速引發全球范圍內深刻的技術變革,乃至應用到各個領域。
如果說大數據是戰略資源,云計算則是調配資源的指揮系統。云計算和大數據關系密切,兩者相輔相成,不可分割。大數據是云計算的對象,脫離了大數據的應用實際,云計算就沒有生命力。云計算是大數據的基礎,為大數據提供了可以自由擴展、相對適宜的存儲空間資源,還使得對大數據的分析處理能夠及時有效的進行。所以,云計算技術的逐步完善,為教育大數據深層次應用提供了可能。
(二)教育大數據應用功能剖析
1、大數據能有效監控教育教學質量
中小學教育教學質量監控具有“全要素”、“全過程”、“全員性”、“全方位” 等四大特點。“全要素”是指教師教學過程,學生的學習掌握,管理人員工作質量等等所有因素;“全過程”是指教育教學的全程,包括教學過程的教學計劃、教學實施、教學反思階段,學生的入學、學習、考核、畢業等等;“全員性”是指有關中小學的教師、學生、管理工勤人員的一切相關內容;“全方位”是指不僅包括教學過程、教學效果,也包括在科學的基礎上,對教學過程實施有效控制。有了現代化的教育教學環境下大數據平臺的支撐,四“全”問題引刃而解。
(1)及時準確反饋學生信息
一般各類課程中心網站提供了學習各學科課程知識的功能,而目前流行的慕課(MOOC)平臺,參與者可以在線提問,其他人可以進行交流解答,也有可能穿插一些小測試,能夠反饋學習情況。在這樣的教學過程中,產生了大量的實時數據,被慕課平臺記錄,并經過相應分析處理,原來雜亂的單個數據累積起來之后,學生的行為就能呈現出規律性,科學的反映出學生在整個教學過程中所處的狀態及存在的問題。這樣就可以有根據地調整學習內容或有針對性地進行學習,大幅提高教學質量。根據大數據總體分析結果,管理部門也可發現傳統模式下無法發現的問題,并采取針對性解決方案,進行更有利的課程設計,更好地促進教育的發展。
在信息化的環境中,老師在設計某課的時候,可以逐步提出問題,并由學生反饋相應的答案到移動終端。老師在教授過程中,時間節點由老師控制,而這個時候學生只需要在相應的知識點這里點擊“A”或者“B”,“是”或者“否”,如同鼠標左右鍵的點擊一般簡單,等到講解完畢之后,老師馬上就能知道,50%的學生在講到第3點的時候已經出現錯誤,80%的學生在第5點的時候,就普遍沒能掌握。
(2)科學比對不同類型數據 擁有Nike+標志的耐克鞋,表示內含芯片和傳感器,可以記錄步伐、步速和跳躍的高度等數據。Nike同時也建立了一種新標準,并賦予一個標準化的數值Nikefuel,它能夠不受時間和項目限制,以特定的方式記錄個人運動表現及方式,并能將不同個體的不同運動進行對比。此外,Nikefuel也能起到平臺的作用,串聯整個Nike+社區的人進行合作溝通、比賽交流,再相互激勵,進行更多的運動。此種模式下,如果羅杰·費德勒穿戴Nike+打網球,而科比·布萊恩特通過Nike+打籃球,但是他們仍然可以通過Nikefuel 值互相進行比賽。
如此,我們便可設想,在教育部門組織開展教師或者學生的各項考評或者比賽時候,有困難的情況下就沒有必要一定要分組分學科進行。調用中小學各學科以往的成績統計信息的大數據作為大樣本依據,小學組參賽選手成績與小學組大數據比較,中學組參賽選手成績與中學組大數據比較,得出各自的相對位次,即可確定勝負。
即使是嚴謹如高考,考生也完全可以自主選擇考試時間分批進行。高考試卷由電腦隨機出卷、自動打印、考生答題、自動回收、智能閱卷,實現一系列全自動化模式,絕對保證公平公正。其中最重要的一點,是考生試題的不同與成績判定準則。我們可以根據全市、全省、全國的大數據成績進行比對,考生的試題無論難易程度如何,均可自動分析難度系數評定分數;也可以根據答題時間、答題方式、答題要點掌握作為一些輔助評定指標。如A、B兩考生,同樣的答對了X題,但是大數據記錄的時間顯示A比B快,則A成績比B高;如事先設定M答題策略優于N答題策略,則得出兩個相同答案且時間相等的考生,答M的考生優秀。
2、大數據能綜合優化教育教學策略
在對教育教學質量進行有效監控的前提下,大數據可以及時在調整教育教學策略中提供依據。通過對學習者的反饋信息進行分析,可以適當調整教育教學流程。
如:教學設計A知識點6分鐘,B知識點8分鐘,總計14分鐘。在進行相應課內測試后,馬上就能得出A掌握度80%,B掌握度70%。這樣,立刻就能在下一堂課調整教學設計,A知識點5分鐘,B知識點9分鐘;或者根據不同情況的需求,A知識點7分鐘,B知識點7分鐘。
3、大數據能有效建立師生個體模型
該模型可以包括師生個體的教學狀態數據、思想行為數據、知識體系數據等檔案記錄。教學狀態數據,如學生在學校中各學科、各活動的參與度,教師可以是某一課程中的教學信息匯總,包括教學設計、課件制作、課程教授、教學反思等信息,還可以包括網絡即時課程評估、再設計,大幅度提升教學效率;思想行為數據來說,學生模型可包括學生在學校中進校開始的一系列思想行為數據,包括按時上課下課、體育課運動量、食堂就餐信息,甚至包括到過的學校每一個地方、交流過的每一個人員信息;知識體系數據可以是記錄學生一系列課程中的表現,如回答各類問題的數量、答案的正確率、花費的時間等等。
在教育信息化大形勢下,教育軟件硬件持續投入、智慧校園建設不斷加強、教育技術研究深入開展,全國2億中小學生在學習、工作、生活中衍生的無可估計的大數據,為教育教學改革良性發展提供了充分依據與良好機遇,充分吸收、分析、挖掘和應用這些數據,將是教育教學管理信息化發展的必然追求。
參考文獻:
[1] 劉延東.把握機遇 加快推進 開創教育信息化工作新局面[R].全國教育信息化工作電視電話會議,2012.[2] 周湘林.大數據時代的教育管理變革[J].中國教育學刊,2014(10):25-30.[3] 何清.大數據與云計算[J].科技促進發展,2014(01):35-40.[4] 韓志君.簡析大數據在教育領域的運用[J].科技視界,2014(06):334 [5] 田芳.淺議中小學教學質量監控體系的建構[J].當代教育論壇,2010(5):58-60.