第一篇:對(duì)大數(shù)據(jù)的認(rèn)識(shí)
對(duì)于大數(shù)據(jù)的認(rèn)識(shí)和理解
這學(xué)期選修了網(wǎng)絡(luò)工程這門(mén)課程,當(dāng)時(shí)是抱著掃盲的態(tài)度選的這門(mén)課程,給自己定的目標(biāo)不高,只需要對(duì)一些基礎(chǔ)的概念和網(wǎng)絡(luò)結(jié)構(gòu)有些認(rèn)識(shí)就可以,以免以后在人前談?wù)摰臅r(shí)候不至于成為IT文盲,被一些專(zhuān)業(yè)性的技術(shù)人員所嚇倒。事實(shí)證明,態(tài)度決定一切,由于自己剛開(kāi)始設(shè)定的目標(biāo)就比較低,所以注定能夠上升到的水平也就不高。
經(jīng)過(guò)這幾周的學(xué)習(xí),對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的基礎(chǔ)知識(shí)和大致結(jié)構(gòu)有了一個(gè)粗淺的認(rèn)識(shí)。由于學(xué)生本身這方面的基礎(chǔ)不扎實(shí),知識(shí)結(jié)構(gòu)在這方面比較薄弱,所以不能在技術(shù)方面進(jìn)行深入的研究,只能對(duì)一些理論性的知識(shí)做一些了解和認(rèn)識(shí),建立起大概的知識(shí)框架。在學(xué)習(xí)過(guò)程中,魏忠老師所提及的知識(shí)中有一點(diǎn)印象最為深刻,關(guān)于大數(shù)據(jù)Big Data方面的提及引起了我很大的興趣,越是自己私下里做了一些閱讀和查詢(主要是維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時(shí)代》和網(wǎng)絡(luò)上查看的一些資料)。最后提交的這篇課程總結(jié)就著重報(bào)告一下自己在閱讀了他人關(guān)于大數(shù)據(jù)的一些理論后自身的認(rèn)識(shí)。
在這之前,我發(fā)現(xiàn)身邊很多人都提起過(guò)大數(shù)據(jù),其中包括老師和同學(xué)??墒菍?duì)于這些熱門(mén)的新技術(shù)、新趨勢(shì)人們往往趨之若鶩卻又很難說(shuō)的透徹,如果你問(wèn)他大數(shù)據(jù)和你有什么關(guān)系?估計(jì)很少同學(xué)能說(shuō)出一二三來(lái)。究其原因,一是因?yàn)榇蠹覍?duì)新技術(shù)有著相同的原始渴求,至少知其然在聊天時(shí)不會(huì)顯得很“無(wú)知”,因?yàn)楝F(xiàn)在人們普遍都有以一種信息焦慮感,別人知道的東西我不知道,就會(huì)感到焦慮,無(wú)論這些信息對(duì)你有沒(méi)有用;二是在工作和生活環(huán)境中真正能參與實(shí)踐大數(shù)據(jù)的案例實(shí)在太少了,所以大家沒(méi)有必要花時(shí)間去知其所以然。當(dāng)然我也一樣,雖然我希望能有些不一樣,但是自己實(shí)在欠缺IT這方面的知識(shí),所以也只能查閱一些資料,翻閱了最新的專(zhuān)業(yè)書(shū)籍,在自己局限的認(rèn)識(shí)下把這些些零散的資料碎片或不同理解論述綜合起來(lái)做一個(gè)類(lèi)似于文獻(xiàn)綜述的報(bào)告,其實(shí)我很真誠(chéng)的希望進(jìn)入事物探尋本質(zhì)。下面就從理論、技術(shù)、實(shí)踐這三個(gè)層面寫(xiě)一下大數(shù)據(jù)的認(rèn)識(shí)
大數(shù)據(jù)的一些相關(guān)理論:
最早提出大數(shù)據(jù)時(shí)代到來(lái)的是麥肯錫:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!?/p>
業(yè)界(IBM 最早定義)將大數(shù)據(jù)的特征歸納為4個(gè)“V”(量Volume,多樣Variety,價(jià)值Value,速Velocity),或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);第二,數(shù)據(jù)類(lèi)型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
很早就流傳著一句話:三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。先不論這句話是誰(shuí)說(shuō)得,但是這句話的正確性已經(jīng)不用去論證了。維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書(shū)中舉了很多例證,都是為了說(shuō)明一個(gè)道理:在大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)的時(shí)候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價(jià)值。書(shū)中,作者提及最多的
是Google如何利用人們的搜索記錄挖掘數(shù)據(jù)二次利用價(jià)值,比如預(yù)測(cè)某地流感爆發(fā)的趨勢(shì);Amazon如何利用用戶的購(gòu)買(mǎi)和瀏覽歷史數(shù)據(jù)進(jìn)行有針對(duì)性的書(shū)籍購(gòu)買(mǎi)推薦,以此有效提升銷(xiāo)售量;Fare cast如何利用過(guò)去十年所有的航線機(jī)票價(jià)格打折數(shù)據(jù),來(lái)預(yù)測(cè)用戶購(gòu)買(mǎi)機(jī)票的時(shí)機(jī)是否合適。這里維克托·邁爾-舍恩伯格所認(rèn)為的大數(shù)據(jù)思維是:1需要全部數(shù)據(jù)樣本而不是抽樣;2關(guān)注效率而不是精確度;3關(guān)注相關(guān)性而不是因果關(guān)系。
大數(shù)據(jù)是什么?投資者眼里是金光閃閃的兩個(gè)字:資產(chǎn)。比如,F(xiàn)acebook上市時(shí),評(píng)估機(jī)構(gòu)評(píng)定的有效資產(chǎn)中大部分都是其社交網(wǎng)站上的數(shù)據(jù)。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)的一些相關(guān)技術(shù): 1)云技術(shù):
大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來(lái)向數(shù)
十、數(shù)百或甚至數(shù)萬(wàn)的電腦分配工作??梢哉f(shuō),云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色,而大數(shù)據(jù)則是電。
云計(jì)算思想的起源是麥卡錫在上世紀(jì)60年代提出的:把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。如今,在Google、Amazon、Facebook等一批互聯(lián)網(wǎng)企業(yè)引領(lǐng)下,一種行之有效的模式出現(xiàn)了:云計(jì)算提供基礎(chǔ)架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用運(yùn)行在這個(gè)平臺(tái)上。
業(yè)內(nèi)是這么形容兩者的關(guān)系:沒(méi)有大數(shù)據(jù)的信息積淀,則云計(jì)算的計(jì)算能力再?gòu)?qiáng)大,也難以找到用武之地;沒(méi)有云計(jì)算的處理能力,則大數(shù)據(jù)的信息積淀再豐富,也終究只是鏡花水月。
那么大數(shù)據(jù)到底需要哪些云計(jì)算技術(shù)呢?
這里暫且列舉一些,比如虛擬化技術(shù),分布式處理技術(shù),海量數(shù)據(jù)的存儲(chǔ)和管理技術(shù),NOSQL、實(shí)時(shí)流數(shù)據(jù)處理、智能分析技術(shù)(類(lèi)似模式識(shí)別以及自然語(yǔ)言理解)等。
2)分布式技術(shù):
分布式處理系統(tǒng)可以將不同地點(diǎn)的或具有不同功能的或擁有不同數(shù)據(jù)的多臺(tái)計(jì)算機(jī)用通信網(wǎng)絡(luò)連接起來(lái),在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調(diào)地完成信息處理任務(wù)—這就是分布式處理系統(tǒng)的定義。
3)感知技術(shù):
大數(shù)據(jù)的采集和感知技術(shù)的發(fā)展是緊密聯(lián)系的。以傳感器技術(shù),指紋識(shí)別技術(shù),RFID技術(shù),坐標(biāo)定位技術(shù)等為基礎(chǔ)的感知能力提升同樣是物聯(lián)網(wǎng)發(fā)展的基石。全世界的工業(yè)設(shè)備、汽車(chē)、電表上有著無(wú)數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,都會(huì)產(chǎn)生海量的數(shù)據(jù)信息。
其實(shí),這些感知被逐漸捕獲的過(guò)程就是就世界被數(shù)據(jù)化的過(guò)程,一旦世界被完全數(shù)據(jù)化了,那么世界的本質(zhì)也就是信息了
大數(shù)據(jù)的實(shí)踐:
政府各個(gè)部門(mén)都握有構(gòu)成社會(huì)基礎(chǔ)的原始數(shù)據(jù),比如,氣象數(shù)據(jù),金融數(shù)據(jù),信用數(shù)據(jù),電力數(shù)據(jù),煤氣數(shù)據(jù),自來(lái)水?dāng)?shù)據(jù),道路交通數(shù)據(jù),客運(yùn)數(shù)據(jù),安全刑事案件數(shù)據(jù),住房數(shù)據(jù),海關(guān)數(shù)據(jù),出入境數(shù)據(jù),旅游數(shù)據(jù),醫(yī)療數(shù)據(jù),教育數(shù)據(jù),環(huán)保數(shù)據(jù)等等。這些數(shù)據(jù)在每個(gè)政府部門(mén)里面看起來(lái)是單一的,靜態(tài)的。
但是,如果政府可以將這些數(shù)據(jù)關(guān)聯(lián)起來(lái),并對(duì)這些數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián)分析和統(tǒng)一管理,這些數(shù)據(jù)必定將獲得新生,其價(jià)值是無(wú)法估量的。
具體來(lái)說(shuō),現(xiàn)在城市都在走向智能和智慧,比如,智能電網(wǎng)、智慧交通、智慧醫(yī)療、智慧環(huán)保、智慧城市,這些都依托于大數(shù)據(jù),可以說(shuō)大數(shù)據(jù)是智慧的核心能源。從國(guó)內(nèi)整體投資規(guī)模來(lái)看,到2012年底全國(guó)開(kāi)建智慧城市的城市數(shù)超過(guò)180個(gè),通信網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)等基礎(chǔ)設(shè)施建設(shè)投資規(guī)模接近5000億元?!笆濉逼陂g智慧城市建設(shè)拉動(dòng)的設(shè)備投資規(guī)模將達(dá)1萬(wàn)億元人民幣。大數(shù)據(jù)為智慧城市的各個(gè)領(lǐng)域提供決策支持。在城市規(guī)劃方面,通過(guò)對(duì)城市地理、氣象等自然信息和經(jīng)濟(jì)、社會(huì)、文化、人口等人文社會(huì)信息的挖掘,可以為城市規(guī)劃提供決策,強(qiáng)化城市管理服務(wù)的科學(xué)性和前瞻性。在交通管理方面,通過(guò)對(duì)道路交通信息的實(shí)時(shí)挖掘,能有效緩解交通擁堵,并快速響應(yīng)突發(fā)狀況,為城市交通的良性運(yùn)轉(zhuǎn)提供科學(xué)的決策依據(jù)。在輿情監(jiān)控方面,通過(guò)網(wǎng)絡(luò)關(guān)鍵詞搜索及語(yǔ)義智能分析,能提高輿情分析的及時(shí)性、全面性,全面掌握社情民意,提高公共服務(wù)能力,應(yīng)對(duì)網(wǎng)絡(luò)突發(fā)的公共事件,打擊違法犯罪。在安防與防災(zāi)領(lǐng)域,通過(guò)大數(shù)據(jù)的挖掘,可以及時(shí)發(fā)現(xiàn)人為或自然災(zāi)害、恐怖事件,提高應(yīng)急處理能力和安全防范能力。
學(xué)生在閱讀了大數(shù)據(jù)相關(guān)的一些書(shū)籍和文章之后,提取出的一些觀點(diǎn)和理論,并稍加了自己對(duì)大數(shù)據(jù)的一些認(rèn)識(shí),寫(xiě)成了這篇課程總結(jié),因?yàn)樽陨淼膶?zhuān)業(yè)性不強(qiáng),欠缺這方面的知識(shí)和技術(shù),所以有些說(shuō)法可能存在漏洞或者錯(cuò)誤,希望老師不要見(jiàn)笑并加以指正。最后感謝老師這兩個(gè)月來(lái)的教導(dǎo)。老師幽默的語(yǔ)言,靈活的教學(xué)方式營(yíng)造了活躍的課堂環(huán)境,這些都得到了同學(xué)們的廣泛好評(píng)。最后再次感謝教授!
第二篇:對(duì)醫(yī)療大數(shù)據(jù)的認(rèn)識(shí)
重慶大學(xué)研究生文獻(xiàn)綜述
對(duì)醫(yī)療大數(shù)據(jù)的認(rèn)識(shí)
姓
名: 學(xué)
號(hào): 指導(dǎo)教師: 專(zhuān)
業(yè):
重慶大學(xué)光電工程學(xué)院
二O一六年十一月 醫(yī)療大數(shù)據(jù)產(chǎn)生的背景
在任何一個(gè)初具規(guī)模的醫(yī)院,每天接待上萬(wàn)的患者前來(lái)就診,患者的基本信息、影像信息與其他特殊診療信息匯集在一起是一個(gè)龐大的數(shù)據(jù)。據(jù)統(tǒng)計(jì),上海市區(qū)域醫(yī)療信息平臺(tái)(上海市“醫(yī)聯(lián)工程”及縣區(qū)衛(wèi)生數(shù)據(jù)中心)已經(jīng)積累了覆蓋3900萬(wàn)人群、1400TB數(shù)據(jù)量的電子診療與健康檔案等醫(yī)療衛(wèi)生數(shù)據(jù)(涵蓋了全市38家三級(jí)醫(yī)院3900萬(wàn)就診人群的醫(yī)療信息,包括患者基本信息、就診信息、健康檔案、檢驗(yàn)及影像檢查報(bào)告、醫(yī)學(xué)影像圖像文件、住院相關(guān)病歷、醫(yī)保結(jié)算等醫(yī)療衛(wèi)生數(shù)據(jù),涉及就診記錄2.1億條,處方記錄9.1億條)。
日積月累,這個(gè)數(shù)據(jù)量將會(huì)持續(xù)快速增長(zhǎng),為醫(yī)院的數(shù)據(jù)存儲(chǔ)、集成、調(diào)用等應(yīng)用帶來(lái)巨大壓力。除了數(shù)據(jù)規(guī)模巨大之外,醫(yī)療行業(yè)的數(shù)據(jù)類(lèi)型和結(jié)構(gòu)極其復(fù)雜,如PACS影像、B超、病例分析等業(yè)務(wù)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)復(fù)雜,并且對(duì)傳統(tǒng)的處理方法和技術(shù)帶來(lái)巨大挑戰(zhàn)【1】。醫(yī)療大數(shù)據(jù)得到人們的關(guān)注,并渴望有一種新的技術(shù)可以從這些看似雜亂無(wú)章的數(shù)據(jù)中得到價(jià)值。目前,為了提高人們的健康水平以及醫(yī)療水平,醫(yī)療行業(yè)在大數(shù)據(jù)環(huán)境下的各個(gè)領(lǐng)域異?;钴S[2]。醫(yī)療大數(shù)據(jù)的相關(guān)概念
2.1 醫(yī)療大數(shù)據(jù)的定義
醫(yī)療數(shù)據(jù)是醫(yī)生對(duì)患者診療和治療過(guò)程中產(chǎn)生的數(shù)據(jù),包括患者基本數(shù)據(jù)、入出轉(zhuǎn)數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學(xué)影像數(shù)據(jù)、醫(yī)學(xué)管理、經(jīng)濟(jì)數(shù)據(jù)等,以患者為中心,成為醫(yī)療信息的主要來(lái)源。
隨著醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程的不斷加快,醫(yī)療數(shù)據(jù)的類(lèi)型和規(guī)模正以前所未有的速度快速的增長(zhǎng),以至于無(wú)法利用目前主流軟件工具,在合理的時(shí)間內(nèi)達(dá)到擷取、管理并整合成為能夠幫助醫(yī)院進(jìn)行更積極目的經(jīng)營(yíng)決策的有用信息。規(guī)模巨大的臨床實(shí)驗(yàn)數(shù)據(jù)、疾病診斷數(shù)據(jù)以及居民行為健康數(shù)據(jù)等匯聚在一起形成了醫(yī)療大數(shù)據(jù)。
2.2 醫(yī)療大數(shù)據(jù)的主要來(lái)源
2.2.1 制藥企業(yè)、生命科學(xué)
藥物研發(fā)所產(chǎn)生的數(shù)據(jù)是相當(dāng)密集的,對(duì)于中小型的企業(yè)也在百億字節(jié)(TB)以上的。在生命科學(xué)領(lǐng)域,隨著計(jì)算能力和基因測(cè)序能力逐步增加,美國(guó)哈弗醫(yī)學(xué)院個(gè)人基因組項(xiàng)目負(fù)責(zé)人詹姆·鮑比就認(rèn)為,到2015年,將會(huì)有5000萬(wàn)人擁有個(gè)人基因圖譜,而一個(gè)基因組序列文件大小約為750MB[3]。
2.2.2 臨床醫(yī)療、實(shí)驗(yàn)室數(shù)據(jù)
臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,使得醫(yī)療機(jī)構(gòu)面臨的數(shù)據(jù)增長(zhǎng)非???,一張普通CT圖像含有大約150MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5GB。如果將這些數(shù)據(jù)量乘
以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院積累的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。
2.2.3 費(fèi)用、醫(yī)療保險(xiǎn)、利用率
患者在就醫(yī)過(guò)程中產(chǎn)生的費(fèi)用信息、報(bào)銷(xiāo)信息、新農(nóng)合基金使用情況等。
2.2.4 健康管理、社交網(wǎng)絡(luò)
隨著移動(dòng)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,便攜化的生理設(shè)備正在普及,如果個(gè)人健康信息都能連入互聯(lián)網(wǎng),那么由此產(chǎn)生的數(shù)據(jù)量將不可估量。
2.3 醫(yī)療數(shù)據(jù)的基本類(lèi)型
2.3.1 醫(yī)院信息系統(tǒng)(HIS)數(shù)據(jù)
HIS是醫(yī)院的核心系統(tǒng),是對(duì)醫(yī)院及其所屬各部門(mén)的人流、物流、財(cái)流進(jìn)行綜合管理的系統(tǒng),圍繞著醫(yī)療活動(dòng)的各個(gè)階段產(chǎn)生相關(guān)數(shù)據(jù),包括各門(mén)診數(shù)據(jù)及病房數(shù)據(jù)兩大主流數(shù)據(jù)流。
2.3.2 檢驗(yàn)信息系統(tǒng)(LIS)數(shù)據(jù)
LIS是HIS的一個(gè)重要組成部分,其主要功能是將實(shí)驗(yàn)儀器傳出的檢驗(yàn)數(shù)據(jù)經(jīng)分析后,生成檢驗(yàn)報(bào)告,通過(guò)網(wǎng)絡(luò)存儲(chǔ)在數(shù)據(jù)庫(kù)中,使醫(yī)生能夠方便、及時(shí)的看到患者的檢驗(yàn)結(jié)果。
2.3.3 醫(yī)學(xué)影像存檔和傳輸系統(tǒng)(PACS)數(shù)據(jù)
PACS數(shù)據(jù)主要是將數(shù)字化醫(yī)院影像科室日常核磁、CT、超聲、各種X線機(jī)、各種紅外儀等設(shè)備產(chǎn)生的圖像存儲(chǔ)起來(lái)。
2.3.4 電子病歷(EMR)數(shù)據(jù)
EMR不同于以醫(yī)療機(jī)構(gòu)為中心的門(mén)診或者住院病歷,是真正以患者為中心的診斷和其他檢驗(yàn)數(shù)據(jù)的“數(shù)據(jù)池”,它將患者診斷過(guò)程中生成的影像和信號(hào),如X線檢查、CT掃描等納入電子病歷中,并以統(tǒng)一的形式組織起來(lái)。
2.4 醫(yī)療大數(shù)據(jù)的特性
2.4.1 數(shù)據(jù)規(guī)模大(volume)
例如一個(gè)CT圖像含有大約150MB的數(shù)據(jù),而一個(gè)基因組序列文件大小約為750MB,一個(gè)標(biāo)準(zhǔn)的病理圖則大得多,接近5GB。
2.4.2 數(shù)據(jù)結(jié)構(gòu)多樣(variety)
相對(duì)于其他行業(yè),醫(yī)學(xué)中的數(shù)據(jù)類(lèi)型更加多種多樣,如電子病案中關(guān)于人口學(xué)特征的數(shù)據(jù)為純文本型;檢驗(yàn)科中有關(guān)患者生理、生化指標(biāo)為數(shù)字型;影像科中如B超、CT、MR、X線片等為圖像資料。
醫(yī)療數(shù)據(jù)通常會(huì)包含各種結(jié)構(gòu)化表、非(半)結(jié)構(gòu)化文本文檔(XML和敘述文本)、醫(yī)療影像等多種多樣的數(shù)據(jù)存儲(chǔ)形式。
2.4.3 數(shù)據(jù)增長(zhǎng)快速(velocity)
一方面,醫(yī)療信息服務(wù)中包含大量在線或?qū)崟r(shí)數(shù)據(jù)分析處理,例如,臨床決策支持中的診斷和用藥建議、流行病分析報(bào)表生成、健康指標(biāo)預(yù)警等;另一方面,得益于信息技術(shù)的發(fā)展,越來(lái)越多的醫(yī)療信息被數(shù)字化,因此在很長(zhǎng)一段時(shí)間里,醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)的增長(zhǎng)速度將依然會(huì)很快。
2.4.4 數(shù)據(jù)價(jià)值巨大(value)
毋庸置疑,數(shù)據(jù)是石油,是資產(chǎn),是資源,醫(yī)療大數(shù)據(jù)不僅與每個(gè)人的個(gè)人生活息息相關(guān),對(duì)這些數(shù)據(jù)的有效利用更關(guān)系到國(guó)家乃至全球的疾病防控、新藥品研發(fā)和頑疾攻克的能力。
2.4.5 多態(tài)性
醫(yī)療大數(shù)據(jù)包括純數(shù)據(jù)(如體檢、化驗(yàn)結(jié)果)、信號(hào)(如腦電信號(hào)、心電信號(hào)等)、圖像(如B超、X線等)、文字(如主訴、現(xiàn)/往病史、過(guò)敏史、檢測(cè)報(bào)告等),以及用以科普、咨詢的動(dòng)畫(huà)、語(yǔ)音盒視頻信息等多種形態(tài)的數(shù)據(jù),是區(qū)別于其他領(lǐng)域數(shù)據(jù)的最顯著特征。
2.4.6 不完整性
醫(yī)療數(shù)據(jù)的搜集和處理過(guò)程經(jīng)常相互脫節(jié),這使得醫(yī)療數(shù)據(jù)庫(kù)不可能對(duì)任何疾病信息都能全面反映。大量數(shù)據(jù)來(lái)源于人工記錄,導(dǎo)致數(shù)據(jù)記錄的偏差和殘缺,許多數(shù)據(jù)的表達(dá)、記錄本身也具有不確定性,病例和病案尤為突出,這些都造成了醫(yī)療大數(shù)據(jù)的不完整性
2.4.7 時(shí)間性
患者的就診、疾病的發(fā)生過(guò)程在時(shí)間上有一個(gè)進(jìn)度,醫(yī)學(xué)檢測(cè)的波形、圖像都是時(shí)間函數(shù),這些都具有一定的時(shí)序性。
2.4.8 冗余性
醫(yī)學(xué)數(shù)據(jù)量大,每天都會(huì)產(chǎn)生大量信息,其中可能會(huì)包含重復(fù)、無(wú)關(guān)緊要甚至是互相矛盾的記錄。醫(yī)療大數(shù)據(jù)的主要應(yīng)用
根據(jù)全球管理咨詢公司麥肯錫的一份最新報(bào)告顯示,醫(yī)療保健領(lǐng)域如果能夠充分有效地利用大數(shù)據(jù)資源,醫(yī)療機(jī)構(gòu)和消費(fèi)者便可節(jié)省高達(dá)4500億美元的費(fèi)用[4]。
3.1 服務(wù)居民
居民健康指導(dǎo)服務(wù)系統(tǒng),提供精準(zhǔn)醫(yī)療、個(gè)性化健康保健指導(dǎo),使居民能在醫(yī)院、社區(qū)及線上的服務(wù)保持持續(xù)性。例如,提供心血管、癌癥、高血壓、糖尿病等慢病干
預(yù)、管理、健康預(yù)警及健康宣教(保健方案訂閱、推送)。
醫(yī)療機(jī)構(gòu)物聯(lián)網(wǎng)的建設(shè),包括移動(dòng)醫(yī)療、臨床監(jiān)控、遠(yuǎn)程患者監(jiān)控等(例如,充血性心臟的標(biāo)志之一是由于保水而增加體重,通過(guò)遠(yuǎn)程監(jiān)控體重發(fā)現(xiàn)相關(guān)疾病,提醒醫(yī)生及時(shí)采取治療措施,防止急性狀況發(fā)生),減少患者住院時(shí)間,減少急診量,提高家庭護(hù)理比例和門(mén)診醫(yī)生預(yù)約量。
3.2 服務(wù)醫(yī)生
臨床決策支持,如用藥分析、藥品不良反應(yīng)、疾病并發(fā)癥、治療療效相關(guān)性分析、抗生素應(yīng)用分析;或是制定個(gè)性化治療方案。
3.3 服務(wù)科研
包括疾病診斷與預(yù)測(cè)、提高臨床試驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)工具和算法、臨床實(shí)驗(yàn)數(shù)據(jù)的分析與處理等方面,如針對(duì)重大疾病識(shí)別疾病易感染基因、極端表型人群;提供最佳治療路徑。
3.4 服務(wù)管理機(jī)構(gòu)
規(guī)范性用藥評(píng)價(jià)、管理績(jī)效分析;流行病、急病等預(yù)防干預(yù)及措施評(píng)價(jià);公眾健康監(jiān)測(cè),付款(或定價(jià))、臨床路徑的優(yōu)化等。
3.5 公眾健康服務(wù)
包括危及健康因素的監(jiān)控與預(yù)警、網(wǎng)絡(luò)平臺(tái)、社區(qū)服務(wù)等方面。國(guó)內(nèi)外醫(yī)療大數(shù)據(jù)技術(shù)應(yīng)用現(xiàn)狀
4.1 國(guó)外醫(yī)療大數(shù)據(jù)技術(shù)應(yīng)用現(xiàn)狀
美國(guó)遠(yuǎn)程醫(yī)療(telemedicine)公司研制成功了一款功能強(qiáng)大的醫(yī)療設(shè)備“智能心臟”(smartheart),把手機(jī)變成了一款功能齊全的醫(yī)療工具,用來(lái)監(jiān)測(cè)用戶可能存在的心臟病問(wèn)題。智能心臟與智能手機(jī)相連,在安裝運(yùn)行了相應(yīng)的程序后,手機(jī)擁有“醫(yī)療級(jí)”的心臟監(jiān)測(cè)功能,并能夠在30s內(nèi)在手機(jī)屏幕上顯示用戶的心電圖。醫(yī)生可隨時(shí)對(duì)患者的心臟進(jìn)行監(jiān)測(cè)和分析,提前做好預(yù)防措施。智能心臟解決了心臟病預(yù)防方面最關(guān)鍵的問(wèn)題—時(shí)間。這在心臟病預(yù)防領(lǐng)域是一項(xiàng)重大的突破性技術(shù)。目前,“智能心臟”設(shè)備已經(jīng)開(kāi)始在網(wǎng)上銷(xiāo)售。
意大利電信近期推出了Nuvola It Home Docto 系統(tǒng),可讓在都靈Molinette 醫(yī)院的慢性病患者通過(guò)手機(jī)在家中監(jiān)測(cè)自己的生理參數(shù),相關(guān)數(shù)據(jù)將自動(dòng)的通過(guò)手機(jī)發(fā)送到醫(yī)療平臺(tái),也可以通過(guò)ADSL、WiFi 和衛(wèi)星網(wǎng)絡(luò)得到應(yīng)用。醫(yī)生通過(guò)網(wǎng)頁(yè)接入這
個(gè)平臺(tái),及時(shí)獲取數(shù)據(jù)并調(diào)整治療方案。
4.2 國(guó)內(nèi)醫(yī)療大數(shù)據(jù)技術(shù)應(yīng)用現(xiàn)狀
IBM在上海的部分醫(yī)院推出了BYOD系統(tǒng),即員工自費(fèi)終端,用來(lái)提高醫(yī)生和護(hù)士在醫(yī)院的移動(dòng)性。通過(guò)和開(kāi)發(fā)商合作,推出移動(dòng)護(hù)理應(yīng)用,將醫(yī)生和護(hù)士的各種移動(dòng)終端連在同一網(wǎng)絡(luò)下,便于醫(yī)生和護(hù)士了解患者在醫(yī)院的位置和健康狀況,也提高了醫(yī)生和護(hù)士的移動(dòng)性。
在上海,醫(yī)聯(lián)工程橫向覆蓋全市三級(jí)醫(yī)院,縱向連通各區(qū)屬醫(yī)療機(jī)構(gòu),已覆蓋3900萬(wàn)患者,建成國(guó)內(nèi)最大的患者診療檔案庫(kù),擁有8.2億條醫(yī)囑、1.8億個(gè)病案、8100萬(wàn)份檢驗(yàn)檢查報(bào)告和107太字節(jié)醫(yī)學(xué)影像數(shù)據(jù);醫(yī)聯(lián)工程在服務(wù)醫(yī)改、支撐資源整合、分布式影像網(wǎng)絡(luò)會(huì)診、三級(jí)醫(yī)院診療信息社區(qū)調(diào)閱等方面,大幅度提升了區(qū)域衛(wèi)生服務(wù)水平。
醫(yī)聯(lián)工程建成以來(lái),對(duì)于患者,就醫(yī)更方便,“一院辦卡,跨院就醫(yī)”“就醫(yī)一站式付費(fèi)”,共發(fā)放1300余萬(wàn)張醫(yī)聯(lián)卡,每月提供70萬(wàn)專(zhuān)家預(yù)約號(hào)源,人均節(jié)約就診時(shí)間60min、排隊(duì)時(shí)間45min;對(duì)于醫(yī)生,服務(wù)看診、提高醫(yī)療質(zhì)量,支持每日5000人次實(shí)時(shí)診療檔案調(diào)閱、1.25萬(wàn)人次重復(fù)醫(yī)療智能提醒,節(jié)約大量醫(yī)療費(fèi)用;對(duì)于管理者,實(shí)現(xiàn)精細(xì)化管理,建成集醫(yī)療管理、績(jī)效考核和統(tǒng)計(jì)分析為一體的整合平臺(tái),為醫(yī)院管理提供決策支持。醫(yī)療大數(shù)據(jù)安全
5.1 人的安全
醫(yī)療大數(shù)據(jù)安全中“人”的安全,涉及的是數(shù)據(jù)隱私保護(hù)問(wèn)題。在醫(yī)療過(guò)程中,患者的個(gè)人隱私主要有:在體檢、診斷、治療、疾病控制、醫(yī)學(xué)研究過(guò)程中涉及的個(gè)人肌體特征、健康狀況、人際接觸、遺傳基因、病史病歷等[5]。這些內(nèi)容還能被分為顯性與隱性,顯性一般是醫(yī)囑、診斷書(shū)、X線片、檢查結(jié)果、報(bào)告單、病歷、病案、住院患者床頭卡等數(shù)據(jù);隱性則是指蘊(yùn)藏在這些數(shù)據(jù)歷的信息,如患者血液組織所蘊(yùn)含著的基因信息,患者罹患疾病所反應(yīng)出的生活方式或者折射出的家族遺傳歷史等。
5.2 數(shù)據(jù)安全
一是易成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),在網(wǎng)絡(luò)空間中,醫(yī)療大數(shù)據(jù)的關(guān)注高,其中含有的敏感數(shù)據(jù)會(huì)吸引潛在的攻擊者;二是對(duì)現(xiàn)有存儲(chǔ)或者安全防范措施提出挑戰(zhàn),特別是數(shù)據(jù)大集中后復(fù)雜多樣的數(shù)據(jù)存放在一起,常規(guī)的安全掃描手段無(wú)法滿足安全要求。這些問(wèn)題將表現(xiàn)在數(shù)據(jù)資源共享、數(shù)據(jù)資產(chǎn)界定和盤(pán)活,以及數(shù)據(jù)真實(shí)性判斷等各個(gè)方面。醫(yī)療大數(shù)據(jù)的未來(lái)展望
6.1 社會(huì)化醫(yī)學(xué)
曾任美國(guó)克利夫蘭醫(yī)學(xué)中心(Cleveland Clinic)心血管科主任的美國(guó)心臟病學(xué)家埃里克·托普(Eric Topol),新近出版了一本名為《顛覆醫(yī)療》[6]的書(shū),在此書(shū)中他認(rèn)為:互聯(lián)網(wǎng)的沉浸式和參與式文化培育了消費(fèi)者,“每10個(gè)美國(guó)人中就有超過(guò)8位在網(wǎng)絡(luò)上查詢與健康相關(guān)的問(wèn)題”,甚至有的“患者會(huì)自帶著一系列摘自網(wǎng)絡(luò)的醫(yī)學(xué)問(wèn)題”去訪問(wèn)醫(yī)生,對(duì)自身病情、疾病和藥物的知悉程度較過(guò)去高出很多,與此同時(shí),醫(yī)生的權(quán)威性大幅度降低。由此可見(jiàn),這就是未來(lái)的趨勢(shì)—社會(huì)化醫(yī)學(xué)。
6.2 個(gè)性化醫(yī)學(xué)
個(gè)性化醫(yī)療,是指以個(gè)人基因組數(shù)據(jù)位基礎(chǔ),結(jié)合蛋白質(zhì)組和代謝組等相關(guān)內(nèi)環(huán)境數(shù)據(jù),考察遺傳變異、對(duì)特定疾病的易感性和對(duì)特殊藥物的反應(yīng)的關(guān)系,為患者量身設(shè)計(jì)出最佳治療方案,以期達(dá)到治療效果最大化和副作用最小化的定制醫(yī)療模式。實(shí)施個(gè)性化醫(yī)療,首先針對(duì)特定疾病亞群進(jìn)行分類(lèi),然后根據(jù)這些亞群的特異性發(fā)病機(jī)制進(jìn)行藥物開(kāi)發(fā),最終對(duì)這些亞群患者進(jìn)行針對(duì)性治療。這些涉及醫(yī)學(xué)、生物、環(huán)境、社會(huì)和心理等諸多因素,傳統(tǒng)的數(shù)據(jù)分析技術(shù)會(huì)遭遇瓶頸,很難以開(kāi)展針對(duì)性研究,故而引發(fā)了大數(shù)據(jù)技術(shù)的介入。在現(xiàn)有研究中,通過(guò)對(duì)醫(yī)療大數(shù)據(jù)的分析和利用,可以完善個(gè)性化醫(yī)療。較著名的是德國(guó)默克公司正與Regenstrief研究院一起實(shí)施的個(gè)性化醫(yī)療項(xiàng)目??疾爝z傳變異、對(duì)特定疾病的易感染性和對(duì)特殊藥物的反應(yīng)三者之間的關(guān)系,然后在藥物研發(fā)和用藥過(guò)程中考慮個(gè)人的遺傳變異因素。針對(duì)不同的患者采取不同的治療方案,或者根據(jù)患者的實(shí)際情況調(diào)整藥物劑量,可以減少副作用。總結(jié)
根據(jù)國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)的預(yù)測(cè),中國(guó)的大數(shù)據(jù)市場(chǎng)在2012~2016年將增長(zhǎng)5倍,其中最多份額將集中在政府、銀行、醫(yī)療衛(wèi)生、電信等四大行業(yè)【7】。醫(yī)療行業(yè)的數(shù)據(jù)已進(jìn)入大數(shù)據(jù)時(shí)代,使用大數(shù)據(jù)庫(kù)作為工具,將會(huì)輔助產(chǎn)生更有效、更加經(jīng)濟(jì)的醫(yī)療政策,更好的產(chǎn)品和服務(wù)[8]醫(yī)療大數(shù)據(jù)為我國(guó)帶來(lái)了機(jī)遇的同時(shí)也帶來(lái)了挑戰(zhàn),雖然只是剛剛起步,但是前景還是值得期待的。
參考文獻(xiàn)
[1](于廣軍 楊佳泓主編 醫(yī)療大數(shù)據(jù) 上海科學(xué)技術(shù)出版社P14)
[2](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[3](David Marco,John Wiley.Building and managing the meta data repository: a full lifecycle guide[M].New York: John Wiley & Sons Inc,2000)
[4](Kayyali B,Knott D,Van Kuilen S.The big-data revolution in US health care: Accelerating value and innovation[J].Mc Kinsey & Company,2013)[5](湯嘯天.個(gè)人健康醫(yī)療信息和隱私權(quán)保護(hù)[J].同濟(jì)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2006,17(3):117-123)
[6](http://)
[7](Inmon W.Building the data warehouse[M].3rd ed.New York: John Wiley & Sons Inc,2002)
[8](郭曉科主編 《大數(shù)據(jù)》 清華大學(xué)出版社 p22)
第三篇:大數(shù)據(jù)認(rèn)識(shí)
大數(shù)據(jù)認(rèn)識(shí)
班級(jí):B200216電商本科2 姓名:陳家瑋 學(xué)號(hào):20021624
一
大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
層面
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
價(jià)值
1)對(duì)大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo) 2)做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型
3)面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時(shí)俱進(jìn)充分利用大數(shù)據(jù)的價(jià)值 趨勢(shì)
趨勢(shì)一:數(shù)據(jù)的資源化
何為資源化,是指大數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,并已成為大家爭(zhēng)相搶奪的新焦點(diǎn)。因而,企業(yè)必須要提前制定大數(shù)據(jù)營(yíng)銷(xiāo)戰(zhàn)略計(jì)劃,搶占市場(chǎng)先機(jī)。
趨勢(shì)二:與云計(jì)算的深度結(jié)合
大數(shù)據(jù)離不開(kāi)云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始,大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營(yíng)銷(xiāo)發(fā)揮出更大的影響力。趨勢(shì)三:科學(xué)理論的突破
隨著大數(shù)據(jù)的快速發(fā)展,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。
趨勢(shì)四:數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立
未來(lái),數(shù)據(jù)科學(xué)將成為一門(mén)專(zhuān)門(mén)的學(xué)科,被越來(lái)越多的人所認(rèn)知。各大高校將設(shè)立專(zhuān)門(mén)的數(shù)據(jù)科學(xué)類(lèi)專(zhuān)業(yè),也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí),基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái),也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái),之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來(lái)產(chǎn)業(yè)的核心一環(huán)。
趨勢(shì)五:數(shù)據(jù)泄露泛濫
未來(lái)幾年數(shù)據(jù)泄露事件的增長(zhǎng)率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障??梢哉f(shuō),在未來(lái),每個(gè)財(cái)富500強(qiáng)企業(yè)都會(huì)面臨數(shù)據(jù)攻擊,無(wú)論他們是否已經(jīng)做好安全防范。而所有企業(yè),無(wú)論規(guī)模大小,都需要重新審視今天的安全定義。在財(cái)富500強(qiáng)企業(yè)中,超過(guò)50%將會(huì)設(shè)置首席信息安全官這一職位。企業(yè)需要從新的角度來(lái)確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個(gè)環(huán)節(jié),僅僅加強(qiáng)后者的安全措施已被證明于事無(wú)補(bǔ)。
趨勢(shì)六:數(shù)據(jù)管理成為核心競(jìng)爭(zhēng)力
數(shù)據(jù)管理成為核心競(jìng)爭(zhēng)力,直接影響財(cái)務(wù)表現(xiàn)。當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對(duì)于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競(jìng)爭(zhēng)力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運(yùn)用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。數(shù)據(jù)資產(chǎn)管理效率與主營(yíng)業(yè)務(wù)收入增長(zhǎng)率、銷(xiāo)售收入增長(zhǎng)率顯著正相關(guān);此外,對(duì)于具有互聯(lián)網(wǎng)思維的企業(yè)而言,數(shù)據(jù)資產(chǎn)競(jìng)爭(zhēng)力所占比重為36.8%,數(shù)據(jù)資產(chǎn)的管理效果將直接影響企業(yè)的財(cái)務(wù)表現(xiàn)。
趨勢(shì)七:數(shù)據(jù)質(zhì)量是BI(商業(yè)智能)成功的關(guān)鍵
采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會(huì)脫穎而出。其中要面臨的一個(gè)挑戰(zhàn)是,很多數(shù)據(jù)源會(huì)帶來(lái)大量低質(zhì)量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過(guò)BI獲得更佳決策。
趨勢(shì)八:數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強(qiáng)
大數(shù)據(jù)的世界不只是一個(gè)單一的、巨大的計(jì)算機(jī)網(wǎng)絡(luò),而是一個(gè)由大量活動(dòng)構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng),終端設(shè)備提供商、基礎(chǔ)設(shè)施提供商、網(wǎng)絡(luò)服務(wù)提供商、網(wǎng)絡(luò)接入服務(wù)提供商、數(shù)據(jù)服務(wù)使能者、數(shù)據(jù)服務(wù)提供商、觸點(diǎn)服務(wù)、數(shù)據(jù)服務(wù)零售商等等一系列的參與者共同構(gòu)建的生態(tài)系統(tǒng)。而今,這樣一套數(shù)據(jù)生態(tài)系統(tǒng)的基本雛形已然形成,接下來(lái)的發(fā)展將趨向于系統(tǒng)內(nèi)部角色的細(xì)分,也就是市場(chǎng)的細(xì)分;系統(tǒng)機(jī)制的調(diào)整,也就是商業(yè)模式的創(chuàng)新;系統(tǒng)結(jié)構(gòu)的調(diào)整,也就是競(jìng)爭(zhēng)環(huán)境的調(diào)整等等,從而使得數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度逐漸增強(qiáng)。
二
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFS。HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
優(yōu)點(diǎn)
高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。
高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開(kāi)源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
hadoop大數(shù)據(jù)處理的意義
Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭?lèi)似這樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。
大數(shù)據(jù)精髓
A.不是隨機(jī)樣本,而是全體數(shù)據(jù):在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣(隨機(jī)采樣,以前我們通常把這看成是理所應(yīng)當(dāng)?shù)南拗?,但高性能的?shù)字技術(shù)讓我們意識(shí)到,這其實(shí)是一種人為限制)B.不是精確性,而是混雜性:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱;擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根問(wèn)底,只要掌握了大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度,會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力
C.不是因果關(guān)系,而是相關(guān)關(guān)系:我們不再熱衷于找因果關(guān)系,尋找因果關(guān)系是人類(lèi)長(zhǎng)久以來(lái)的習(xí)慣,在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。
開(kāi)源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、.Hypertable是另類(lèi)。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb 商用大數(shù)據(jù)生態(tài)圈:
1、一體機(jī)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù):IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉(cāng)庫(kù):TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、Tableau、以及國(guó)內(nèi)的Yonghong Data Mart。大數(shù)據(jù)分析
Analytic Visualizations(可視化分析)
不管是對(duì)數(shù)據(jù)分析專(zhuān)家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。
Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。
Semantic Engines(語(yǔ)義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來(lái)的好處,而不僅僅是挑戰(zhàn)。
數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)。在商業(yè)智能系統(tǒng)的設(shè)計(jì)中,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對(duì)數(shù)據(jù)進(jìn)行查詢和訪問(wèn),為聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。
第四篇:大數(shù)據(jù)本科專(zhuān)業(yè)申報(bào)及認(rèn)識(shí)
大數(shù)據(jù)本科專(zhuān)業(yè)申報(bào)及認(rèn)識(shí)
摘要:從產(chǎn)業(yè)發(fā)展、數(shù)據(jù)科學(xué)的學(xué)科特征、大數(shù)據(jù)專(zhuān)業(yè)與其他相關(guān)專(zhuān)業(yè)的不同等3個(gè)方面,闡述增設(shè)大數(shù)據(jù)本科專(zhuān)業(yè)的合理性和必要性;以對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)專(zhuān)業(yè)建設(shè)為例,指出大數(shù)據(jù)專(zhuān)業(yè)人才應(yīng)該能夠圍繞互聯(lián)網(wǎng)平臺(tái)上經(jīng)濟(jì)金融數(shù)據(jù)的商業(yè)價(jià)值進(jìn)行挖掘并揭示數(shù)據(jù)間關(guān)系。
關(guān)鍵詞:數(shù)據(jù)科學(xué);大數(shù)據(jù)技術(shù);大數(shù)據(jù)科學(xué)與應(yīng)用
引言
互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)計(jì)算等新興技術(shù)拓展了人類(lèi)創(chuàng)造和利用信息的范圍和模式。聯(lián)合國(guó)在2012年發(fā)布的大數(shù)據(jù)白皮書(shū)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》中指出,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),大數(shù)據(jù)的出現(xiàn)將會(huì)對(duì)社會(huì)各個(gè)領(lǐng)域產(chǎn)生深刻影響。2013年被稱(chēng)為中國(guó)大數(shù)據(jù)元年,各行各業(yè)開(kāi)始高度關(guān)注大數(shù)據(jù)的研究和應(yīng)用。在云計(jì)算技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)技術(shù)的助力下,大數(shù)據(jù)已經(jīng)成為當(dāng)前學(xué)術(shù)界、工業(yè)界的熱點(diǎn)和焦點(diǎn)。從公司戰(zhàn)略到產(chǎn)業(yè)生態(tài),從學(xué)術(shù)研究到生產(chǎn)實(shí)踐,從城鎮(zhèn)管理乃至國(guó)家治理,都將發(fā)生本質(zhì)的變換,大數(shù)據(jù)將成為時(shí)代變革的力量?!坝脭?shù)據(jù)來(lái)說(shuō)話、用數(shù)據(jù)來(lái)管理、用數(shù)據(jù)來(lái)決策、用數(shù)據(jù)來(lái)創(chuàng)新”的文化氛圍與時(shí)代特征愈發(fā)鮮明。大數(shù)據(jù)時(shí)代新特征要求設(shè)計(jì)和構(gòu)建相應(yīng)的管理決策分析模型與方法,有效地將信息科學(xué)和商業(yè)應(yīng)用相結(jié)合。因此,掌握大數(shù)據(jù)核心技術(shù)且同時(shí)擁有“經(jīng)管”專(zhuān)業(yè)知識(shí)的人才儲(chǔ)備將成為國(guó)家大數(shù)據(jù)戰(zhàn)略布局的重中之重。
1產(chǎn)業(yè)發(fā)展需要大數(shù)據(jù)人才
與大數(shù)據(jù)概念知名度和企業(yè)熱情形成對(duì)比的是,大數(shù)據(jù)正面臨全球性的人才荒。企業(yè)對(duì)新型大數(shù)據(jù)分析和預(yù)測(cè)技術(shù)人才的熱情和需求正在超過(guò)傳統(tǒng)的商業(yè)智能和信息管理人才。
根據(jù)麥肯錫報(bào)告,僅僅在美國(guó)市場(chǎng),2018年大數(shù)據(jù)人才(包括高級(jí)數(shù)據(jù)分析專(zhuān)家)缺口將高達(dá)19萬(wàn)。此外美國(guó)企業(yè)還需要150萬(wàn)能夠提出正確問(wèn)題并運(yùn)用大數(shù)據(jù)分析結(jié)果的大數(shù)據(jù)相關(guān)管理人才。商業(yè)數(shù)據(jù)分析是現(xiàn)在全美增長(zhǎng)最迅速的領(lǐng)域,據(jù)New Vantage Partners公司對(duì)美國(guó)《財(cái)富》500強(qiáng)公司調(diào)查顯示:85%的500強(qiáng)企業(yè)已經(jīng)或正在籌劃推出大數(shù)據(jù)項(xiàng)目,未來(lái)幾年這些企業(yè)在數(shù)據(jù)分析上的投資將平均上漲36%?!豆鹕虡I(yè)評(píng)論》的一篇文章將數(shù)據(jù)分析稱(chēng)作“21世紀(jì)最熱門(mén)的職業(yè)”。人力資源公司Kforce的調(diào)研報(bào)告預(yù)測(cè)2014年全球大數(shù)據(jù)相關(guān)的八大職業(yè)平均年薪將達(dá)到11.75萬(wàn)~14.06萬(wàn)美元。中國(guó)是人才大國(guó),但掌握和應(yīng)用大數(shù)據(jù)技術(shù)的創(chuàng)新人才仍是稀缺資源,培養(yǎng)大數(shù)據(jù)相關(guān)人才成為最為緊迫的問(wèn)題。在這樣的形勢(shì)下,對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)于2015年7月向教育部申報(bào)開(kāi)設(shè)“大數(shù)據(jù)科學(xué)與應(yīng)用(目錄外)”本科專(zhuān)業(yè)。
2.“數(shù)據(jù)科學(xué)”的時(shí)代性、科學(xué)性與合理性分析
“大數(shù)據(jù)”已經(jīng)成為全球科技界和企業(yè)界關(guān)注的熱點(diǎn)。數(shù)據(jù)為王的時(shí)代已經(jīng)到來(lái),企業(yè)關(guān)注的重點(diǎn)從追求計(jì)算機(jī)的計(jì)算速度轉(zhuǎn)變?yōu)榇髷?shù)據(jù)處理能力,從以軟件編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。2012年3月,美國(guó)奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這是繼1993年美國(guó)宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國(guó)政府認(rèn)為大數(shù)據(jù)是“未來(lái)的新石油”,將“大數(shù)據(jù)研究”上升為國(guó)家意志,這對(duì)未來(lái)的科技與經(jīng)濟(jì)發(fā)展必將帶來(lái)深遠(yuǎn)影響。
大數(shù)據(jù)研究的熱潮激勵(lì)基礎(chǔ)研究的科研人員開(kāi)始考慮“數(shù)據(jù)科學(xué)”問(wèn)題。目前大數(shù)據(jù)的工程技術(shù)研究已走在科學(xué)研究的前面。美國(guó)政府6個(gè)部門(mén)啟動(dòng)的大數(shù)據(jù)研究計(jì)劃中,國(guó)家科學(xué)基金會(huì)的研究?jī)?nèi)容提到要“形成一個(gè)包括數(shù)學(xué)、統(tǒng)計(jì)基礎(chǔ)和計(jì)算機(jī)算法的獨(dú)特學(xué)科”。圖靈獎(jiǎng)得主吉姆?格雷描繪了數(shù)據(jù)密集型科研第四范式的愿景,將大數(shù)據(jù)科研從第三范式(計(jì)算機(jī)模擬)中分離出來(lái)單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨跀?shù)學(xué)模型的傳統(tǒng)研究方式。
大數(shù)據(jù)研究能成為一門(mén)科學(xué)的前提是,在一個(gè)領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。提煉“大數(shù)據(jù)”的共性還需要一段時(shí)間的實(shí)踐積累才會(huì)逐步清晰明朗。將大量多元異構(gòu)、交互性和時(shí)效性強(qiáng)并包含大量噪聲的數(shù)據(jù)作為研究對(duì)象的專(zhuān)門(mén)學(xué)科,依然具備了鮮明的學(xué)科特征。
3大數(shù)據(jù)專(zhuān)業(yè)與其他相關(guān)專(zhuān)業(yè)的異質(zhì)性分析
由于大數(shù)據(jù)專(zhuān)業(yè)主要支撐技術(shù)來(lái)源于信息技術(shù),所以在專(zhuān)業(yè)申報(bào)中應(yīng)將該專(zhuān)業(yè)所屬學(xué)科門(mén)類(lèi)及專(zhuān)業(yè)類(lèi)推薦設(shè)在計(jì)算機(jī)科學(xué)與技術(shù)學(xué)科下,大數(shù)據(jù)專(zhuān)業(yè)與計(jì)算機(jī)學(xué)科下所屬專(zhuān)業(yè)的關(guān)系及區(qū)分度可以概括如下幾點(diǎn)。
(1)研究對(duì)象的側(cè)重點(diǎn)不同。“大數(shù)據(jù)科學(xué)與應(yīng)用”專(zhuān)業(yè)研究的核心對(duì)象是“大數(shù)據(jù)”,既不是硬件、軟件理論研究,也不是計(jì)算機(jī)技術(shù)在某個(gè)領(lǐng)域的應(yīng)用研究或者某一特定計(jì)算機(jī)技術(shù)的理論和應(yīng)用研究,并且“大數(shù)據(jù)”引發(fā)的研究不可能在短時(shí)間完成,“大數(shù)據(jù)”問(wèn)題研究具備了跨行業(yè)、跨領(lǐng)域的普適性。除去該專(zhuān)業(yè)所需的計(jì)算機(jī)學(xué)科之外的專(zhuān)業(yè)知識(shí),就計(jì)算機(jī)學(xué)科內(nèi)部而言,該專(zhuān)業(yè)所需知識(shí)在計(jì)算機(jī)學(xué)科的其他專(zhuān)業(yè)都有涉及,但又不被完全包含,所以不便將其歸人現(xiàn)有專(zhuān)業(yè)之中。
(2)大數(shù)據(jù)科學(xué)素養(yǎng)要求高。該專(zhuān)業(yè)對(duì)學(xué)生在“大數(shù)據(jù)科學(xué)素養(yǎng)”方面有更高的要求,在理論上,強(qiáng)調(diào)學(xué)生有很好的數(shù)理統(tǒng)計(jì)基礎(chǔ)、扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法的基本功,能夠很好地理解和掌握各種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法;在實(shí)踐上,強(qiáng)調(diào)學(xué)生具備海量數(shù)據(jù)獲取、數(shù)據(jù)組織與存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析以及數(shù)據(jù)可視化的工程實(shí)踐能力,掌握數(shù)據(jù)處理各個(gè)環(huán)節(jié)的基本技能;在理論與實(shí)踐結(jié)合方面,強(qiáng)調(diào)學(xué)生掌握處理“大數(shù)據(jù)”的先進(jìn)技術(shù)和理論,即掌握與云計(jì)算相關(guān)的大數(shù)據(jù)處理平臺(tái)及其生態(tài)系統(tǒng),強(qiáng)調(diào)與數(shù)據(jù)來(lái)源緊密相關(guān)的新技術(shù)的融合與互動(dòng),即理解和掌握物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)相關(guān)理論和技術(shù)。
(3)專(zhuān)業(yè)具備前所未有的復(fù)合性特征。對(duì)大數(shù)據(jù)而言,技術(shù)走在科學(xué)前面。目前的局面是各個(gè)學(xué)科(如生物、醫(yī)療、金融等)的科學(xué)家都以自己為主處理本領(lǐng)域的海量數(shù)據(jù),各領(lǐng)域的科學(xué)問(wèn)題還掌握在各學(xué)科的科學(xué)家手里。本專(zhuān)業(yè)的設(shè)置希望從一開(kāi)始就以培養(yǎng)復(fù)合型人才為目標(biāo),以大數(shù)據(jù)為核心研究對(duì)象,強(qiáng)調(diào)學(xué)生對(duì)專(zhuān)業(yè)領(lǐng)域(經(jīng)濟(jì)、金融、電子商務(wù))數(shù)據(jù)的理解能力,深刻體現(xiàn)技術(shù)為數(shù)據(jù)服務(wù)的思想。
(4)與統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的區(qū)別。本專(zhuān)業(yè)與統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的最大區(qū)別來(lái)自于對(duì)IT技術(shù)的理解和掌握,強(qiáng)調(diào)數(shù)據(jù)在獲取、清洗、存儲(chǔ)、處理和展示等各個(gè)環(huán)節(jié)與IT技術(shù)的深度融合,而不僅僅是將IT技術(shù)作為輔助手段;就數(shù)據(jù)處理的種類(lèi)而言,更重視對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)(統(tǒng)計(jì)學(xué)專(zhuān)業(yè)處理的數(shù)據(jù)一般為結(jié)構(gòu)化數(shù)據(jù))的處理。
(5)與信息管理專(zhuān)業(yè)的區(qū)別。本專(zhuān)業(yè)與信息管理專(zhuān)業(yè)的區(qū)別主要體現(xiàn)在看待數(shù)據(jù)和信息的角度。信息管理主要強(qiáng)調(diào)在理解數(shù)據(jù)和業(yè)務(wù)流程的基礎(chǔ)上,通過(guò)科學(xué)的分析和設(shè)計(jì)方法,實(shí)現(xiàn)管理信息系統(tǒng),強(qiáng)調(diào)利用計(jì)算機(jī)技術(shù)介入、改造和升級(jí)原有的業(yè)務(wù)系統(tǒng)。“大數(shù)據(jù)”相關(guān)理論和技術(shù)更側(cè)重對(duì)數(shù)據(jù)本身的洞察與理解,相對(duì)而言更加獨(dú)立于原有的業(yè)務(wù)系統(tǒng),更專(zhuān)注對(duì)海量、復(fù)雜、多元數(shù)據(jù)的深度分析和處理能力,更依賴于大數(shù)據(jù)處理平臺(tái)和技術(shù),也更好地支撐了物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的應(yīng)用和發(fā)展。
4國(guó)內(nèi)外大數(shù)據(jù)相關(guān)專(zhuān)業(yè)發(fā)展情況及就業(yè)前景分析
4.1大數(shù)據(jù)相關(guān)專(zhuān)業(yè)發(fā)展情況
由于市場(chǎng)對(duì)大數(shù)據(jù)人才的需求日益激烈,國(guó)外很多大學(xué)開(kāi)始專(zhuān)門(mén)開(kāi)設(shè)數(shù)據(jù)分析類(lèi)專(zhuān)業(yè)。美國(guó)US News排名Top50院校中的哈佛大學(xué)、哥倫比亞大學(xué)、斯坦福大學(xué)、芝加哥大學(xué)、麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)等15所高校均開(kāi)設(shè)了大數(shù)據(jù)相關(guān)專(zhuān)業(yè)。另外,由于大數(shù)據(jù)在2012-2013年開(kāi)始興起,人才市場(chǎng)無(wú)法迅速培養(yǎng)出大量符合企業(yè)期望的人才,美國(guó)一些公司采取了更現(xiàn)實(shí)的做法:和大學(xué)合作,長(zhǎng)期培養(yǎng)大數(shù)據(jù)專(zhuān)業(yè)人才以及開(kāi)展相關(guān)研究,比如英特爾就和數(shù)據(jù)學(xué)專(zhuān)業(yè)排名靠前的麻省理工學(xué)院合作,建立了大數(shù)據(jù)科學(xué)技術(shù)中心。
目前,國(guó)內(nèi)大數(shù)據(jù)相關(guān)專(zhuān)業(yè)主要開(kāi)設(shè)在研究生層次。2014年中國(guó)科學(xué)院大學(xué)開(kāi)設(shè)首個(gè)“大數(shù)據(jù)技術(shù)與應(yīng)用”專(zhuān)業(yè)方向,該專(zhuān)業(yè)面向科研發(fā)展及產(chǎn)業(yè)實(shí)踐,培養(yǎng)信息技術(shù)與行業(yè)需求結(jié)合的復(fù)合型的大數(shù)據(jù)人才;2014年清華大學(xué)成立數(shù)據(jù)科學(xué)研究院,推出多學(xué)科交叉培養(yǎng)的大數(shù)據(jù)碩士項(xiàng)目;中國(guó)人民大學(xué)也設(shè)立了大數(shù)據(jù)應(yīng)用與云管理、大數(shù)據(jù)與應(yīng)用統(tǒng)計(jì)、大數(shù)據(jù)應(yīng)用方向以及大數(shù)據(jù)與云計(jì)算研究方向;北京航空航天學(xué)院軟件學(xué)院開(kāi)設(shè)了大數(shù)據(jù)和云計(jì)算研究方向,并已經(jīng)有畢業(yè)生;另外,上海交通大學(xué)、浙江大學(xué)、天津大學(xué)、廈門(mén)大學(xué)等也在研究生層次建立大數(shù)據(jù)專(zhuān)業(yè)。
許多高校同時(shí)也在籌建本科的大數(shù)據(jù)相關(guān)專(zhuān)業(yè),西安交通大學(xué)、北京交通大學(xué)等與IBM公司合作啟動(dòng)了大數(shù)據(jù)本科專(zhuān)業(yè)的建設(shè)或者改造現(xiàn)有相關(guān)專(zhuān)業(yè)。針對(duì)當(dāng)前中國(guó)市場(chǎng)急劇擴(kuò)大的大數(shù)據(jù)與分析技能需求和人才缺口,IBM投入1億美元在中國(guó)大學(xué)推行大數(shù)據(jù)教育,并推出“IBMU-100”合作計(jì)劃,在100所高校設(shè)立大數(shù)據(jù)與分析技術(shù)中心,在其中30所高校開(kāi)設(shè)本科和碩士課程,在5所大學(xué)設(shè)立“卓越中心”。
4.2復(fù)合型人才就業(yè)前景
Glassdoor公司2016年1月發(fā)布的“美國(guó)最好的工作”排名中,數(shù)據(jù)科學(xué)家位居第一,底薪為11.6萬(wàn)美元。通過(guò)分析大數(shù)據(jù)人才市場(chǎng)需求、與大數(shù)據(jù)公司研討以及對(duì)業(yè)界的調(diào)研,我們認(rèn)為對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)開(kāi)設(shè)大數(shù)據(jù)專(zhuān)業(yè)及就業(yè)方向主要有如下三個(gè)方面:
(1)貿(mào)易金融方向大數(shù)據(jù)分析師:主要就業(yè)崗位在供應(yīng)鏈融資公司、P2P信貸征信平臺(tái)、商業(yè)銀行等。
(2)網(wǎng)絡(luò)營(yíng)銷(xiāo)方向大數(shù)據(jù)分析師:主要就業(yè)崗位在互聯(lián)網(wǎng)廣告、020營(yíng)銷(xiāo)公司、大型網(wǎng)絡(luò)媒體等。
(3)物流與電子商務(wù)方向大數(shù)據(jù)分析師。主要就業(yè)崗位在電子商務(wù)公司、現(xiàn)代物流公司、第三方支付公司等。
學(xué)生職業(yè)生涯成長(zhǎng)目標(biāo)為首席數(shù)據(jù)官(CDO),如圖1所示。
5對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)開(kāi)設(shè)大數(shù)據(jù)分析專(zhuān)業(yè)的基礎(chǔ)及對(duì)大數(shù)據(jù)專(zhuān)業(yè)的認(rèn)識(shí)
5.1財(cái)經(jīng)學(xué)校背景優(yōu)勢(shì)支撐大數(shù)據(jù)專(zhuān)業(yè)申報(bào)
對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)在經(jīng)貿(mào)、金融、管理、法律等專(zhuān)業(yè)擁有得天獨(dú)厚的條件。秉承創(chuàng)新“商業(yè)大數(shù)據(jù)人才”的培養(yǎng)方略,建立適合財(cái)經(jīng)類(lèi)院校的商務(wù)大數(shù)據(jù)專(zhuān)業(yè),為國(guó)家產(chǎn)業(yè)轉(zhuǎn)型與行業(yè)發(fā)展需求貢獻(xiàn)合格的人才,支撐國(guó)家大數(shù)據(jù)戰(zhàn)略的實(shí)現(xiàn),是我們申報(bào)開(kāi)設(shè)大數(shù)據(jù)專(zhuān)業(yè)的出發(fā)點(diǎn)。從社會(huì)發(fā)展需求出發(fā),建設(shè)以國(guó)際化、精品化、金融與商務(wù)相結(jié)合為特色的大數(shù)據(jù)專(zhuān)業(yè)是我們進(jìn)行專(zhuān)業(yè)建設(shè)的指導(dǎo)思想。
5.2師資隊(duì)伍建設(shè)與儲(chǔ)備
大數(shù)據(jù)專(zhuān)業(yè)申報(bào)所依托的信息學(xué)院近年來(lái)引進(jìn)了多名優(yōu)秀的具有海內(nèi)外大數(shù)據(jù)分析背景的人才充實(shí)到教學(xué)科研隊(duì)伍中。師資隊(duì)伍多元化教育背景和工作經(jīng)歷是學(xué)院的巨大財(cái)富,也為該專(zhuān)業(yè)的創(chuàng)建提供了先決條件。同時(shí)2014年信息學(xué)院先后兩次派教師參加大數(shù)據(jù)核心課程培訓(xùn),為新專(zhuān)業(yè)申報(bào)進(jìn)行了專(zhuān)業(yè)師資的儲(chǔ)備。
5.3成立產(chǎn)學(xué)結(jié)合的大數(shù)據(jù)專(zhuān)業(yè)建設(shè)小組并開(kāi)展專(zhuān)業(yè)研討
信息學(xué)院為建設(shè)大數(shù)據(jù)專(zhuān)業(yè),多次召開(kāi)專(zhuān)業(yè)建設(shè)研討會(huì),特別邀請(qǐng)承擔(dān)2015CCTV兩會(huì)大數(shù)據(jù)制作的專(zhuān)業(yè)大數(shù)據(jù)公司技術(shù)總監(jiān)來(lái)學(xué)院介紹大數(shù)據(jù)的采集、處理、展示等全過(guò)程;邀請(qǐng)新浪微博大數(shù)據(jù)中心建設(shè)人員就大數(shù)據(jù)專(zhuān)業(yè)人才需求、專(zhuān)業(yè)定位進(jìn)行研討。組建了有大數(shù)據(jù)企業(yè)參加的專(zhuān)業(yè)申報(bào)籌備小組,億贊普大數(shù)據(jù)公司技術(shù)總監(jiān)作為專(zhuān)業(yè)建設(shè)成員參與專(zhuān)業(yè)建設(shè)和課程體系設(shè)計(jì)與實(shí)施。
5.4與大數(shù)據(jù)企業(yè)和大數(shù)據(jù)產(chǎn)業(yè)協(xié)會(huì)聯(lián)系緊密
信息學(xué)院大數(shù)據(jù)專(zhuān)業(yè)籌備組成員與中國(guó)信息化協(xié)會(huì)大數(shù)據(jù)分會(huì)、一線大數(shù)據(jù)聯(lián)盟、中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)劃聯(lián)盟、中國(guó)物流大數(shù)據(jù)產(chǎn)業(yè)合作聯(lián)盟等產(chǎn)業(yè)協(xié)會(huì)建立了緊密的合作關(guān)系;與91金融超市建立了科學(xué)研究和實(shí)習(xí)基地;與京翰數(shù)據(jù)技術(shù)公司就物流大數(shù)據(jù)研發(fā)建立并簽署了科研合作協(xié)議;2015年與京東物流大數(shù)據(jù)創(chuàng)新部進(jìn)行合作接洽。
5.5人才培養(yǎng)方案及實(shí)踐教學(xué)環(huán)境建設(shè)
目前大數(shù)據(jù)人才培養(yǎng)方案還處于探索階段,鑒于大數(shù)據(jù)是一個(gè)交叉專(zhuān)業(yè),業(yè)界的共識(shí)是在計(jì)算機(jī)科學(xué)技術(shù)相關(guān)專(zhuān)業(yè)基礎(chǔ)上融合機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的數(shù)據(jù)分析技術(shù)。針對(duì)業(yè)界共識(shí)與對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)學(xué)科背景實(shí)際,我們?cè)O(shè)計(jì)了具有對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)特色的人才培養(yǎng)方案,其主線是“大數(shù)據(jù)分析+信息技術(shù)+經(jīng)濟(jì)貿(mào)易應(yīng)用”。
大數(shù)據(jù)是應(yīng)用性、實(shí)踐性很強(qiáng)的專(zhuān)業(yè),信息學(xué)院擁有國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,為大數(shù)據(jù)人才培養(yǎng)提供了可行的實(shí)踐教學(xué)環(huán)境。
5.6對(duì)大數(shù)據(jù)專(zhuān)業(yè)的認(rèn)識(shí)
IBM公司賦予大數(shù)據(jù)“領(lǐng)悟數(shù)據(jù),提升見(jiàn)識(shí),洞察秋毫,驅(qū)動(dòng)優(yōu)化”四個(gè)內(nèi)涵,這也構(gòu)成了本專(zhuān)業(yè)的基本特點(diǎn):側(cè)重于大數(shù)據(jù)技術(shù)的應(yīng)用,強(qiáng)調(diào)大數(shù)據(jù)間相關(guān)性的發(fā)現(xiàn),其核心能力是“大數(shù)據(jù)中的價(jià)值發(fā)現(xiàn)和應(yīng)用”?!按髷?shù)據(jù)科學(xué)與應(yīng)用”專(zhuān)業(yè)設(shè)置具有顯著的跨學(xué)科特點(diǎn),學(xué)生不僅要掌握統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、信息管理等專(zhuān)業(yè)的基礎(chǔ)知識(shí),還要具備其他專(zhuān)業(yè)領(lǐng)域較深的知識(shí)背景(如經(jīng)濟(jì)貿(mào)易或金融專(zhuān)業(yè)領(lǐng)域知識(shí)),最重要的是要有依托數(shù)據(jù)創(chuàng)造價(jià)值的能力。
在專(zhuān)業(yè)籌備和申報(bào)過(guò)程中,我們認(rèn)為大數(shù)據(jù)專(zhuān)業(yè)的技術(shù)核心應(yīng)圍繞大數(shù)據(jù)采集、組織與存儲(chǔ)、分析與處理、結(jié)果呈現(xiàn)而進(jìn)行,而大數(shù)據(jù)的數(shù)據(jù)源及內(nèi)容應(yīng)該來(lái)源于經(jīng)濟(jì)貿(mào)易、金融交易、物流與電子商務(wù)等商務(wù)與管理應(yīng)用領(lǐng)域。所以我們將該專(zhuān)業(yè)的培養(yǎng)目標(biāo)界定為:旨在培養(yǎng)具備大數(shù)據(jù)科學(xué)素養(yǎng),掌握經(jīng)濟(jì)管理、網(wǎng)絡(luò)金融、電子商務(wù)等領(lǐng)域知識(shí)的專(zhuān)業(yè)人才,為以大數(shù)據(jù)技術(shù)為支撐的相關(guān)行業(yè)培養(yǎng)國(guó)際化、復(fù)合型的高素質(zhì)人才;人才要具備將領(lǐng)域知識(shí)與計(jì)算機(jī)技術(shù)和大數(shù)據(jù)技術(shù)融合、創(chuàng)新的能力,能夠從數(shù)據(jù)工程的視角從事經(jīng)濟(jì)、金融、電子商務(wù)等領(lǐng)域的大數(shù)據(jù)采集、組織、管理、分析以及應(yīng)用的工作。
6結(jié)語(yǔ)
時(shí)代發(fā)展呼吁建立大數(shù)據(jù)專(zhuān)業(yè)人才培養(yǎng)體系,對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)“大數(shù)據(jù)科學(xué)與技術(shù)”專(zhuān)業(yè)申報(bào)經(jīng)歷了通訊評(píng)審、網(wǎng)上公示、專(zhuān)家委員會(huì)會(huì)審等系列程序。教育部學(xué)科發(fā)展與專(zhuān)業(yè)設(shè)置專(zhuān)家委員會(huì)評(píng)議后建議將專(zhuān)業(yè)名稱(chēng)統(tǒng)一規(guī)范為“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”。我們認(rèn)為這樣更能體現(xiàn)工學(xué)學(xué)士學(xué)位特征。專(zhuān)業(yè)申報(bào)只是我們邁出的第一步,建設(shè)有對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)特色的大數(shù)據(jù)專(zhuān)業(yè),培養(yǎng)受社會(huì)歡迎的、高質(zhì)量的大數(shù)據(jù)人才,我們深感任重而道遠(yuǎn)。
第五篇:關(guān)愛(ài)地球聯(lián)盟:青少年對(duì)水資源的認(rèn)識(shí)調(diào)查數(shù)據(jù)
CFE RDC 關(guān)愛(ài)地球聯(lián)盟調(diào)查與數(shù)據(jù)中心數(shù)據(jù)
調(diào)查問(wèn)題1:了解世界水日的日期嗎?(A了解B不了解)
數(shù)據(jù)結(jié)果:A了解:66%B不了解:32%
調(diào)查問(wèn)題2:知道全球的水只有3%是淡水,其余均不可食用?(A知道B不知道)
數(shù)據(jù)結(jié)果:A知道:75%B不知道:25%
調(diào)查問(wèn)題3:思考過(guò)關(guān)于水的問(wèn)題,并履行節(jié)約用水的義務(wù)?(A是B不是)
數(shù)據(jù)結(jié)果:A是:92%B不是:8%
調(diào)查問(wèn)題4:家里洗米或菜等的水不直接倒掉而是二次利用?(A是B不是)
數(shù)據(jù)結(jié)果:A是:69%B不是:31%
調(diào)查報(bào)告:
對(duì)于這份關(guān)于人們對(duì)水的意識(shí)調(diào)查,我們可以發(fā)現(xiàn),超過(guò)九成的人都思考過(guò)關(guān)于水的問(wèn)題,并履行節(jié)約用水的義務(wù),這是非常值得欣慰的。不過(guò),就近三成的人卻不知道全球的水只有3%是淡水,其余均不可食用的問(wèn)題,這樣的節(jié)水背景應(yīng)當(dāng)人人所知,但仍有25%的人不知道這樣的事實(shí),不得不說(shuō)是一個(gè)遺憾。在了解世界水日日期方面,結(jié)果比我們預(yù)料的要好——近70%的人知道。而水的二次利用方面,也有31%的人沒(méi)有這樣做,同時(shí)另外做到二次利用的人也有相當(dāng)一部分僅在有時(shí)進(jìn)行,離全民徹底開(kāi)始節(jié)水運(yùn)動(dòng),水的二次利用還有相當(dāng)?shù)木嚯x。
同時(shí)我們將繼續(xù)讓更多的人明白節(jié)約用水,二次利用水資源的重要性。同時(shí)本調(diào)查有70%的人為五六年級(jí)的小學(xué)生,調(diào)查反映這個(gè)整體對(duì)節(jié)水的認(rèn)識(shí)遠(yuǎn)不及大眾平均水平,讓青少年重視環(huán)境、水資源,教育青少年提高環(huán)境意識(shí)已經(jīng)亟不可待!
活動(dòng)屬性:
名稱(chēng):南京青少年環(huán)保組織關(guān)愛(ài)地球聯(lián)盟走進(jìn)水南京時(shí)間:2009年
地點(diǎn):南京市三叉河地區(qū);南京市閱江樓小學(xué)六年級(jí)、五年級(jí)數(shù)量:77份有效問(wèn)卷
聲明:CFERDC允許本調(diào)查結(jié)果非盈利性的自由傳播,不受版權(quán)限制,但必須標(biāo)注CFE或CFERDC及關(guān)愛(ài)地球聯(lián)盟的中文標(biāo)注