第一篇:大數據觀后感
2018年4月1日,我參加觀看了貴州省組織的“新時代學習大講堂”時代前沿知識專題講座第二期的直播,本期的主體是“大數據”。主講人是中國科學院院士,北京理工大學黨委常委、副校長,貴州省大數據產業發展應用研究院院長梅宏同志。他從認識大數據、應對大數據、應用大數據、現狀與思考四個方面作了全方面講解,并談了意見和建議。
總書記在中共中央政治局第二次集體學習時指出,大數據是信息化發展的新階段。善于獲取數據、分析數據、運用數據,是領導干部做好工作的基本功。所以,大力加快發展大數據是我們目前的重要工作之一。
梅院長在《認識大數據》中表示:大數據現象源于互聯網及其延伸所帶來的無處不在的信息技術應用、以及信息技術的不斷廉價化。近年來,大數據蘊含的巨大應用價值和潛力已被廣泛認知和期待,并興起了大數據研究和應用的熱潮,我們正在步入大數據時代。”他總結和概括了大數據的本質和內涵。在《應對大數據》一節分析了大數據對信息技術體系的挑戰以及相關的技術發展趨勢。在《應用大數據》一節中梅院長舉了大量的實例來介紹大數據應用的成功情況。梅院長指出,他第一次感受到時代和數據的變化是他領工資的時候,以前將工資裝入信封中,總是厚厚的一疊,突然有一天,信封里的厚度變薄了,里面只放一張工資條。,由此可見,數據時代給我們帶了很多的便利。
梅院長指出,大數據的發展也面臨著很多困難,如google的流感預測,2009年,GTF預判一個地區的流感爆發情況,其結果和CDC的數據十分接近,卻比CDC提前了一到兩周。這件事引發轟動后,其數據的準確性卻在不斷下降。其原因包括行為動機隨時間變化和模型本身可能改變人的行為等。由此可見,數據也會受很多因素的影響。梅院長舉了很多這方面的例子,如:人與機器同時回答一個問題:美國哪兩個機場是由人的名字命名的,對于人來說,只需要經過一些篩選就可以得出答案,對于機器來說,他的數據只要在“機場”和“人名”中的某一項不完善,則無法得出結論。所以,我們還面臨著很大的挑戰。
我們從硬件為王的時代到軟件為主導的時代,現在我們已經進入到了以數據為王的時代。我們都還處于初級階段,還未到達我們的預期,我們所說的智能化到底有多智能,我們還尚未得知。梅院長指出,我國要發展大數據,應該借鑒已有的模式,兼顧現狀和發展,建立符合我國國情的體系
這次講座中我學習到了很多大數據的相關知識,受益匪淺。
第二篇:大數據時代觀后感
淺談《BBC地平線系列——大數據時代》 現今的我們正處于一個時代轉型中,因為科技的發展與互聯網的日益強大,數據將逐步取代舊事物,創造出新事物。當今社會以一種前所未有的方式,通過對海量數據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。數據可以反映出很多項指標,特別是海量數據的處理下,如何挖掘獲得價值更是需要一種具有新型的復合能力人才,而得以用數據改變對世界的認知、改變市場、改變關系。以前單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代,運用大數據的處理與分析,為我們的生活創造出前所未有的可量化的維度。大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法。“總體=樣本”以前是做不到的,現在對于數據的儲存、處理能力、統計技術與數據資源等各方面都有了飛速的發展,信息總量的變化也導致量變到質變的飛躍,并在其中去捕捉隨機抽樣所無法揭示的細節。
片中洛杉磯警方的犯罪預測系統,其使用的數學模型居然是用來預測余震的模型,因為犯罪案件的發生規律與余震的發生規律具有同種模式。片中我們可以看到模型根據過往的犯罪數據記錄給出每一天最可能的案件發生類型和發生區域,而警方也確實通過這套系統抓獲了罪犯,降低了區域案件發生率。
另一個很有趣的地方是對經濟活動進行預測,片中的那家預測分析公司收集的數據極其龐大,為了預測當今人們的經濟活動,竟然需要收集從中世紀至今的商品價格。但即便如此,他們預測的結果也更多是概率上的差別,比如51%對49%這樣的比率,但僅僅2%的差別,就能夠產生重大的結果。
而對人們的購買習慣進行預測中,提到了一個數學分支:決策論。如何在紛繁復雜的各種決定中找到最關鍵和最重要的,進而簡化整個決策程序。這種理論的基礎來源于:在超市購物。哪種食品我們最需要?哪種買了之后就必須買另一種?等等。從預測人們的購買習慣,到載人登陸火星,決策論應用的方面相當廣闊。
從數據中挖掘出各種各樣的模式用于預測未來犯罪,個性化廣告,金融等等,天文觀測等等,數據挖掘的前景很光明,但是人們的干預對數據也可能產生一定的影響,警察去巡邏了當然犯罪率會下降啊。還是金融預測的那個例子說的在理:算法并不一定要預測的100%正確,只需要正確率比錯誤率高就有巨大利潤的可能
而以上這些,全都屬于大數據應用。由此看來,大數據并不神秘,它遠不像電視劇里講述的那樣讓人恐慌,它只不過是一種工具,就像我們會使用物理和化學知識一樣。雖然它必定會對這個世界產生深遠的影響,但最終決定如何使用的依然是我們自己。*** 魏子昂
第三篇:讀書報告——《大數據時代》觀后感
讀書報告——《大數據時代》觀后感
大數據時代,一個被嚼爛的詞匯,不知從何時起,興起了數據科學的狂潮,本書核心論點,第一,要全體不要抽樣,第二,要相關不要因果,第三,要效率不要精確。弊端:產業生態環境,數據安全隱私,信息公正公開。本書實例眾多,理論殘缺,可以說是舉了一系列的例子要論證觀點的,我們知道這種論證方式邏輯上存在謬誤。故而,本書可以說是一本數據科學的正面的背景教學,供談資。數據科學基礎:云計算,人工智能和機器學習,大規模處理結構數據算法,日漸增長的計算速度和數據規模的指數增加。
從硅谷到北京,大數據話題正在被傳播。隨著智能手機以及“可佩帶”計算設備的出現,我們的行為,位置甚至身體生理數據等每一點變化都成了可以被記錄和分析的數據。以此為基礎,反饋經濟等新經濟,新商業模式也正在開始形成。
大數據時代,我們可以有更全面的數據來研究,如樓上所說,甚至可以認為是樣本=總體,那么,就不用再做一些統計上隨機采樣的工作了,基于大數據的研究可以關注到統計研究上難以關注到的一些小的、個別的情況,這些情況往往會呈現出更大的價值。
在數據量很小的時候,研究往往會對精確度做很嚴格的要求,而大數據時代會把這些條件放的更加寬松,不然大數據很難應用于研究,這種情況下,盡管數據的準確度降低了,但大量的數據會給我們帶來額外的收益
基于前兩個轉變,我們不再尋找因果關系,而是去關注關聯關系,即傾向關注“是什么”,而不是“為什么”(翻譯此書的周濤不太認同這個觀點,他認為是現在一些基于機器學習的算法得出的結果驅使我們去僅僅關注關聯關系,因為我們現在很難把這些復雜算法轉換成因果關系了)
現在談論大數據的人真的很多,但是能全面的講述大數據的人我個人的感覺是不多的。作者從非技術這個角度,從思維、價值、隱私、管理這些角度來細致的講述大數據,這點我覺得是值得我們學習的,而且書中例子的結合,也很能看出作者的功力。
結合產品來談數據的話,我個人覺得產品的設計是可以融入數據元素的,從數據廢氣到數據的可擴展性,到挖掘數據的價值完善自身的產品,這些都是可以思考的點。很自然的冒出來的一個想法,在我們的產品設計里面,可以突出用戶留言之類的功能,通過這些功能的設計,收集對產品存在的問題、改進建議等等,或者說,這些功能以前也是有的,但是真正利用這些數據完善產品的思維卻是丟失的。大數據的意義,也就是從這些已存在的數據中發覺價值,利用這些數據完善自身產品、業務是數據的基本功能,對數據的二次利用,也是我們可以考慮的。結合《大數據時代》這本書,我覺的書中提到的數據創新的思路是我們很值得學習的。
跟個人比較緊密相關的,我比較感興趣大數據時代的角色定位,既有個人的定位、也有公司的定位,這個或許也是需要我再好好領悟的點吧。
至于《大數據時代》中提及的風險和掌控,這兩張特別是掌控,我想是大多數談論大數據人都很少去思考的,人人都想從大數據中分杯羹,但是大數據發展到一定階段,這些問題都會是比較突出的問題。
大數據時代的知識能輕松獲得,也并不意味著就能真正掌握知識。大數據時代的知識僅僅是一種資源,好比家中存放成百上千的書籍,如果不去研讀,知識和人依然無關。不管處于怎樣的一種時代,知識需要人們花苦功夫鉆研,否則再多的知識也無意義。另外,現在不少人,凡是有不懂的問題,習慣性地上網搜索,不做任何甄別地將網上的知識和答案奉為寶典。長此以往,久而久之會使大腦變得懶惰,思維變得遲鈍。大數據時代的知識,究竟是令人變得聰明還是愚笨?
《大數據時代》作者認為:“由大數據帶來對人的重新認識,不是在阿波羅神廟,而是在小世界網絡中,認識你自己。”我們從昨天的數據作用中認識自然、認識宇宙到今天通過大數據更多地認識網絡和社會,我們的認識更加全面、更加深刻、也更加廣泛。但是成就大數據的是無數努力造就小數據的人,他們探索大數據技術,認知大數據文化,并懷揣著對數據的敬畏和對規律的尊重。
我們本學期正在學習概率論與數理統計這門課,有人總是把大數據和統計學擺在兩個對立面,認為有了大數據之后統計學就會逐漸消亡,而我并不這么認為。首先,數據量的增加,有助于減小數據的誤差,如抽樣誤差等,能夠極大地提高各類分析的精準度,這是大數據對于統計學的直接影響之一。
盡管當今的”大數據“潮流使得我們獲得了海量的數據,但掌握這些海量的數據本身并無意義。真正的意義體現在對于含有信息的數據進行專業化的處理。要對大數據進行處理,即在樣本幾乎等于總體的情況下,以目前的分析方法以及分析設備成本較高,耗時較長。
相比之下,統計學的抽樣方法似乎顯得更加”經濟實惠“。在實際的運用中,統計學能夠以較低的成本,較少的數據,對數據進行精確度相對較高的的分析,這是大數據分析所無法替代的。
甚至有學者指出,很多情況下,只要有一定的數據,無關數據數量,分析結果不會有太大差別,因此大數據也就顯得不重要了。不敢說這話完全正確,但很大程度上說明了統計學對于數據分析處理的意義。通過一定的數據即可滿足人們對于數據處理的需要,統計學極大地提高了人們對于數據處理的效率。
大數據的來臨會推動統計學的發展,衍生出更多的發展方向,但絕不會替代統計學,也不會減弱統計學的效果與意義。
第四篇:大數據(推薦)
《新技術講座》論文2012-2013(1)
XXXX大學—
《微軟新技術系列講座》論文
大數據
一、背景及發展趨勢
1.1.背景
大數據(BigData),或稱巨量資料,指的是所涉及的資料規模巨大到無
/ 7
《新技術講座》論文2012-2013(1)
法透過目前主流軟件工具,在合理的時間內擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。大數據的4V特點:Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大數據作為時下最火熱的IT行業的詞匯,隨之數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數量的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
隨著云時代的來臨,大數據也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數
十、數百或甚至數千的電腦分配工作。
1.2.發展趨勢
斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將于2016年在網上和將獲得的數據,每5天沃爾瑪處理超過100萬客戶的交易每隔一小時,反過來進口量數據庫估計超過2.5 PB的是相當于167次,在美國國會圖書館的書籍。FACEBOOK處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時,現在可以在一個星期內實現。
“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業公司。這個行業自
/ 7
《新技術講座》論文2012-2013(1)
身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業務的快速。
大數據已經出現,因為我們生活在一個社會中有更多的東西。有46億全球移動電話用戶有1億美元和20億人訪問互聯網。基本上,人們比以往任何時候都與數據或信息交互。1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導致更多的識字信息的增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾字節。
大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分數據,得數據者得天下。
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。
大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,目前已進入大數據時代,但現在的硬件明顯已跟不上數據發展的腳步。
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而現在提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數據,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
雖然大數據目前在國內還處于初級階段,但是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業模式誕生,定位角度不同,或側重數據分析。比如幫企業做內部數據挖掘,或側重優化,幫企業更精準找到用戶,降低營銷成本,提高企業銷售率,增加利潤。
/ 7
《新技術講座》論文2012-2013(1)
未來,數據可能成為最大的交易商品。但數據量大并不能算是大數據,大數據的特征是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。據統計,目前大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。
二、實施應用
大的數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網,和可擴展的存儲系統。
“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”———哈佛大學 社會學教授加里·金
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的發展最終還是由軟件需求推動的,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基于塊和文件的存儲系統的架構設計以適應這些新的要求。
針對大數據的世界領先品牌存儲企業有:IBM、EMC、LSISandForce、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等 對于大數據的存儲問題,以下問題不可忽視:
容量問題
/ 7
《新技術講座》論文2012-2013(1)
這里所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產品,客戶可以將數據庫事務處理性能提高30倍,并且超過每秒4.0GB1的持續吞吐能力,非常適用于大數據分析。延遲問題
“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質可擴展存儲系統通過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSI Nytro系列產品等等都在蓬勃發展。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,大數據應用催生出一些新的、需要考慮的安全性問題,這就充分體現出利用基于DuraClass? 技術的LSI SandForce?閃存處理器的優勢了,實現了企業級閃存性能和可靠性,實現簡單、透明的應用加速,既安全又方便。
成本問題
對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro? MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,5 / 7
《新技術講座》論文2012-2013(1)
數據中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提升多達100倍。并且對主機系統是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,并且節電率高達60%,真正做到了節省成本的問題。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
針對小用戶
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的“大數據”存儲系統,主要吸引那些對成本比較敏感的用戶。
實際應用
/ 7
《新技術講座》論文2012-2013(1)
包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。
三、心得體會
聽完此次王老師的《大數據》講座,讓我受益匪淺。不僅充分了解了大數據的概念,大數據時代的起源、發展及實際應用產品的問世,而且對大數據的神奇很是驚訝。的確,未來的世界需要科技創新,需要技術變革,而大數據就是改變世界的助推器之一,作為即將進入IT行業的我們來說,這既是機遇,也是挑戰!
/ 7
第五篇:大數據讀后感
感于《大數據》
崮山裕祿學校 白海
我原以為《大數據》會是一本理論書籍。讀下去才發現該書很像西方的教科書,運用案例和講故事的方式,把美國數據開放、收集、使用背后的立法故事,公民故事,技術故事,商業故事娓娓道來,引人入勝,令我大開眼界。而更讓我驚訝的是,《大數據》并不是技術類的書籍,它的著重點是公共管理,是在談數據信息的公開,如何公開,如何收集,如何使用。對我們現在如何推動政務信息公開,財政支出公開,如何更好地發揮政府部門的數據服務民生,如何更好地實現社會公益組織與政府的和諧互動具有很好的啟發作用。
我心目中的好書,應該是能開闊視野,啟發思維,昭示未來的。我覺得《大數據》就是這樣的一本書。
首先說下這本書好的地方就是將大數據變化為一本科普讀物,不是講大數據的關鍵技術和具體實現,而更多的是圍繞美國政府基于數據的管理歷史線條展開,讓大家更加容易理解大數據在政府執政和公共事務管理中發揮的作用,所以我看完后最大的感覺就是關注智慧城市的相關人員完全有必要閱讀該書,會對以后在智慧城市的管理和建設中如何更好的理解大數據,應用大數據,發揮大數據本身的業務價值有更好的理解。
為何近幾年出現大數據,最重要的還是隨著信息技術和互聯網,管理的精細化,全球化和社交圈擴大,數據呈現了指數級的增長。2009年美國的數據,離散制造業966PB,政府848PB,傳媒行業715PB,這是麥肯錫2011年出版的一份報告《大數據:下一代創新,競爭和生產率的前沿》里面的一個估算。正是由于數據指數級的增長,對數據的開放,信息自由,數據的采集,數據的分析和處理,預測和決策提出了更高的要求。
信息自由,一為信息公開,二為信息發布。公開是政府和某一社會特定主體的關系,是點對點的;而信息發布是政府和社會的關系,是點對面的。信息自由法已經成為美國不可缺少的一個基本法案,只有信息自由才談得上進一步的數據開放和數據共享。我們信奉上帝,除了上帝任何人都要以數據說話。信息技術發展,數據指數級增長,已經徹底改變了政府,社會,商業群體的決策方法。需要的是形成一種數據驅動的決策方法,數據治國,需要基于實證的事實而非簡單的意識形態。而真正要讓數據能夠上升到決策層面,首先需要的就是數據大范圍采集,數據抽樣,數據測量和數據質量管理。另外數據驅動和事件驅動是兩種模式,數據驅動強調的是歷史和預測,而事件驅動強調的是實時和響應。大數據有一個維度專門是指速度和快速響應,更需要考慮事件驅動和數據驅動融合。
帝國法則,詳細講述了數據的收集法則,使用法則,發布法則和管理法則。數據能夠滿足既定的用途,它才有質量。如果不能滿足既定的目標和用途,就談不上質量。換句話說,數據的質量不僅取決于它本身,還取決于它的用途。數據質量的問題涉及到數據收集,使用,發布等所有過程的問題。數據質量管理要有標準,有流程,有救助機制。
從軟件的開源到數據的開放,我們過渡到一個新的世界,可以講數據開放式本身的另外一個重點。在這個新的世界里面,數據遠遠比軟件更加重要。從2004年以來,美國一直在進行數據開放運動,聯邦政府也專門家里了數據開放門戶網站DataGov,其主要目標就是通過數據開放,通過鼓勵新的創意,讓數據走出政府,得到更多的創新型應用。從而進一步鞏固政府透明化,民主化和政府效能。
數據之爭涉及到原始數據采集,數據質量,數據安全,數據粒度,數據價值,數據虛實多個維度。而DataGov不僅僅開放了原始數據,地理數據,還包含了數據分析工具的開放。數據開放為創新提供了無窮的燃料,因為創新型應用,數據的能量將逐層放大。
預測未來最好的方法,就是創造未來。而數據最大的價值仍然在預測上面,在解決了數據開放,數據采集,數據質量管理,數據處理后,最重要的作用就是基于數據進行科學的預測和決策。數據競爭將是企業贏之道,一些企業已經將他們商業活動的每個環節放在了數據收集,分析和行動的能力上。摘錄大數據中令人難忘的語句:
一個真正的信息社會,首先是一個公民社會。
永遠不要懷疑,那一小部分有思想并且執著努力的公民能夠改變這個世界。事實上,人類的歷史從來都是這樣最高深的技術是那些令人無法察覺的技術,這些技術不停的把它們自己編織進日常生活,直到你無從發現為止。