第一篇:從美國總統大選看大數據時代的數據新聞報道
從美國總統大選看大數據時代的數據新
聞報道
數據新聞是在大數據時代興起的一種跨學科、跨領域的新聞生產方式,它需要新的思維方式與多種能力的支撐。本文結合XX年美國總統大選報道,著重分析了英美各大主流媒體開展數據新聞報道的流程與特點。還探討了社會化媒體對于數據新聞的推動作用,以及數據新聞的興起與發展給新聞業者所帶來的挑戰。
在當前技術高速發展的信息化時代,信息(數據)規模的爆炸性增長是顯著特征之一。從近年發展情況看,“大數據”主要被人們用來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。“大數據”具有規模大、價值高、交叉復用、全息可見等特征。當前對于“大數據”的關注與運用主要集中在IT業、市場營銷、公共健康等領域,但事實上大數據的影響也波及到傳媒業,數據新聞(Data Journalism)就是在大數據時代興起的一種新的新聞生產方式。
數據新聞的報道流程
有關數據新聞的報道流程,不同的媒體與從業者進行了不同的概括、歸納。XX年8月,著名記者、數據驅動型新聞(data—driven journalism)項目負責人米爾科·洛倫茲提出了進行此類新聞報道的四個步驟,即挖掘數據——過濾數據——數據可視化——新聞報道制作完成。與此類似的是《衛報》的數據新聞編輯、數據博客Datablog負責人西蒙·羅格斯在《數據新聞分解步驟:在你見到的數據背后我們都做了什么》一文中的介紹。但他所展現的是一個多線程、全方位的報道流程:一方面處理數據,另一方面不斷檢驗、質詢數據的信度與價值,最后通過多種手段與渠道發布完成的報道。而伯明翰城市大學教授保羅·布拉德肖在《數據新聞的倒金字塔結構》中提出了如圖所示的“雙金字塔模型”(見圖一),更全面地揭示了整個報道過程中,數據在質量以及傳播上的變化。布拉德肖以倒金字塔來表示數據處理的過程,包括數據匯編、數據整理、了解數據和數據整合等四個部分。數據處理的最終目的是為了完成數據的可視化并實現有效傳播。而數據新聞的傳播則以“正金字塔結構”進行,包括了可視化、敘事化、社會化、人性化、個人訂制化和使用等六個步驟。
事實上,不管是上述哪一種歸納,獲取數據、處理數據、呈現數據都是數據新聞報道中不可或缺的三個階段。本文結合英美主流媒體“XX年美國總統大選”的數據新聞報道來對這三個階段進行解讀。
1.多渠道獲取海量數據。
數據新聞通常有兩種方式:先有問題,然后根據問題尋找相關數據;或是從海量數據中發現、提出問題。無論采用哪種方式,海量數據都是數據新聞報道的基礎。從業界實踐來看,它主要包括從政府、企業、機構等公開的數據庫中獲取的二手數據和由媒體自行調查或抓取的一手數據。前者成本低廉且可靠程度高,是目前最主要的數據來源。以《衛報》“XX年美國總統大選專輯”數據新聞報道為例,在整個專輯的55篇報道中,不僅有與總統選舉直接相關的選票數據、各州宣布選舉結果的時間、競選資金募集情況等內容,還涵蓋了各種經濟數據(如財政預算、債務、美國在對外戰爭中的花費)、美國人口基本統計特征數據以及各種社會數據等諸多相關背景資料。除了從政府公開的數據庫中獲得的二手數據之外,《衛報》還積極利用官方網站進行用戶調查以獲得一手數據。比如針對剛剛出爐的大選結果向全球用戶征詢意見,其后根據收到的用戶態度反饋數據,專門制作了《奧巴馬再次當選美國總統:全球民眾的態度》動態數據地圖。
2.全面謹慎地處理數據。
獲取海量數據僅僅意味著數據新聞的開端。和其他信源一樣,記者不應盲從,而需要對數據保留懷疑的態度。XX年度普利策調查性報道獎得主佩奇·約翰強調:所有的數據必須有來源,并經過交叉驗證。面對海量數據,記者首先應評價數據的質量與意義,需要認真考察諸如:數據來源是否可靠,時效性如何,出于何種目的、采用什么方法收集而來,包含了怎樣的主題,應選擇哪些數據等一系列問題。其次,對數據進行處理,包括去除不必要的、干擾性的數據,清理其中的各種誤差,并將來源紛雜、格式各異的數據轉換為統一格式。最終確定需要計算和呈現的數據。值得注意的是,在報道中并非使用的數據越多,故事就能講得越好,有時候憑借一個簡單的數據就能完成一篇好新聞。在完成對數據的運算后,還需要檢驗其結果的合理性,如果有異于常理的話則需要重新運算。
3.多元創新地呈現數據。
能夠對數據進行更準確的分析、更深層的解讀和更明晰的呈現是數據新聞的獨特優勢。數據新聞通常運用可視化技術,以信息圖表的形式發布。與文字報道相比,信息圖表能夠化繁為簡,并兼具形象化與趣味性,尤其適用于表達數據與地理、時間信息。它可以提示新聞要點、解析事件進程、揭示各類關系、展現分布狀態等等。信息圖表更符合視覺傳播時代用戶的習慣與偏好。從目前發展趨勢看,除了一般的靜態信息圖表之外,交互式信息圖表(Interactive Infographic)和動態信息圖表(Motion Graphic)在數據新聞中的應用也日漸增多。如《華爾街日報》制作的《XX年美國總統大選投票結果》報道就是在美國地圖上以紅藍兩色分別代表了民主黨與共和黨,其力量對比一目了然。而且當用戶將鼠標移到某一州所在的位置時,地圖上就會立刻出現該州的投票數據,非常直觀清晰。和靜態圖表相比,交互式圖表能夠通過一個簡潔界面向用戶傳遞大量信息。這種呈現形式更具個_生化和參與性,可以由用戶自行點選所關心的內容進行了解,而不只是簡單地推送信息。除了在信息圖表中運用文字、圖形、圖表、動畫之外,有的媒體還創新性地引入了視頻,從而有效拓寬了數據新聞的呈現形式。如美國國家公共廣播網(NPR)對全美各州的總統大選資金使用情況進行了梳理、統計,將這些帶有地理位置信息的數據加以整合,并以視頻的形式進行了直觀生動的展示。
數據新聞的推手與挑戰
社會化媒體的興盛給新聞生產與消費模式帶來了巨大沖擊。在社會化媒體與專業媒體融合的大趨勢下,借助互聯網,數據新聞搭上了社會化的快車。社會化媒體對數據新聞的助力主要表現在兩個方面:首先,社會化媒體是數據的重要來源之一。社會化媒體可謂是數據的“富礦”,記者可以從其上抓取數據,也可以通過它展開調查獲取一手數據。其次,專業媒體完成的報道可以經由社會化媒體分享、傳播并進一步擴大其影響。《衛報》“XX美國總統大選專輯”中有多篇報道就是通過抓取、分析Twitter上的信息制作而成。如《奧巴馬在推特上贏得了大選》就是通過分析在Twitter上抓取的關鍵詞:奧巴馬、羅姆尼、瑞恩、拜登等,來預測大選的結果。在大選結果公布之后,《衛報》還運用大選當天Twitter用戶主動發布的個人投票結果來統計用戶對于奧巴馬再次當選的態度,并根據所獲取的一手數據進行了視頻報道。該視頻于大選結束的次日上傳到Youtube,僅僅3天點擊量就已經超過XX人次。同時,《衛報》也將社會化媒體視為傳播其新聞報道的重要渠道之一,該專輯中的每一篇報道都設置有按鈕,以方便用戶在瀏覽時將其一鍵式分享到Facebook、Twitter、Google+和Linkedln開發的In share等多個平臺。事實上,通過對于社交化的強調,可以讓更多的用戶參與到數據新聞的制作與傳播中來,而個性化與社會化相結合的戰略也正是此類新聞未來的發展方向。
數據新聞報道是一個綜合、系統的過程,它需要新的思維方式與多種能力的支撐。其中,處理數據和設計、制作、發布信息圖表的能力對于新聞業者的挑戰尤為明顯,而對于這些能力的培養也應該成為新聞教育未來的方向和重點之一。
第二篇:大數據時代
大數據時代
近年來,隨著互聯網、移動互聯網、智能手機及傳感器等的普及,信息流量有了爆發性的增長,兩會以后,互聯網里最熱的詞匯,就是李克強總理在政府工作在報告里面提到的“互聯網+”,大數據將會更廣泛的被運用到各個領域,越來越多的業內人士開始談論“大數據”,如何利用大數據,成為政府和眾多企業關心的熱點?
互聯網+《大數據》緊緊圍繞這些問題展開,幫您如何利用大數據為企業從戰略上面進行指導挖掘和預測,從戰術上進行營銷服務和安全措施,精彩我們共同期待。
第一篇大數據很熱,大數據不神秘(趨勢)有人說,如果你不知道大數據,你就OUT了 --大數據到底有多熱 什么樣的數據算是大數據 --大數據的特點和概念辨析 亂我心者,大數據之事多煩憂 --大數據并不象你想象的那樣神秘 身邊的大數據
--大數據就在你我身邊
案例分析:淘寶是如何利用大數據淘寶的 小結:不管你愿不愿意,大數據已經在那里 電話:010---59002742 010--59004371 第二篇:認識大數據 1.什么是大數據 2.大數據應用的意義
3.大數據在企業經營中應用的意義 4.對大數據的認識誤區 案例分析
第三篇:大數據時代變革 1:大數據時代的思維變革 2:大數據時代的商業變革 3:大數據時代的管理變革
第四篇:大數據在營銷中的運用 大數據精準營銷 1.什么是精確營銷 2.精確營銷的方法 實操教學+案例分析
第五篇:在技術中應用 數據挖掘
大數據的核心價值——挖掘 1.什么是數據挖掘? 2.數據挖掘的流程 3.數據挖掘解決的問題 結合現場實操教學+案例分析
第六篇:預測
大數據的核心價值——預測 1:如何預測? 案例分析
第七篇:大數據與云計算 1:什么是云計算
2:大數據與云計算的關系
第八篇:大數據的安全問題
大數據給信息安全帶來新的挑戰和機遇 大數據存儲安全策略 大數據應用安全策略 大數據管理安全策略
第三篇:大數據時代
“大”數據時代 眾所周知,數據本身就蘊藏著價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對于企業的運轉至關重要,但是其他數據也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務前后的所作所為、如何通過社交網絡聯系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數據集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。
“大數據”這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和Google File System(GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪 潮的華彩樂章”。不過,大約從2009年開始,“163大數據”才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
大數據就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
第四篇:大數據時代
《大數據時代》讀書筆記
作者:邁爾舍恩伯格
出版發行:浙江人民出版社
版次:2013年1月第一版
讀者:物流一班、時菲陽
一、作者觀點
谷歌有一個名為“谷歌流感趨勢”的工具,它通過跟蹤搜索詞相關數據來判斷全美地區的流感情況。這就是一個典型的“大數據”的應用例子,舍恩伯格的這本《大數據時代》受到了廣泛的贊譽,他本人也因此書被視為大數據領域中的領軍人物。
作者提出了三點結論:第一,要盡可能分析事物相關的“全部”數據,而不是之前的隨機抽樣,即“樣本=總體”。第二,要樂于接受數據的繁雜,而不應過分追求其精確性。第三,重視大數據呈現的“相關關系”,而不要執于探索事物間的因果關系。
二、摘抄:
在甲型H1N1流感爆發的幾周前,互聯網巨頭谷歌公司的工程師們在《自然》雜志上發表了一篇引人注目的論文。它令公共衛生官員們和計算機科學家們感到震驚。文中解釋了谷歌為什么能夠預測冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區和州。谷歌通過觀察人們在網上的搜索記錄來完成這個預測,而這種方法以前一直是被忽略的。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成這項工作。
發現能夠通過人們在網上檢索的詞條辨別出其是否感染了流感后,谷歌公司把五千萬條美國人最頻繁檢索的詞條和美國疾控中心在03年至08年間季節性流感傳播時期的數據進行了比較。其他公司也曾試圖確定這些相關的詞條,但是他們缺乏像谷歌公司一樣龐大的數據資源、處理能力和統計技術。
雖然谷歌公司的員工猜測,特定的檢索詞條是為了在網絡上得到關于流感的信息,如“哪些是治療咳嗽和發熱的藥物”,但是找出這些詞條并不是重點,他們也不知道哪些詞條更重要,更關鍵的是,他們建立的系統并不依賴于這樣的語義理解。他們設立的這個系統唯一關注的就是特定檢索詞條的頻繁使用與流感在時間和空間上的傳播之間的聯系。谷歌公司為了測試這些檢索詞條,總共處理了4.5億個不同的數字模型。在將得出的預測與07年、08年美國疾控中心記錄的實際流感病例進行對比后,谷歌公司發現,他們的軟件發現了45條檢索詞條的組合,一旦將它們用于一個數學模型,他們的預測與官方數據的相關性高達97%。和疾控中心一樣,他們也能判斷出流感是從哪里傳播出來的,而且他們的判斷非常及時,不會像疾控中心一樣要在流感爆發一兩周之后才可以做到。
所以,09年甲型H1N1流感爆發的時候,與習慣性滯后的官方數據相比,谷歌成為了一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常有價值的數據信息。驚人的是,谷歌公司的方法甚
至不需要分發口腔試紙和聯系醫生——它是建立在大數據的基礎之上的。這是當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。基于這樣的技術理念和數據儲備,下一次流感來襲的時候,世界將會擁有一種更好的預測工具,以預防流感的傳播。
三、感想:
看完本書有如下感想:
首先,作者站在理論的制高點上,條理清楚地闡述了大數據對人類的工作、生活、思維帶來的革新,大數據時代的三種典型的商業模式,以及大數據時代對于個人隱私保護、公共安全提出的挑戰。其次,文中的事例貼近現實生活,貼近時代,令讀者既印象深刻,又感同身受。此外,作者沒有使用大量的專業術語,沒有假裝一副專業的面孔。縱觀全書,遣詞造句,均通俗易懂。
其次,作者認為大數據時代具有三個顯著特點。
一、人們研究與分析某個現象時,將使用全部數據而非抽樣數據;
二、在大數據時代,不能一味地追求數據的精確性,而要適應數據的多樣性、豐富性、甚至要接受錯誤的數據。
三、了解數據之間的相關性,勝于對因果關系的探索。“是什么”比“為什么”重要。
最后,作者指出,隨著技術的發展,數據的存儲與處理成本顯著降低,人們現在有能力從支離破碎的、看似毫不相干的數據礦渣中抽煉出真知爍見。在大數據時代,三類公司將成為時代的寵兒。一是擁有大數據的公司與組織。如政府、銀行、電信公司、全球性互聯網公
司(阿里巴巴、淘寶網)。二是擁有數據分析與處理技術的專業公司,如亞馬遜、谷歌。三是擁有創新思維的公司,他們可能既不掌握大數據,也沒有專業技術,但卻擅長使用大數據,從大數據中找到自己的理想天地。
第五篇:大數據時代讀后感
《大數據時代》讀后感
看完“《大數據時代》——生活、工作與思維的大變革”,頗為感慨,這世界變化真的快!農業化、工業化、信息化時代的相繼經歷,使得世界天翻地覆。
我們不再熱衷于尋找因果關系,而應該尋找事物之間的相關關系。這個命題是我讀這本書最大的感觸。個人認為也是這本書最核心的思想。首先,書提出一個顛覆我以前認知的命題--“并非原子而是信息才是一切的本源”,將世界看做信息,看做可以理解的數據的海洋,為我們提供了一個從未有過的審視下的視角。它是一種可以滲透到所有生活領域的世界觀。這個命題是在書的最后一部分中的某一段中描寫的。我之所以把它放在最前面來講,因為我覺得,這是談數據化世界的前提,自然也是談論大數據的前提。書的中間部分有一節講到數據化和數字化的區別。經過我自己腦子的整理,把數據化世界這個命題列為大數據思維的第二步。寫到這里,我不由得反省下,我是不是有領悟到書的精髓所在,就是第一句話。書中另一個吸引我的地方就是,有很多觀點的論述,會從哲學的高度論述。雖然,自己肚子沒多少墨水,但是讀這些描述的時候,就會發現自己會更好的理解作者提出的命題。比如書中有一段文字
當我們說人類是通過因果關系了解世界時,我們指的是我們再理解和解釋世界各種現象時使用的兩種基本方法:一種是通過快速、虛幻的因果關系,還有一種就是通過緩慢、有條不紊的因果關系。大數據會改變這兩種基本方法在我們認識世界時所扮演的角色。
在附上一些事例的時候,用作者提供的“本質”去看待時,很容易理解,確實是這么回事。好了,那么大數據到底改變了我們什么呢,作者給出3點,大數據的精髓在于我們分析信息時的三個轉變,這些轉變講改變我們理解和組建社會的方法。
第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣(樣本=總體)
第二個轉變就是,研究數據如此之多,以至于我們不再熱衷于追求精確度
第三個轉變因前兩個轉變而促成,即我們不再熱衷于尋找因果關系,而應該尋找事物之間的相關關系。大數據告訴我們“是什么”而不是“為什么”。在大數據時代,我們不必知道現象背后的原因,我們只要讓數據自己發聲。
正如大家所知道的那樣,人類的大腦具備這樣的功能,它會把新輸入的刺激或信息與“過去的經驗或積累的部分知識”相對照,然后進行調整并接受下來。如果眼前新的現實與大腦中儲存的固有信息無法協調,便會在無意識中拒絕接受新的現實;或者通過自己一知半解的知識任意推測,使自己認識到的情況偏離實際。這是人的一種本能,目的在于使自己保持冷靜。所以作者稱之為revolution。
講了這么多,那么大數據到底給我們帶來什么。在這里,我只想談我感觸最深的,其他的有興趣的可以自己去了解。當然,書中提了很多,最多的就是,XXX公司或者個人利用大數據創造了多大的財富了,拋開這些表面的不說,最讓我動心亦或者是害怕的是---預測。
大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。一封郵件被作為垃圾郵件過濾掉的可能性,輸入的“teh”應該是“the”的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的范圍。當然,如果一個人能及時穿過馬路,那么他亂穿馬路時,車子就只需要稍稍減速就好。但是這些預測系統之所以能夠成功,關鍵在于它們是建立在海量數據的基礎之上的。此外,隨著系統接收到的數據越來越多,通過記錄找到的最好的預測與模式,可以對系統進行改進。
在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。計算機系統可以發揮作用的領域遠遠不止駕駛和交友,還有更多更復雜的任務。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯網站排序,facebook知道我們的喜好,而linkedin可以猜出我們認識誰。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。
就像互聯網通過給計算機添加通信功能而改變了世界,大數據也將改變我們生活中最重要的方面,因為它為我們的生活創造了前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。
這是大數據帶來最核心的東西,動心的理由無須贅述,計算機會告訴你什么時候買什么雙色球可以中頭獎,想想心里是不是有一點小激動咧。當然這只是我打的一個比較夸張的比喻。至于害怕呢,書中有段話我很喜歡
公平正義的基礎是人只有做了某事才需要對它負責,畢竟,想做而未做不是犯罪,社會關系于個人責任的基本信條是,人為其選擇的行為承擔責任。如果大數據分析完全準確,那么我們的未來會被精準的預測,因此在未來,我們不僅會失去選擇的權利,而且會按照預測去行動。如果精準的預測成為現實的話,我們也就失去了自由意志,失去了自由選擇的權利。既然我們別無選擇,那么我們也就不需要承擔責任。這不是很諷刺嗎。
扯到這里,順便扯一下,書中另一段關于自由意志的描述
在哲學界,關于因果關系是否存在的爭論已經持續了幾個世紀。畢竟,如果凡事皆有因果的話,那么我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果。而這個結果又是由其他原因導致的。以此循環往復,那么就不存在人的自由意志這一說了。----所有的生命軌跡都只是受因果關系的控制了。因此,對于因果關系在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意志相對立。
書中舉了個例子,舉了部電影《少數派報告》,當我看到這里的時候,“哎喲,我居然看過這部電影,想想心里還是有點小激動”,有興趣的可以去看下,大概就是講警察通過預測來提前抓捕犯人,不過不是通過大數據,是通過超人類的方式。當你什么舉動都可以被預測,相當于你完全暴露在太陽光下,換成你,你害怕不。
最后,附上兩段結語,一段是書中的一段話,另一段是我自己瞎編的大數據并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
大數據終將會影響到我們,也像其他技術一樣會是一把雙刃劍,用得好,動心,濫用,害怕。如同核技術一樣,用的話,造福地球,濫用,給個金剛石地球你,照樣爆。我相信,未來的大數據的發展會如作者所說的,是一場生活、工作與思維的革命。
無論如何,大家看到這四個是不是有種,不管我上面扯得有沒有道理,通不通順,下面的話,會很有道理的樣子的錯覺(抄襲于《棟篤笑》)OK,無論如何,日子還是得照過。施主,我看你骨骼驚奇,是個練武奇才,最后送上《九陽神功》心法,以后維護世界和平的重任就交給你了。
他強由他強,清風撫山岡。
他橫由他橫,明月照大江。
他自狠來他自惡,我自一口真氣足。
無處不在的大數據:各種云計算,谷歌的神通,亞馬遜的推送,天涯人肉,微博萬能等等等等,我們掌握了新的工具,也獲取了以前從未有過的各種信息。大數據拉近了我們與現實的距離,“地球村”變成了“地球屋”,仿佛所有人所有事物都觸手可及,而這些牛逼哄哄的互聯網巨頭就在客廳展示著世界的每一寸光景。
然而,事實真的是這樣嗎?首先,從應用角度出發,低廉的運算能力和存儲空間,讓以前的樣本分析顯得非常簡陋——一些從全體數據挖掘出來,忽略精確而從大量數據的簡單算法得出來的結論顛覆了常識。但個人覺得,這只是統計學的終極目標——并沒有非常大的跨越,可能終結了回歸分析,有效性驗證等手段,但依舊還是統計。而革命性在于關注相關關系而非因果關系。現場討論從神學角度挑戰了因果關系的不可能——或者說人類用簡單思考的邏輯來定義因果,以及用之前小數據演繹出大概率事件來推導因果,都是不正確的。真正的因果關系應該屬于上帝的范疇,人類如果真的完全掌握之后,會統治整個宇宙。但我覺得,無需從神學觀點來討論,而可以借鑒量子力學對經典力學的顛覆——在原子層面上,經典力學會失效——那么在大數據層面上,普通的抽樣調查直觀反映會失效。而且從量子力學角度是很難推導經典力學的公式,那么從現在的慣有思維,也難以推導出大數據的因果關系。同時現場有討論,是否計算機可以精確地模擬每個原子,然后完整地展現微觀到宏觀的化學反應細節?我覺得首先是計算能力不足,其次即便設定原子的運動條件真的正確,計算結果未知但宏觀結果我們卻已經知道——牛頓的經典力學足以應付日常絕大部分情況了。好比切西瓜,究竟刀頭的鐵原子和西瓜的有機分子如何作用,真的重要嗎?回歸到商業領域,如果我們可以提高相關性的準確度,從而提高投入效率,那就已經足夠了。本來一個產品受到一半客戶喜歡,但如果通過大數據挖掘到更好的定位,有百分之八十的客戶喜歡,那么價值已經非常可觀了。
大數據幫助我們把未來的迷霧撥開了一點,但好比《沉重的肉身》當中討論的,更多的選擇權并不能帶給人幸福——因為知道自己不能做不能得到的也更多了。解決工作模式,生存意義,幸福之道等問題,關鍵還是看自己如何看待和使用這些新式工具以及新結論。引用《神探伽利略》里面的臺詞:可被重復的,一定有道理存在。那么現在重復的越來越多,更需要保持探索和敬畏之心,人才不會迷路。