第一篇:題三據調查
收銀員理論試題三
一、單項選擇題
1.據調查,顧客對零售企業有關項目的最關心為:商品容易拿到占15%;占25%;商品豐富占15%;占14%;占13%;占8%;商品價格便宜占5%。(A)。
A.開放式容易進入B.購物環境清潔明亮C.服務人員的態度D.商品標價清楚
2.我們所說的消費者權益保護法是指1993年10月31日頒布、(B)起施行的《中華人民共和國消費者權益保護法》。
A. 1993年1月1日b. 1994年1月1日 c. 1995年1月1日d.. 1996年1月1日
3.《消費者權益保護法》的頒布實施,是我國第一次以立法的形式全面確認(C)的權利。
A.經營者b.生產者c.消費者d.其他
4.我國消費者權益保護法的基本原則是(A)。
A.國家對消費者特別保護的原則b.國家對生產者特別保護的原則 c.國家對經營者特別保護的原則d. 其他
5.消費者不僅包括為自己生活需要購買物品或接受服務的人,也包括為了(C)等需要而購買商品,以及替家人、朋友購買物品,代理他人購買生活用品的人。
A.生產需要b.經營需要c.收藏、保存、送人d.其他
6.經營者提供商品或者服務,按照國家規定或者與消費者的約定,承擔(A)責任,也就是通常所說的“三包”。
A. 包修、包換、包退b.包用、包換、包退c.包裝、包換、包退d.其他
7.社會成員的消費分為(C)兩種。
A. 生活性消費b.生產性消費c.生活性消費和生產性消費d..其他
8.非法出具金融票證罪,是指(A)違反規定為他人出具信用證或者其他保函、票據、存單、資信證明,造成較大損失的行為。
A. 銀行或者其他金融機構及其工作人員b.理貨員c.保安員d.其他
9.(A)是指銀行或者其他金融機構及其工作人員,違反規定為他人出具信用證或者其他保函、票據、存單、資信證明,造成較大損失的行為。
A. 非法出具金融票證罪b.洗錢罪c.偽造貨幣罪d.生產、銷售偽劣商品罪
10.下列物品屬于商品的有(D)。A.自產自用的蔬菜B.報廢的勞動產品C.江河中的沙石D.商場銷售的童裝
11、商品盤點的第一程序是:(A)A、商品整理、抄寫盤點表 B、盤點的初點和復點
C、進行抽查復核,抽查率不低于5%
12、商品布局第一磁石應配置的商品為:(C)A、消費量小的商品 B、價格高的商品 C、消費頻度高的商品
13、顧客非理性消費的商品,是在什么環境下決定的(B)A、是商品陳列決定的 B、是由賣場的促銷商品決定的 C、是貨架豐滿的商品決定的14、收銀情況復核和查對的第一程序是:(A)A、清點現金和結算單據B、賬實核對 C、上繳錢款
15、收銀排班工作的基本原則(C)A、減少人員的原則 B、降低人工成本的原則 C、保證正常經營的原則
16、商品銷售結構分析的依據是:(B)A、日常生活的必需品銷售 B、銷售匯總表C、毛利高的商品銷售
17、商品的更新率一般應控制在。(C)A、15%左右 B、20%左右 C、10%以下
18、收銀員按購物小票上的原付款方式退款(A)A、現金消費退現金 B、禮品券消費退商品 C、銀行卡消費退現金
19、紙上的打印區域有白條應采取的方法是:(B)A、打印頭燈沒有完全關緊 B、打印頭壞,換打印頭 C、標簽傳感器沒調整好
20、商品分類的主要原則是:(A)A、生鮮類食品與熟食食品分開 B、服裝與外衣商品分開 C、海鮮類應與魚類商品分開
21.收銀員又稱為(a)是指商業零售企業從事面向顧客收取貨幣資金、支票等各種工作的人員。
A.收款員B.出納C.會計D.財務主管
22.下列(c)不是收銀員的職業特點。
A.專業性B.責任性C.定型性D.服務性
23.(a)是收銀員的服務對象。A.消費者B.經理C.會計D.批發商
24.健康的身心素質包括健康的體魄和(c)。
A.健全的人格B.清醒的頭腦C.健全的心理D.忍耐力
25.作為一名收銀員,不但要掌握一般的(a),還要有良好的品德和優雅氣質。A.財務知識B.禮儀知識C.售后技能D.營銷知識
26.按企業在商品流通中所處地位和作用分批發企業和(D)。A.國有獨資企業B.集體所有制企業C.股份有限責任公司D.零售企業
27.內部以百貨店或大型綜合超市作為核心店,各種專業店、專賣店、餐飲、娛樂設施共同構成的零售業態是(D)。
A.便利店B.折扣店C.百貨店D.購物中心
28.商品平均價格低于市場平均水平,自有品牌占有一定的比例的零售業態是(B)。A.便利店B.折扣店C.百貨店D.購物中心
29.不屬于無店鋪零售業態有(D)。
A.網上商店B.自動售貨亭C.電話購物D.便利店
30.下列不屬于零售企業特點的有(B)。
A.服務對象是最終消費者B.大宗的、整批的交易
C.直接為消費者服務D.交易次數多,每筆交易數額小
31、做合格的收銀員應主要體現在(A)
A、樹立愛崗敬業的職業觀 B、樹立顧客至上的服務意識 C、樹立自我保護意識 D、說好第一句話
32、收銀員應具備(B)。
A、樹立服務至上的意識 B、愛崗敬業的品格和對工作盡心盡責的態度 C、樹立顧客第一的意識
33、收銀工作技術性很強,要熟練掌握(D)。
A、服務的知識 B、計算機知識 C、顧客心里學知識 D、各項專業技能和相關專業知識
34、營業后工作流程有(B)
A、為顧客做裝袋服務 B、清點營業款和相關票據 C、做到唱收唱付,雙手將找零款交到顧客手中
35、收銀員基本的職業操守是(A)
A、遵紀守法、嚴謹敬業 B、接待顧客,服務顧客 C、尊敬老人、殘疾人
36、商品按包裝貨物種類分類可以分為:(C)
A、商業包裝 B、工業包裝 C、食品、醫藥、輕工產品、針棉織品、家用電器
37、在普通支票左上角劃兩條平行線的為劃線支票(A)A、能用于轉賬 B、能支取現金C、代為支付現金給收款人
38、支票金額的起點為是。(B)A、50 B、100 C、50039、一般情況下,對已售出的商品退換貨是有時間限制的,不同的商品退換貨的時間不同,一般商品的退換貨期限為。(A)A、7天 B、15天 C、30天
40、中華人民共和國勞動合同法》已由中華人民共和國第十屆全國人民代表大會常務委員會第二十八次會議于2007年6月29日通過,自起日施行。(C)A、2008年3月1日 B、2008年5月1日 C、2008年1月1日
二、多項選擇
41、收銀員的職業道德與行為規范包含:(ABD)
A、樹立愛崗敬業的職業觀 B、樹立顧客至上的服務意識C、樹立自我保護意識 D、說好第一句話
42、收銀員工作中的守則是(AD)
A、身上不可帶有現金B、隨時打開抽屜清點現金 C、不忙時可看報紙、雜志D、不應為親朋好友結算收款
43、商業主要打折的方式是:(AB)A、節日打折B、假日打折C、時段折扣D、困綁銷售
44、收銀員的崗位按照國家職業標準,收銀員共設:(ABC)
A、初級(國家職業資格五級)B、中級(國家職業資格四級)C、高級(國家職業資格三級)D、技師(國家職業資格二級)
45、按商品經營模式劃分零售企業類別,可分為:(AC)A、獨立店和連鎖商店 B、家居店和電器店商店
C、消費合作社、國有零售商店等。
46、人民幣券別分別是:(ACD)A、1元、2元、5元、10元
B、20元、50元、100元、200元 C、1角、2角、5角 D、1分、2分、5分
47、簽發支票應使用的筆是。(AB)A、墨汁 B、碳素墨水 C、鋼筆 D、圓珠筆
48、收銀員在接待顧客的全過程中,服務用語工作中要做到:(AD)A、不講粗話、臟話 B、閑時與顧客聊天 C、忙時可以催促顧客 D、不講譏諷挖苦的話
49、收銀員在接待顧客時,要使用尊稱:(BC)A、“喂”、“那個人” B、“先生”、“女士” C、“您”、“小姐”“小朋友”
50、計價收款即計算貨款和收款找零時的基本要求是: A、計價要準確(AB)B、計價要快速
C、在收取貨款遇到人多時可以時不唱收唱付
51、收銀員在生活和工作中難免會遇到一些不順心的事情而導致自己心境不佳,情緒低落。(AC)
A、調整好自己的情緒 B、順其自然 C、要自我控制
52、勞動者的義務(BC)A、在時間容許的條件提高職業技能
B、勞動者應勞動者應當完成勞動任務 C、遵守勞動紀律和職業道德,執行勞動安全衛生規程
53、勞動合同的期限分為:(AC)A、有固定期限 B、長期和短期合同 C、無固定期限和以完成一定的工作任務為期限
54、收銀機主體維護要:(AB)
A、要經常清除機器轉動部位和字輪、字鍾的紙屑、紙毛、異物。清除油污、擦拭機器 B、定期檢查、緊固松動的螺釘,保證機器處在最佳的工作狀態
C、收銀機的維護應當周期性地定時進行,在正常使用情況下,維護的時間應在2-3個月內。使用頻繁的應每3個月維護一次
55、收銀機報警常見原因:(ABC)A、打印機內塵土、紙悄多,擋住傳感器,B、應打開機蓋用吸塵器或吹風機清理內部; C、有物品壓在收銀機鍵盤上 D、電源插頭是否碰掉
56、商品編碼規則(ABD)A、惟一性 B、穩定性 C、科學性 D、無含義、全數字型
57、食品類商品標識應有:(ACD)
A、中文標明包括食品名稱、商標品牌、生產者或經銷者的名稱、地址、B、餅干食品可以不標保質期限
C、配料、凈含量、主要成分名稱、生產日期、保質(存)期、產品標準號、批號 D、食品添加劑說明、儲藏方法、質量等級等內容
58、一般情況下,對已售出的商品退換貨是有時間限制的(AC)A、7天內可辦理退換貨 B、15天內可辦理退換貨
C、鞋類商品的退換貨期限為30天 D、10天內可辦理退換貨
59、商品價格差異處理方法(AC)
A、商品貨架標注價格與系統顯示價格不一致時,應以低價進行交易 B、商品擺放位置放錯到高價格位置時,應以商品高價進行交易 C、商品價格條碼的價格與系統顯示價格不一致時,應以低價進行交易
60、賬實不符的處理方法:(AC)A、如果是帳務的差錯,則糾正帳務
B、能夠查明原因的商品,應填寫“財產損益報告單”上報 C、如果是有關人員失職造成的差錯,則責令其賠償
三、判斷題
61.商業企業按所有制形式分類,可分為公有制商業企業和非公有制商業企業。(√)
62.批發企業是以大宗的、整批的交易批量,供應零售企業或其他批發企業用作交易,或者供應生產企業用作進一步加工并銷售的商業企業。它處于商品流通的終點環節。(×)
63.百貨店位于城市繁華區的交通要道或郊區重要地段,目標顧客以追求時尚和品味的流動顧客為主。(√)
64.零售企業是以商品直接供應居民用作生活消費或供應集團單位用作非生產和生活消費的商業企業。(√)
65.據調查表明,在零售企業里播放慢節奏的音樂會使顧客在店內流連的時間縮短,而導致購買的商品減少。
66.一個合格的收銀員,只要能快速、準確地為客人提供好結算服務就行了。(×)
67.收銀員在上崗前需要佩戴工號,檢查妝容,做到著裝整齊,儀表端莊。(√)
68.收銀員在找零時只需將零錢和小票放在收銀臺上即可。(×)
69.收銀員在接待顧客時需要面帶微笑。(√)
70.在大拍賣時,零售企業就可以播放一些節奏較快、旋律較強勁的樂曲,使顧客產生搶購的沖動。(√)
71.國家綜合運用立法、行政、司法等手段實現對消費者權益的保護。(√)
72.消費者消費行為的客體僅僅是商品。(×)
73.經營者不得對消費者進行侮辱、誹謗,不得搜查消費者的身體及其攜帶的物品,不得侵犯消費者的人身自由。(√)
74.經營者保證商品質量的義務不是一項法定義務,而僅僅是一項約定義務。(×)
75.商品編碼按其所用的符號類型分為數字代碼、字母代碼、字母數字混合代碼和條形碼四種。(√)
76.只有當標準碼尺寸超過總印刷面積的15% 時,才允許申報使用縮短碼。(×)
77.若同一筆交易有若干張發票,只有其中一張發生錯誤時,應將所有發票同時收回一并辦理作廢,再重新開具發票。(√)
78.收銀員在收到假幣時可以沒收上繳公司。(×)
79.條碼閱讀器是POS機的核心,控制著POS機的運行。(×)
80.敞開式銷售方式的貨架下層不易看清陳列商品,可以采用傾斜式陳列。(√)
81、收銀員應具有自然清點狀態下初步識別假幣的能力,對有疑問的錢幣上交銀行處理。(×)
82、收銀員移動收銀機及外部設備時,可以不切斷電源直接進行,以避免造成短路。(×)
83、收銀機顯示器的維護使用時,先檢查顯示器的電源開關是否在打開狀態,顯示器與主機的連線是否完好,如遇到無任何顯示時,要檢查顯示器的亮暗度旋扭。(√)
84、不要將金屬物品或水杯等放在機器上,一旦使金屬物或液體進入機器,會引起短路而損壞機器。(√)
86、不同型號的收銀機,出現的常見故障基本一樣,解決問題的方法也基本一樣。(×)
87、EAN條碼由前綴碼、廠商識別碼、商品項目代碼和校驗碼組成。前綴碼是國際EAN組織標志各會員組織的代碼,我國為691、692和693。(×)
88、UPC條碼是美國統一代碼委員會制定的一種商品條碼,主要用于美國和澳大利亞地區。(×)
89、按照條碼掃描器的使用方式不同可分為手持式條碼掃描器、小滾筒式條碼掃描器、平臺式條碼掃描器。(√)
90、單項取消鍵,是交易時取消已經錄入的一件商品,按此鍵后輸入要取消單品的商品編碼或條形碼,將取消該單品。(√)
91、收銀員的工作職能主要是對顧客所購買的商品查點與收款,從而使商店的營業收入以貨幣形式得以體現(√)
92、收銀員是指在商業零售企業從事面向顧客收取現金(含現鈔、支票、各種金融支付卡等)工作的人員(√)
93、發票只限于用票單位和個人填開使用,不得轉借、轉讓、代開發票;未經國家稅務機關批準不得拆本使用發票(√)
94、價格促銷就是利用商品降價以吸引消費者增加購買量。折扣優惠是讓消費者在購物中直接得到價格優惠,其實質也是降價,包括一次性折扣、累計折扣、折價券折扣、季節折扣與限時折扣等。這是超市最常用的促銷方式。(√)
95、使用電子收銀機開具發票的企業,須經主管稅務機關批準,并使用稅務機關統一監制的機外發票,開具后的存根聯應按照順序號裝訂成冊(√)
96、收銀員的工作職能主要是對顧客所購買的商品查點與收款,從而使商店的營業收入以貨幣形式得以體現。(√)
97、檢驗支票有效性的要點包括要看是否在規定的有效期十天之內,日期務必大寫(√)
98、支票需要填寫的部分要齊全、正規,需要時候簽字也能涂改(×)
99、針對收銀工作造成的商品損耗,比如在點鈔、收銀、兌換、找零過程中造成的損耗,由當事人負擔損失,并填寫登記表單進行記錄(√)
100、收銀工作是商店日常經營銷售中的重要環節(√)
第二篇:關于對證據調查的申請
關于對證據調查的申請
利辛縣人民法院民三庭:
2014年5月20日貴庭依法審理了陸振訴我本人及利辛縣智誠置業有限公司一案。在庭審過程中,陸振本人沒有到庭,其代理律師向法庭舉證了一份陸振發給我的短信,短信內容的真實性我暫且不作追究。首先,陸振本人早先就有我的銀行賬號,他若真想還錢,無需多此一舉;其次,他的親戚海峰在所舉證的短信中口口聲聲說已經準備好了所還款項,但就遲遲不將款項匯入陸振所早已經知道的我的銀行賬號,這種自欺欺人的伎倆,我早已看透。借債還錢天經地義,在我屢次追討無果的情況下,我只有無奈地等待,好在是公司的實體在那里,土地他無法搬走,股權他更無法竊取,在這法制社會里我對法律抱著足夠的信心,坐看他花招耍盡,現在他又來起訴我不給他賬號,這種賊喊捉賊方式真讓人作嘔。
現在,我申請貴庭對陸振所說的準備好的還款資金進行調查,以查明他的賬號里是否真正存有他所說的壹仟柒佰肆拾柒萬伍仟元還款資金,以拆穿謊言,讓事實大白于天下。
特此申請!懇請明察!
申請人:
二〇一四年六月二十日
第三篇:大數據調查論文翻譯
一個大數據的調查
陳敏、毛詩文、劉云浩
摘要:在這篇論文中,我們將回顧大數據的背景以及當前發展狀況。我們首先介紹大數據的一般應用背景以及回顧涉及到的技術,例如:云計算、物聯網、數據中心,以及Hadoop。接下來我們著重大數據價值鏈的四個階段,也就是:數據生成,數據采集,數據存儲和數據分析。對于每個階段,我們介紹應用背景,討論技術難題以及回顧最新技術。最后,我們介紹幾個大數據的代表性應用,包括企業管理,物聯網,在線社交網絡,媒體應用,集成智慧,以及智能電網。這些討論旨在提供一個全面的概述以及對讀者感興趣的領域的藍圖。這個調查包括了對開放問題和未來方向的討論。
關鍵字 大數據 云計算 物聯網 數據中心 Hadoop 智能電網 大數據分析
1、背景
1.1大數據時代的曙光
在過去的二十年,數據在各種各樣的領域內爆炸式增長。按照2011年來自國際數據公司(IDC)的報告,世界上總共的創建及復制的數據量達到1.8zb,在五年內增長了大約九倍[1]。在未來這個數字至少每兩年增加一倍。在全球數據的爆炸增長下,大數據這個詞主要來描述巨大的數據集。與傳統的數據集相比,大數據通常包括非結構化數據,這需要更實時的分析。另外,大數據也能在發現新價值上帶來新優勢,幫助我們幫助我們獲得一個深入隱藏價值的認識,也導致新挑戰,例如,如何有效地組織和管理這樣的數據集。近日,行業產生興趣的大數據的高潛力,許多政府機構公布主要計劃加快大數據的研究和應用[2]。此外,大數據問題往往覆蓋在公共媒體,如經濟學[3,4],紐約時報[5],和全國公共廣播電臺[6,7]。這兩個主要的科學期刊,Nature和Science,還開通了專欄討論大數據的挑戰和影響[8,9]。大數據的時代已經到來超越一切質疑[10]。
目前,與互聯網公司的業務相關聯的大數據快速增長。例如,谷歌處理的數據 達數百拍字節(PB),Facebook的生成日志數據每月有超過10 PB,百度一家中國公司百度,業務流程有數十PB的數據,而阿里巴巴的子公司淘寶每天的網上交易產生幾十太字節(TB)的數據。圖1示出的全球數據量的熱潮。當大型數據集的數量急劇上升,它也帶來了許多具有挑戰性的問題,解決方案如下:
圖
一、持續增長的數據
信息技術的最新發展(IT)使其更容易以產生數據。例如,每分鐘有平均72個小時的視頻上傳到YouTube[11]。因此,我們面臨的主要挑戰是從廣泛分布的數據源中收集和整合大量的數據。
云計算和物聯網(IOT)的快速發展進一步促進數據的大幅增長。云計算提供了安全措施,訪問網站以及數據資產的渠道。在物聯網的典范,遍布世界各地的傳感器正在收集和傳送數據到云端進行存儲和處理。這樣的數據在數量和相互關系將遠遠超過對IT架構和現有企業的基礎設施的能力,以及它的實時要求也將極大地強調可用的計算能力。日益增長的數據造成怎樣在當前硬件和軟件的基礎上 存儲和管理如此龐大的異構數據集的問題。
考慮到大數據的異質性,可擴展性,實時性,復雜性和保密性,我們將有效地通過在不同層面分析,建模,可視化和預測,進而“開采”數據集,從而揭示其內在的性能以及完善決策。
1.2、大數據的定義和特點
大數據是一個抽象的概念。除了大量的數據,它也有一些其他的功能,這決定本身和“海量數據”或之間的差異“很大的數據。”目前,雖然大的數據的重要性已經成為共識,人們仍然對它的定義有不同意見。一般情況下,大數據是指不能由傳統IT和軟件/硬件工具在允許的時間內處理察覺,獲取,管理的數據集。因為不同的關注點,科技企業,研究學者,數據分析,技術從業人員對大數據有不同的定義。以下定義可以幫助我們有一個在更好地理解大數據在社會,經濟里的技術內涵。
2010年,Apache Hadoop將大數據定義為“大數據是指不能由傳統IT和軟件/硬件工具在允許的時間內處理察覺,獲取,管理的數據集。”在這一定義的基礎上,在2011年5月,麥肯錫公司,一個全球咨詢機構宣布大數據作為下一個前沿創新,競爭和生產力。大數據系也可指可能用經典數據庫軟件無法獲得、存儲、管理的數據集,這個定義包括兩個含義:一是數據集“卷符合大數據的標準正在發生變化,可隨著時間的推移或技術的進步;其次,數據集“卷順應大標準 在不同的應用數據彼此不同。在目前,大數據一般為幾個TB到幾PB [10]。從麥肯錫公司的定義,可以看出,一個數據集的體積不是唯一標準大數據。日益增長的數據規模不能由傳統的處理,并對其管理數據庫技術是接下來的兩個關鍵特性。
事實上,早在2001年,META的分析師(現Gartner公司)道格·萊尼通過3VS模型將大數據定義為挑戰和機遇。即,增加的數據數量,速度和品種,在研究報告中[12],盡管這種最初不是用模型來定義大數據,未來十年里,Gartner等多家企業,其中包括IBM [13]和微軟的[14]研究部門仍然采用的是“3VS”模型來描述大數據。在“3VS”的模式中,數據卷是指,與人民群眾的產生和收集數據,數據規模越來越大;速度意味著大數據的時效性,具體而言,數據采集和分析等必須迅速和及時進行的從而為最大限度地利用大數據的商業價值;各種指示各種類型的數據,其中包括半結構化和非結構化數據,例如音頻,視頻,網頁,和文字,以及傳統的結構化數據。
然而,其他人有不同的意見,包括IDC,一個在大數據和研究領域最有影響力的領導人之一。2011年,IDC的報告定義大數據為“大數據技術描述了新一代的技術和架構,旨在在經濟上提取捕捉,發現,和/或分析非常大量的各種數據的“[1]根據這個定義,大數據的特點可以概括為4 Vs時,即體積(大體積),品種(各種形式),速度(快速生成),和價值(巨大的價值,但很低密度)。如圖2,這類4Vs定義被廣泛認可它強調大數據,即意義和必要性,探索隱藏的巨大價值。這個定義說明在大數據中最關鍵的問題,是如何在一個巨大的規模,各類型和快速生成的數據集中發現價值。至于周帕瑞克,Facebook的副總監工程師說,“如果你不利用所收集的數據,你只能擁有的數據不是大數據,“。[11] 此外,NIST的定義大數據“大數據應 其中,平均數據的數據量,采集速度,或數據表示限制使用傳統的能力關系的方法來進行有效的分析或數據這可能有重要的水平縮放技術“,其重點是技術得到有效處理大數據方面。它表明,有效的方法或技術需要開發并用于分析和處理大數據,已經有來自大量討論。工業界和學術界對大數據[16,17]的定義。除了制定一個適當的定義,大數據如何研究還應該著眼于如何提取它的價值,使用數據,以及如何將“一堆數據”變成“大 數據。”
圖
2、大數據的4Vs模型
1.3大數據的價值
麥肯錫公司觀察到大數據創造價值觀對美國醫療保健的深入研究后,歐盟公共部門管理,美國零售業、全球制造,和全球個人位置數據。通過對代表全球經濟的五大核心產業的研究,麥肯錫的報告指出,大數據可以充分發揮經濟職能,我證明了企業和公共部門的生產力和競爭力,為消費者創造了巨大的利益。在[ 10 ],麥肯錫總結大數據可以創造的價值:如果大數據C將創造性和有效利用來提高效率和質量,美國的醫療行業通過獲得的數據可能會超過300美元億美元的潛在價值,從而減少花費引言美國醫療8%以上;零售商充分利用大數據可以提高超過60%的利潤;也可以利用大數據來提高政府的效率,歌劇在歐洲,這樣的發達經濟體可以節省超過100歐元億美元(不包括減少欺詐、錯誤和稅收差異影響)。
麥肯錫的報告被視為前瞻性和預測性,而下面的事實可以驗證大數據值。2009流感大流行期間,谷歌獲得及時的信息,通過分析化大數據,甚至提供比由疾病預防中心提供更多有價值的信息。幾乎所有國家所需的醫院通知機構,如疾病預防中心流感病例的新類型。然而,患者通常沒有立即看醫生的時候,感染。同時也花了一些時間從醫院到疾病預防的信息中心和疾病預防中心分析總結等信息。因此,當公眾意識到新流感的大流行,這種疾病可能已經一到兩周的時間,一個滯后的性質。谷歌發現,在流感的傳播,作品經常尋求在其搜索引擎將不同于那些普通的鈦MES和參賽作品的使用頻率相關的流感傳播的時間和地點。谷歌發現45的搜索條目組密切相關的疫情流感和將它們在具體的數學模型來預測流感的傳播,甚至預測流感傳播的地方。相關研究成果已發表的他在自然[ 18 ]。2008,微軟收購了Farecast,美國科技公司Farecast的機票預測系統,預測趨勢和上升/下降的機票價格范圍。該系統已被納入微軟的必應搜索引擎。到2012時,該系統已節省近50美元每名乘客的門票,與預測精度高達75%。
目前,數據已成為重要的生產因素,可能是與物質資產和人力資本。多媒體、社交媒體、物聯網是發展,企業將收集沒有更多的信息,領先
指數增長的數據量。大數據將有一個巨大的和不斷增加的潛力,為企業和消費者創造價值。
1.4大數據的發展
在上世紀70年代末,出現“數據庫機器”的概念,是一種專門用于存儲和分析數據的技術。隨著數據量的增加,存儲和處理能力單一主機系統的一個不充分。在上世紀80年代,人們提出了“無共享,“并行數據庫系統,以滿足日益增長的數據量需求[ 19 ]。分享沒有系統的架構是基于集群的使用,每個機器都有自己的處理器,存儲和磁盤。Teradata系統是第一個成功的商業并行數據庫系統。蘇最近的數據庫變得非常流行。1986年6月2日,一個具有里程碑意義的事件發生時,Teradata交付第一并行數據庫系統的存儲容量1TB凱馬特幫助大通用電氣規模在北美國的零售公司,以擴大其數據倉庫[ 20 ]。在20世紀90年代末,并行數據庫的優勢在數據庫領域得到了廣泛的認可。
然而,許多大數據的挑戰出現了。隨著互聯網服務的發展,索引和查詢內容的迅速增長。因此,搜索引擎公司不得不面對的挑戰處理這些大數據。谷歌創造了GFS [ 21 ]和[ 22 ]編程模型MapReduce處理所帶來的數據管理和分析在互聯網規模的挑戰。此外,內容由用戶生成,傳感器,和其他無處不在的數據源也要壓倒性的數據流,這需要一個根本性的變化,在計算架構和大型數據庫加工機理。在一月2007,吉姆灰色,數據庫軟件的先驅,這種轉變稱為“第四范式”[ 23 ]。他還認為,應對這種范式的唯一途徑是開發新一代的計算工具來管理,可視化和分析質量我的數據。2011年六月,另一個具有里程碑意義的事件發生;EMC / IDC發表題為從混沌[ 1 ]提取價值的研究報告,其中介紹的概念和對F大數據潛力第一次。本研究報告引發了業界和學術界對大數據的極大興趣。
在過去的幾年中,幾乎所有的大公司,包括EMC、Oracle、IBM、微軟、谷歌、AMA ZON,和Facebook等已經開始了他們的大數據項目。以IBM為例,自2005,IBM已經投資16美元億30收購大數據相關。在學術界,大數據也在聚光燈下。在2008,自然發表了一個大數據的特殊問題。2011、科學性在大數據的“數據處理”的關鍵技術,推出了一個特殊的問題。2012、歐洲信息學與數學研究協會(會)新聞出版大型特刊數據。在2012年初,一份題為“大數據”的大沖擊在瑞士達沃斯論壇上發表,宣布大數據已經成為一種新的經濟資產,就像貨幣一樣或黃金。一個國際研究機構Gartner,發出炒作周期從2012到2013,其中大數據計算、社會分析、存儲數據分析等48個新興技術值得最關注。
許多國家的政府,如美國也非常重視大數據。月2012日,奧巴馬政府宣布了2億美元的投資,推出“大數據研究和去發展計劃,“這是一次重大科技發展計劃1993“信息高速公路”的倡議后。七月2012,“轟轟烈烈的日本通信技術”項目發出由日本內政部和交通部表示,大數據的發展應該是一個國家戰略和應用技術應該是重點。在七月2012,聯合國有限的國家發行的大數據的發展報告,總結了各國政府如何利用大數據更好地服務和保護他們的人。1.5大數據的挑戰
急劇增長的海量數據在大數據時代,對數據的采集、存儲的巨大挑戰,管理和分析。傳統的數據管理和分析系統的基礎上關系數據庫管理系統(RDBMS)。然而,這樣的關系數據庫管理系統只適用于結構化數據,半結構化或非結構化的數據比其他。此外,越來越多地利用關系數據庫管理系統越來越貴的硬件。這是明顯地,傳統的關系數據庫管理系統無法處理大數據量大、異質性大。研究界提出了一些解決方案,從不同的視角。例如,云計算是用來滿足對胸骨的要求對于大數據,例如,成本效率,彈性結構,平滑升級/降級。對于大規模無序數據集、分布式文件系統的永久存儲和管理解決方案的[ 24 ] [ 25 ]和NoSQL數據庫都是不錯的選擇。這樣的程序明框架,在處理集群的任務,特別是對網頁排名取得了很大的成功。各種大數據應用可以基于這些創新技術或平臺開發。此外,它是不平凡的部署大數據分析系統。
一些文獻[ 26,28 ]討論大數據應用程序開發中的障礙。面臨的主要挑戰如下: –數據表示:許多數據集具有異質性的類型、結構、語義、組織、粒度一定的水平,和可訪問性。數據表示的目的是使數據更有意義計算機分析與用戶解釋。然而,不適當的數據表示將減少原始數據的價值甚至可能阻礙有效的數據分析。高效數據表示應反映數據結構、類和類型,以及集成技術,以便在不同的數據集上進行高效的操作。
–冗余以及數據壓縮:總的來說,有一個高水平的冗余數據。減少冗余和數據壓縮是有效的降低企業的間接成本對這些數據的潛在價值不受影響的前提下IRE系統。例如,大多數數據所產生的傳感器網絡是高度冗余的,可過濾和壓縮在奧德震級的。
–數據生命周期管理:與相對緩慢的進步存儲系統相比,無處不在的傳感和計算在數據速率和規模產生了前所未有的。我們面臨有很多緊迫的挑戰,其中之一是目前的存儲系統不能支持這樣的海量數據。一般而言,隱藏在大數據的值依賴于數據的新鮮度。因此,E、數據重要性原理來分析價值相關應決定哪些數據將存儲的數據將被丟棄。
——分析機理:大數據分析系統在有限時間內處理大量的數據。然而,傳統的關系數據庫管理系統,嚴格的設計與缺乏可擴展性和可擴展性,不能滿足性能要求。非關系數據庫在非結構化數據處理中顯示出其獨特的優勢。開始成為主流的大數據分析。即便如此,仍有非關系型數據庫的性能問題和一些特定的應用。我們會找到一個妥協的關系型數據庫和非關系型數據庫之間的解。例如,一些企業利用混合數據庫體系結構,集成了數據庫類型(例如,Facebook的優勢和淘寶。在內存數據庫和基于近似分析的樣本數據的基礎上,需要進行更多的研究。數據機密性:目前大多數大數據服務供應商或業主不能有效地維護和分析這些龐大的數據集,因為他們的能力有限。他們必須依靠專業onals或工具來分析這些數據,從而增加了潛在的安全風險。例如,事務性數據集一般包括一組完整的操作數據來驅動關鍵業務流程專家。這些數據包含了最低的粒度和一些敏感信息,如信用卡號碼。因此,大數據的分析,可以提供給三分之一方處理采取適當的預防措施來保護這些敏感數據,以確保其安全。能源管理:主要框架計算系統的能源消耗,從經濟和環境角度都受到了很大的關注。隨著數據量和分析需求的增長而且,處理,存儲,和大數據的傳輸會消耗更多的電能。因此,系統級的功耗控制和管理機制應該是電子建立大數據的可擴展性和可訪問性,保證了。–的可擴充性和可擴展性:大數據分析系統必須支持當前和未來的數據集。解析算法必須能夠處理日益擴大和更為復雜的Datasets。
–合作:大數據分析是一個跨學科的研究,這需要不同領域的專家合作,收獲大數據的潛力。一個全面的大數據網絡結構結構必須建立有助于各種領域的科學家和工程師訪問不同類型的數據,充分利用他們的專業知識,以配合完成分析的目的專家。
2、相關技術
為了深入理解大數據,這一秒,將介紹一些基本的技術,是密切相關的大數據,包括云計算,物聯網,數據中心,和Hadoop。
2.1、云計算與大數據的關系
云計算與大數據有著密切的關系。云計算的關鍵組成部分如圖3所示。大數據是計算密集型操作的對象和應力的存儲電容“云系統。云計算的主要目的是在集中管理利用巨大的計算和存儲資源,從而提供大數據應用的細粒度的計算t-ing能力。云計算的發展為大數據的存儲和處理提供了解決方案。另一方面,大數據的出現也加速了云的發展計算。基于云計算的分布式存儲技術能夠有效的人年齡大的數據;通過云計算的并行計算能力的美德可以提高ACQ效率大數據的采集和分析。
盡管有很多重疊的技術在云計算和大數據,他們在如下兩方面的不同。首先,概念在一定程度上是不同的。云計算入門ansforms IT體系結構而影響商業決策的大數據。然而,大數據依賴于云計算作為基礎設施的順利運作。其次,大數據和云計算有不同的目標客戶。云計算是一種技術和產品向首席信息官(CIO)作為一種先進的IT解決方案。大數據是一個產品針對首席執行官(CEO)重點業務。由于決策者可以直接感受到來自市場競爭的壓力,他們必須打敗商的反對在競爭更加激烈的方式。隨著大數據和云計算的發展,這兩種技術都是肯定和越來越糾纏對方。云計算,其職能類似于為t計算機和操作系統的軟管,提供系統級資源;大數據在云計算支持的上層提供的功能類似于數據庫和高效的數據處理能力。電磁兼容的總裁基辛格表示,美聯社大數據的應用必須基于云計算。大數據的演變是由快速增長的應用需求和云計算從虛擬化技術發展。因此,云計算不僅提供了計算對大數據的處理,也是一種服務模式。在一定程度上,云計算的進步也促進了大數據的發展,兩者相輔相成。
圖3 云計算的關鍵組成部分
2.2物聯網與大數據的關系
在物聯網的范例中,大量的網絡傳感器被嵌入到不同的設備和機器中,在現實世界中。這樣的傳感器部署在不同的領域可能會收集各種類型的ATA,如環境數據、地理數據、天文數據、物流數據。移動設備、交通設施、公用設施、家用電器都是數據采集在物聯網方面的設備,如圖4所示。
通過物聯網大數據具有不同的特點,與一般的大數據相比,由于數據收集的不同類型,其中最典型的特征包括他均質、品種、非結構化特征,噪聲和冗余度高。雖然目前物聯網數據不占主導地位的大數據,由2030,數量傳感器將達到一兆,然后物聯網數據將是大數據的最重要的一部分,根據前投。來自英特爾的一份報告指出,大數據在物聯網有三大壯舉符合大數據模式的特性:
(一)豐富的終端產生大量的數據;
(二)物聯網所產生的數據通常是半結構化或非結構化的;
(三)物聯網的數據是有用的,只有當它被分析。目前,物聯網的數據處理能力已經收集到的數據背后,是加速大數據技術的發展推動了我介紹迫在眉睫加班。物聯網的許多運營商實現大數據由于物聯網的成功是依賴于大數據和云計算的有效整合的重要性。物聯網的廣泛部署將也帶來許多城市進入大數據時代。
有一個令人信服的需要采取大數據的物聯網應用,而大數據的發展已經落后于。它已被廣泛認可,這兩種技術是相互依賴的凹痕應共同開發:一方面,物聯網的廣泛部署驅動在數量和范疇數據的高增長,從而提供了機會,為應用大數據的發展;另一方面,大數據技術在物聯網中的應用也加快了物聯網的研究進展和業務模式。
圖4物聯網數據采集設備的說明
2.3數據中心
在大數據模式,數據中心不僅是一個數據集中存儲平臺,同時也承擔更多的責任,如獲取數據、管理數據、組織數據,一利用數據值和函數。數據中心主要關注“數據”而非“中心”。它有大量數據、組織和人的年齡數據根據其核心目的和發展新臺幣的路徑,這比擁有一個好的網站和資源更有價值。大數據的出現帶來了良好的發展機遇和巨大挑戰的數據中心。大數據是一個新興數據中心的爆炸式增長,促進了基礎設施和相關軟件的爆炸性增長。物理數據中心網絡是支持大數據的核心,但目前,是最迫切需要的關鍵基礎設施[ 29 ]。大數據需要數據中心提供強大的后臺支持。大數據技術具有非紳士的要求對存儲容量和處理能力,以及網絡傳輸容量。企業必須把數據中心的發展納入考慮,以提高在有限的價格/性能比下快速、有效地處理大數據的能力。這個數據中心應為基礎設施提供大量的節點,建立一個高速的內部網絡,有效的散熱,有效的備份數據。只有當一個高能源效率耳鼻喉、穩定、安全、可擴展,和冗余的數據中心建設,大數據應用的正常運行,可以保證。大數據應用的增長加速了數據中心的革命和創新。許多大數據應用具有獨特的體系結構和直接促進發展數據中心的存儲、網絡和計算技術的應用。隨著結構化和非結構化數據量的持續增長,以及各種來源的分析數據,數據處理和計算能力的數據中心,將大大提高。此外,隨著數據中心規模的不斷擴大,如何對數據中心進行研究也成為一個重要的課題降低數據中心發展的運營成本。–大數據賦予更多的功能到數據中心。在大數據模式,數據中心不僅要關注硬件設施也加強軟能力,即能力大數據的獲取、處理、組織、分析和應用。數據中心可以幫助業務人員分析現有的數據,發現企業經營的問題,和發展從大數據的運算解決方案。
2.4 Hadoop和大數據之間的關系
目前,Hadoop是廣泛應用于大數據應用的行業,例如,垃圾郵件過濾、網絡搜索、點擊流分析、社會推薦。此外,相當學術研究了基于Hadoop的。一些代表性的病例是在下面。在2012六月宣布,雅虎運行Hadoop 42000服務器在四個數據中心,以支持其產品和服務,如例如,搜索和垃圾郵件過濾,等。目前,最大的Hadoop集群有4000個節點,而節點的數量將增加至10000與Hadoop 2版本。在同一個月,英足總cebook宣布他們的Hadoop集群可以處理100 PB的數據,增長了0.5,鉛每天2012十一月。一些知名的機構使用Hadoop進行分布式計算的李以[ 30 ]。此外,許多公司提供的Hadoop商業執行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。
現代工業機械系統中,傳感器被廣泛應用于環境監測、故障預測等收集信息,bahga和別人在[ 31 ]提出了一個框架網絡的數據組織和云計算基礎設施,稱為云景。云觀采用混合結構,局部節點,基于Hadoop的遠程集群分析機器生成的數據。本地節點用于實時失敗的預測;基于Hadoop集群用于復雜的離線分析,例如,案例驅動的數據分析。
基因組數據的指數增長和測序成本的急劇下降,將生物科學和生物醫藥的數據轉換為數據驅動的科學。gunarathne等人。在[ 32 ]利用云計算基礎設施
三、亞馬遜AWS、微軟azune,和數據處理框架基于MapReduce,Hadoop和微軟的DryadLINQ跑兩平行生物醫藥應用:(我)基因組片段組裝;(ii)在化學結構分析的降維。在隨后的應用中,使用166-d數據包括26000000個數據點。作者比較了所有的性能效率,成本和可用性方面的框架。根據這項研究,作者得出結論,松散耦合將越來越多地應用于電子云的研究,和磷并行編程技術(MapReduce)的框架,可以為用戶提供更方便的服務界面和減少不必要的成本。
3大數據的生成與獲取
我們已經介紹了幾種關鍵技術與大數據、云計算、物聯網,即數據中心,和Hadoop。下一步,我們將重點放在價值鏈的大數據,這一般可以分為四個階段:數據生成、數據采集、數據存儲和數據分析。如果我們把數據作為原材料,數據生成和數據采集是一個開發在處理過程中,數據存儲是一個存儲過程,數據分析是利用原材料來創造新的價值的生產過程。
3.1數據生成
數據生成是大數據的第一步。以互聯網數據為例,在搜索條目、互聯網論壇帖子、聊天記錄、微博留言等方面的數據量巨大產生。這些數據與人們的日常生活密切相關,具有高價值、低密度的特征。這樣的數據可能是毫無價值的個人,但通過開發并積累了大量數據,有用的信息,如習慣和愛好的用戶可以被識別,它甚至可以預測用戶的行為和情緒。
此外,通過縱向和/或分布式數據源產生的數據集更大規模、高度多樣化的,復雜的。這些數據源包括傳感器、視頻、點擊流,和/或將其他可用的數據源。目前,大數據的主要來源是經營和交易信息在企業、物流和傳感器在物聯網信息,人機交互信息在互聯網世界中離子和位置信息,并在科學研究中產生的數據,遠超等通過它的架構和基礎設施現有EN容量信息企業,而實時的要求也大大強調了現有的計算能力。3.1.1企業數據
2013,IBM發布分析:大數據在現實世界的應用程序,這表明企業內部數據是大數據的主要來源。企業內部數據主要包括網上交易數據和在線數據分析,其中大部分是歷史上的靜態數據,通過結構化的方式關系型數據庫管理。此外,生產數據,庫存達Ta、銷售數據、財務數據,等等,也構成了企業內部的數據,其目的是獲取企業信息化和數據驅動的活動,以記錄所有活動在企業內部數據的形式。
在過去的幾十年里,它和數字數據做出貢獻的很多改善的盈利業務部門。據估計,世界上所有公司的業務數據量Y每1.2年翻一番[ 10 ],其中,營業額通過互聯網,企業對企業,企業對消費者每天將達到450美元億[ 33 ]。連續提高業務數據量要求更有效的實時分析,以便充分收獲它的潛力。例如,亞馬遜處理數以百萬計的終端操作和超過500000查詢從第三方賣家每天[ 12 ]。沃爾瑪過程之一萬客戶交易每小時交易數據導入到一個容量超過2.5PB數據庫[ 3 ]。Akamai分析75元每天的事件,其目標廣告[ 13 ]。3.1.2物聯網數據
作為討論,物聯網是大數據的重要來源。在智能城市構建了基于物聯網、大數據可能來自工業、農業、交通、運輸、醫療、公共部門和家庭等根據物聯網的數據采集和傳輸過程,將其網絡結構分為傳感層、網絡層和應用層三層。這個傳感層負責數據采集,主要由傳感器網絡。網絡層負責信息的傳輸和處理,在近距離傳輸可能R伊利在傳感器網絡和遠程傳輸必須依賴網絡。最后,應用層支持物聯網的具體應用。
根據物聯網的特點,物聯網產生的數據有以下幾個特點:
–大規模數據:在物聯網、數據采集設備的群眾是分布式部署的,可獲得簡單的數值數據,如位置;或復雜的多媒體數據,如監控視頻EO。為了滿足分析和處理的需求,不僅是目前所獲得的數據,而且在一定時間內的歷史數據存儲。因此,產生的數據通過物聯網的特點是大尺度。
-異質性:由于各種數據采集裝置,所獲得的數據也不同,這樣的數據特征的異質性。在物聯網中,每一個數據采集設備都放置在一個特定的地理位置,每一塊數據都有時間戳。時間和空間相關性是一個即時通訊數據來自物聯網的重要性質。在數據分析和處理過程中,時間和空間也是統計分析的重要維度。
–有效數據只占一小部分的大數據:發生在數據的采集和物聯網傳輸大量的噪音。通過收購獲得的數據集設備,只有少量的異常數據是有價值的。例如,交通視頻的采集過程中,一些視頻幀捕獲違反交通運輸管理法規和交通事故的價值比那些只捕捉到正常的流量。3.1.3生物醫療數據
作為一系列高通量生物測量技術在開始的第二十一個世紀的創新發展,在生物醫藥領域的前沿研究也進入大時代數據。通過構建智能、高效、和生物醫藥應用準確的分析模型和理論體系,基本治理機制復雜的生物學現象背后的馬被揭露。不僅生物醫藥未來的發展是可以確定的,也是主要的角色可以在一系列重要的戰略產業發展方面相關的假設國民經濟,人民生活,國家安全,具有重要的應用,如醫療保健,新藥研發,糧食生產(例如,轉基因作物)。人類基因組計劃的完成(人類基因組計劃)和測序技術的不斷發展也導致在大數據領域的廣泛應用。由基因產生的數據的質量測序經過專門分析根據不同的應用需求,結合臨床基因診斷和早期診斷提供有價值的信息和形象化治療疾病。一個測序人類基因可能產生100個600GB數據。在深圳的中國國家種質庫,有1.3百萬人樣本樣本包括115萬獅子150000種動物,植物和微生物樣本。到2013年底,1000萬個可追溯的生物樣品將被存儲,并由2015年底,這一數字將達到3000萬。它是預先確定性,隨著生物醫藥技術的發展,基因測序將變得更加快捷和方便,從而使生物醫藥大數據不斷增長毫無疑問。
此外,臨床醫療保健和醫療研發所產生的數據也迅速上升。例如,匹茲堡醫學中心大學(UPMC)存儲2TB的數據。Explorys,美國人我公司提供的平臺配置的臨床數據,操作和維護數據和財務數據。目前,大約有13百萬人的信息已經被配置,44 arti-cLES數據在約60TB規模,這將在2013達到70TB。實踐融合,另一個美國的公司,管理約200000名患者的電子病歷。
除了這些中小企業,其他知名IT公司,如谷歌,微軟,IBM已經投入廣泛的方法和計算分析研究興高采烈的高通量生物大數據,對股票市場的巨大而
作為“新一代互聯網。”IBM預測,在2013戰略發布會上,以醫學影像和電子病歷的急劇增加,醫療專業人員可以利用大數據提取合同有用的臨床信息從大量的數據中獲取病史和預測治療效果,從而改善病人護理,降低成本。預計,2015,平均每一個醫院的年齡數據量將增加到665tb 167tb。3.1.4數據生成其他領域
隨著科學應用的不斷增加,數據集的規模也逐漸擴大,一些學科的發展,很大程度上依賴于對數據的分析。在這里,我們研究分析在這樣的應用。雖然在不同的科學領域,應用程序有類似的和不斷增加的數據分析的需求。第一個例子涉及到計算生物學。玄葉NK細胞是一種核苷酸序列數據庫由美國國家生物技術創新中心保持。數據庫中的數據可能每10個月翻一番。2009八月,GenBank已超過250千兆從150000個不同的生物[ 34 ]的基礎上。二個例子與天文學有關。Sloan數字巡天(SDSS),最大的天文巡天項目,已經從1 25tb數據記錄998至2008。作為望遠鏡的分辨率大大提高,2004,數據批量生成每晚將超過19。最后一個應用程序涉及到高能量物理。在開始2008、大型強子對撞機(LHC)的ATLAS實驗的歐洲核子研究組織產生的原始數據在2/s和10TB數據處理每年商店。
此外,無處不在的傳感和計算之間的自然、商業、互聯網、政府、社會環境都產生了前所未有的異構數據的復雜性。這些數據集有自己獨特的數據特點,在規模、時間維度和數據類。例如,移動數據的位置,記錄運動,近似度,通信、M多媒體、應用程序的使用,和音頻環境[ 108 ]。根據應用環境和要求,這樣的數據集分成不同的類別,從而選擇合適的和可行的大數據的電子解決方案。
3.2大數據采集
作為大數據系統的第二階段,大數據采集包括數據采集、數據傳輸和數據預處理。大數據的采集過程中,一旦我們收集的原始數據,我們的廳利用一種高效的傳輸機制,將其發送到一個適當的存儲管理系統,以支持不同的分析應用程序。將收集到的數據可能包含很多冗余劑或無用的數據,不必要地增加存儲空間,并影響后續的數據分析。例如,高度冗余的環境監測傳感器收集的數據集是很常見的監測。數據壓縮技術可以應用于減少冗余度。因此,數據預處理操作是必不可少的,以確保有效的數據存儲和開發。
3.2.1數據采集
數據采集是利用特殊的數據采集技術來從一個特定的數據生成的環境中獲取原始數據。四種常用的數據采集方法如下。–日志文件:作為一種廣泛使用的數據收集方法,日志文件是由數據源系統自動生成記錄文件,以便記錄活動,隨后交付文件格式耳鼻喉分析。日志文件通常用于幾乎所有的數字設備。例如,Web服務器的日志文件記錄的點擊數、點擊率,網站用戶的訪問,和[其它財產記錄35 ]。在網站采集活動的用戶,Web服務器主要包括以下三個日志文件格式:公用日志文件格式(NCSA),擴展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三種類型的日志文件。除了文本文件以外,其他的數據庫有時也可用于存儲日志信息以提高大規模的查詢效率商店[ 36,37 ]。也有基于數據收集的一些其他日志文件,包括在網絡監控和交通運行狀態的金融應用和測定指標股Ffic管理。
感測:傳感器在日常生活中是很常見的,用于測量物理量,將物理量轉換為可讀的數字信號,以供后續處理(和存儲)。感覺數據可能被分類為聲波,聲音,振動,汽車,化學,電流,天氣,壓力,溫度等信息被傳送到一個數據采集點通過有線或無線網絡。對于應用程序,可以很容易地部署和管理,例如,視頻監控系統[ 38 ],有線傳感器網絡是一個方便的解決方案,以獲取相關信息。有時一個特定的現象的精確位置是未知的,有時監測環境沒有精力或通信基礎設施。然后無線通信必須使用在有限的能量和通信能力的情況下,使傳感器節點之間的數據傳輸。近年來,無線傳感器網絡已收到相當大的國際間,并已應用于許多應用,這樣的;如此的;這么大的;非常的;這樣的事物[人];
作為環境研究[ 39,40 ],水質監測[ 41 ],土木工程[ 42,43 ],[ 44 ]習慣和野生動物監測。無線傳感器網絡通常由大量的地理分布分布式傳感器節點,每一個都是一個由電池供電的微型裝置。這種傳感器被部署在指定的位置所需的應用程序收集遙感數據。一旦傳感器被eployed,基站會對網絡配置/管理或數據采集傳感器節點發送控制信息。基于這樣的控制信息,感官數據被組裝在地不同的傳感器節點和送回基站進行進一步的處理。有興趣的讀者參考[ 45 ]更詳細的討論。獲取網絡數據–方法:目前,網絡數據采集是使用web爬蟲組合完成,分詞系統,任務系統,和指標體系等Web爬行是一個用于搜索引擎下載和存儲網頁的程序[ 46 ]。一般而言,網絡爬蟲從初始網頁的統一資源定位器(網址)開始訪問其他鏈接的網頁,在它的存儲和序列的所有檢索的網址。網絡爬蟲通過一個網址隊列獲取一個網址,然后通過一個網址下載網頁,并確定一個網址我將在已下載的網頁上的網址,并提取新的網址被放在隊列中。這個過程是重復的,直到網絡爬蟲被停止。通過網絡爬蟲獲取數據的廣泛應用基于網頁的應用,如搜索引擎或網頁緩存。傳統的網頁提取技術具有多個有效的解決方案,并已完成了大量的研究,在他的田地。隨著越來越多的先進的網頁應用程序正在出現,一些提取策略,提出了在[ 47 ],以應付豐富的互聯網應用。
當前的網絡數據采集技術主要包括傳統的基于Libpcap捕包技術,零拷貝數據包捕獲技術,以及一些專門的網絡監控G軟件如wireshark SmartSniff,和winnetcap。–Libpcap捕包技術:基于Libpcap(數據包捕獲庫)是一種廣泛使用的網絡數據包捕獲函數庫。這是一個一般的工具,不依賴于任何特定的系統透射電子顯微鏡主要用于數據鏈路層中的數據捕獲。它具有簡單、易用、攜帶方便,但有一個相對低效率。因此,高速網絡環境下彪,大量丟包時可能出現的libpcap的使用。
–零拷貝數據包捕獲技術:所謂的零拷貝(ZC)意味著沒有副本之間的任何內部的記憶發生在數據包接收和發送在一個節點。在發送數據包直接從用戶緩沖區開始,通過網絡接口,到達一個外部網絡。在接收時,網絡接口直接向美國發送數據包SER緩沖。零拷貝的基本思想是減少數據拷貝次數,減少系統調用,并減少CPU的負載,而ddatagrams從網絡設備傳遞到用戶程序空間。零拷貝技術首先利用直接存儲器存取(DMA)技術的網絡數據包直接發送到一個地址空間預分配的系統內核,以避免CPU的參與。同時,它映射的數據報內部存儲器在系統內核的檢測程序,或建立一個緩沖區在用戶空間和內核空間映射到。然后檢測程序直接訪問內部存儲器,從而減少系統內核對用戶空間的內存拷貝,減少系統調用的數量。——移動設備:目前,移動設備的使用越來越廣泛。由于移動設備的功能日益強大,他們的功能更復雜,多手段的數據采集,以及由于數據種類多。移動設備可以通過定位系統獲取地理位置信息;通過麥克風采集音頻信息;獲取圖片、視頻、streetscap是的,二維條形碼,和其他多媒體信息通過攝像頭;獲取用戶手勢和其他肢體語言信息通過觸摸屏和重力傳感器。多年來,我們無線運營商通過獲取和分析這些信息提高了移動網絡的服務水平。例如,iPhone本身就是一個“手機間諜”。它可能會收集無線數據和地理地形位置信息,然后把這些信息帶回蘋果加工,其中用戶是不知道。除了蘋果,智能手機操作系統如Android GOOGLE和Windows手機的微軟也以類似的方式,信息的收集。除了上述三種數據采集方法的主要數據來源外,還有許多其他的數據采集方法或系統。例如,在科學實驗中,許多特殊的工具可用于收集實驗數據,如磁儀和射電望遠鏡。我們可以從不同的角度對數據采集方法進行分類。從數據源的角度是的,收集數據的方法可以分為兩類:收集方法記錄通過數據源收集方法記錄通過其他輔助工具。3.2.2數據傳輸
原始數據收集完成后,將數據傳送到一個數據存儲基礎設施進行處理和分析。正如2.3節所討論的,大數據主要存儲在一個數據的分中急診室數據布局應進行調整,提高了計算效率和便于硬件維護。也就是說,內部數據傳輸可能發生在數據中心。因此,數據傳輸傳輸分為兩個階段:DCN DCN傳輸傳輸間內。–DCN DCN間傳輸:間傳輸是從數據源到數據中心,它一般是與現有的物理網絡基礎設施實現。由于快速增長的交通需求,在世界上大多數地區的物理網絡基礎設施的高容量、高速率和低成本的構成,光纖傳輸系統。過去20爺ARS,先進的管理設備和技術,如基于IP的波分復用(WDM)網絡架構,進行智能控制與管理的選擇化學纖維網絡[ 48,49 ]。WDM技術是將多個光載波信號耦合到不同的波長和光鏈路的光纖。在這樣的技術,不同波長的激光進行不同的信號。目前,骨干網已經部署的WDM光傳輸系統單信道速率40Gb/s的公關目前,100Gb/s商業接口可與100Gb/s系統(或TB/S系統)將在不久的將來,[ 50 ]可。然而,傳統的光傳輸技術是有限的Y的電子瓶頸[ 51 ]帶寬。最近,正交頻分復用(OFDM),最初設計的無線系統,被視為一個主要候選技術未來的高速光傳輸技術。OFDM是一種多載波并行傳輸技術。它將一個高速數據流分割成一個高速數據流,將其轉化為低速子數據流,以不被傳播到多個正交的子載波[ 52 ]。隨著WDM固定信道間隔相比,OFDM允許子信道的頻譜互相重疊,[ 53 ]。因此,它是一個靈活的穩定高效的光網絡技術。
–內DCN傳輸:傳輸幀內DCN在數據中心的數據通信流量。內DCN傳輸取決于溝通在數據中心機構(即物理上的連接板、芯片、數據服務器、數據中心、網絡體系結構和通信協議的內部記憶)。數據中心多接口包括磨碎的服務器機柜內部連接網絡的互連。目前,大多數數據中心的內部連接網絡的胖樹,雙層或三層基于多商品網絡流的結構研究[ 51,54 ]。在兩層拓撲結構,可由1Gbps的頂級機架交換機連接(TOR),那么這樣的頂級機架交換機連接從10Gbps匯聚交換機的拓撲結構。三層拓撲結構是一種結構增加一層對兩層拓撲結構上這些層通過10Gbps或100Gbps的核心交換機構成的連接拓撲結構匯聚交換機。還有其他拓撲結構,其目的是提高數據的并行[ 58 ] 55–中心網絡。由于電子數據包交換的不足,很難提高通信帶寬,同時保持能耗低。多年來,由于巨大的成功,通過光學技術實現,在數據中心之間的網絡互連引起了很大的關注。光學互連是一種高通量、低延時,和低能耗解決方案。目前,光學技術僅用于數據中心的點對點連接。這樣的光鏈路提供使用低成本的多開關連接TI的單模光纖(MMF)10Gbps的數據速率。光互連(在光域內切換)在數據中心網絡是一個可行的解決方案,它可以提供Tbps級別的傳輸帶能耗低的寬度。最近,許多光互連計劃提出的數據中心網絡[ 59 ]。有的計劃增加光路,以提升現有的凈工作,和其他的和完全取代目前的開關59–[ 64 ]。作為一種強化技術,周等。在[ 65 ]采用60GHz頻率頻段的無線鏈路增強有線鏈路。網絡虛擬tualiza還應考慮提高數據中心網絡的效率和利用率。3.2.3數據預處理
由于數據來源廣泛,收集到的數據對于噪音、冗余不同,和一致性,等等,這無疑是商店的平均ingless數據浪費。另外一些分析方法對數據質量有嚴重的要求。因此,為了使有效的數據分析,我們將預處理數據在許多情況下,將數據從不同的源數據中整合,不僅可以降低存儲費用,而且可以提高分析精度。一些關系數據預處理技術討論如下。
–集成:數據集成是現代商業信息學的基石,涉及來自不同來源的數據相結合,為用戶提供了數據的統一視圖,[ 66 ]。這是傳統數據庫的一個成熟的研究領域。在歷史上,2種方法得到了廣泛的認可:數據倉庫和數據聯合會。數據倉庫包含一個過程稱為ETL(E提取、轉換和加載)。提取涉及的源系統,選擇,收集,分析和處理所需的數據。轉型是一系列規則,TR的執行換成標準格式數據的提取。加載裝置將提取和轉換的數據導入到目標存儲結構中。加載是三個最復雜的過程,其中包括轉換、復制、清除、標準化、篩選、數據組織等操作。可以構建一個虛擬的數據庫,以查詢和聚合來自不同數據的數據資源,但這樣的數據庫不包含數據。相反,它包括信息或實際的數據和相關的元數據的位置。這兩“存儲閱讀”方法不滿足日數據流或搜索程序和應用程序的高性能要求。與查詢相比,在這類方法中的數據更具動態性,在數據傳輸過程中必須處理。GEn-erally,數據集成方法都伴隨著流處理引擎和搜索引擎[ 30,67 ]。
–清洗:數據清洗是一個過程,以確定文協副牧師,不完整,或不合理的數據,然后修改或刪除這些數據來提高數據質量。一般情況下,數據清洗包括五個共同mplementary程序[ 68 ]:定義和確定錯誤類型,搜索和識別錯誤,修正錯誤,醫生umenting錯誤實例和錯誤類型和模式、數據錄入程序減少未來的錯誤。在清洗過程中,數據的格式、完整性、合理性和限制,應檢查。數據清洗是保持數據一致性的關鍵,這是一廣泛應用于許多領域,如銀行、保險、零售業、電信和交通控制。
在電子商務中,大多數數據是電子收集,這可能會造成嚴重的數據質量問題。經典的數據質量問題主要來自軟件缺陷、定制錯誤或系統錯誤—配置。作者在[ 69 ]討論了數據清理在電子商務中的爬蟲和定期重新復制客戶和帳戶信息在[ 70 ],對射頻識別數據的問題進行了檢查。RFID技術被廣泛用于許多應用,例如,庫存管理和目標跟蹤。然而,原有的RFID功能的低質量,WH我的資料包括了許多不正常的數據,受環境噪聲影響的物理設計和環境噪聲的影響。在[ 71 ],概率模型,以應付在移動環境中的數據丟失。khoussainova等人。在[ 72 ]提出了一個系統來自動糾正錯誤的輸入數據,通過定義全局完整性約束。
赫伯特[ 73 ]提出了一個框架,稱為bio-ajax規范生物數據,以便進行進一步的計算和提高搜索質量。與bio-ajax,一些錯誤和重復可以ELIM-inated,和常見的數據挖掘技術可以更有效地執行。-冗余消除:數據冗余是指數據重復或盈余,這通常發生在許多數據集。數據冗余可以增加不必要的數據傳輸費用和原因E缺陷的存儲系統,例如,存儲空間的浪費,導致數據不一致、數據可靠性降低,數據損壞。因此,各種冗余的還原方法已被磷提出,如冗余檢測,數據過濾,數據壓縮。這樣的方法可以適用于不同的數據集或應用環境。然而,冗余減少也可能帶來抗體出了一定的負面影響。例如,數據壓縮和解壓縮造成額外的計算負擔。因此,減少冗余的和成本效益應仔細B均衡。來自不同領域的數據將越來越多地出現在圖像或視頻格式。眾所周知,圖像和視頻中含有一定的冗余,包括時間冗余Y,空間冗余、統計冗余,冗余和感知。視頻壓縮是廣泛用于降低視頻數據中的冗余,在許多視頻編碼標準的規定(MPEG-2 MPeg-4,H.263,H.264/AVC)。在[ 74 ],作者考察了與視頻傳感器網絡的視頻監控系統中視頻壓縮問題。作者提出了一種新的基于MPEG-4的方法通過調查背景和前景在一個場景中的背景冗余。被伊娃證明的低復雜度和該方法的低壓縮比評價結果。廣義數據傳輸或存儲,重復數據刪除是一種特殊的數據壓縮技術,其目的是消除重復數據拷貝[ 75 ]。重復數據刪除,個人數據塊或數據段會被分配相同標識符(例如,使用一個哈希算法)將標識符添加到標識列表中。如重復數據刪除繼續分析,如果一個新的數據塊的標識符是在IDE上市相同識別表,新的數據塊將被視為多余的,將由相應的存儲數據塊替換。重復的數據刪除可以大大降低存儲要求,這是一個AR的重要的一個大的數據存儲系統。除了上述的數據預處理方法,具體的數據對象必須經過一些其他手術如特征提取。這樣的操作中起著重要的作用,多媒體搜索和DNA分析[ 76,78 ]–。通常的高維特征向量(或高維特征點)是用來描述數據對象和系統存儲未來檢索維特征向量。數據傳輸通常用于處理分布式的異構數據源,特別是業務數據[ 79 ]。作為事實上,在考慮各種數據集,這是不平凡的,或者是不可能的,建立一個統一的數據前處理步驟和技術,是酌收所有類型的數據集的在具體的特征、問題、性能要求等方面對數據集進行分析,從而選擇一個合適的數據預處理策略。
4大數據存儲
數據的爆炸性增長對存儲和管理有更嚴格的要求。在這一節中,我們把重點放在存儲大數據。大數據存儲是指大的存儲與管理GE規模數據而實現的可靠性和數據可用性。我們將回顧重要的問題,包括大規模的存儲系統,分布式存儲系統,和大數據存儲機制。一方面,存儲基礎設施需要提供可靠的存儲空間的信息存儲服務;另一方面,它必須提供一個強大的訪問接口進行查詢并分析了大量的數據。傳統上,作為服務器的輔助設備,數據存儲設備是用來存儲、管理、查找、分析數據和結構化的關系數據庫管理系統。隨著數據的急劇增長,數據存儲設備是變得越來越重要,許多互聯網公司追求的存儲容量大是有競爭力的。因此,對數據存儲的研究有著迫切的需要。
4.1海量數據存儲系統
各種存儲系統的出現,以滿足海量數據的需求。現有的海量存儲技術可分為直接連接存儲(DAS)、網絡存儲,網絡存儲可以進一步分為網絡附加存儲(NAS)和存儲區域網絡(SAN)。在DAS、各種硬盤直接連接服務器和數據管理是以服務器為中心的,如存儲設備的外圍設備,都需要一定的I / O R資源,是由一個單獨的應用軟件管理。因為這個原因,這只適用于小規模的互連服務器。然而,由于其較低的可擴展性,這將顯示出你ndesirable效率時,存儲容量的增加,即,升級和擴展性受到很大限制。因此,這主要是用于個人電腦和小型服務器。網絡存儲是利用網絡為用戶提供數據訪問和共享的聯合接口。網絡存儲設備包括專用數據交換設備、磁盤陣列、帶庫、和其他存儲介質,以及特殊的存儲軟件。它的特點是具有很強的可擴展性。NAS實際上是一個網絡輔助存儲設備。它是直接連接到網絡通過集線器或交換機通過TCP / IP協議。在NAS,數據傳送文件的形式。與DAS、I/O負擔在NAS服務器從服務器訪問存儲設備,通過網絡廣泛的減少。
而NAS是面向網絡的,三是專為數據存儲具有可擴展性和帶寬密集型網絡,例如,一個與光纖連接的高速網絡。在美國,數據存儲年齡管理是相對獨立的存儲區域網內,在基于多路徑的任何內部節點間數據交換來實現數據共享,最大程度數據管理。
從一個數據存儲系統,組織DAS,NAS和SAN,都可以分為三個部分:
(一)磁盤陣列:它是一個存儲系統的基礎和數據的基本保證存儲;
(二)連接和網絡子系統,它提供一個或多個磁盤陣列和服務器之間的連接;
(三)存儲管理軟件,它處理數據共享,災難恢復,多服務器的其他存儲管理任務。
4.2分布式存儲系統
第一個挑戰所帶來的大數據是如何開發一個大型的分布式存儲系統的高效數據處理與分析。使用分布式系統存儲海量數據時,應考慮以下因素: –一致性:分布式存儲系統需要多臺服務器協同存儲數據。由于有更多的服務器,服務器故障的概率將更大。通常數據是分在服務器故障的情況下,將存儲在不同的服務器上的多個片段以確保可用性。然而,服務器故障和并行存儲可能會導致不同的副本不一致相同數據。一致性是指保證相同數據的多個副本相同。
——可用性:在多套服務器上運行的分布式存儲系統。隨著服務器的使用,服務器故障是不可避免的。如果整個系統都不認真,那將是可取的影響在閱讀和寫作方面滿足客戶的要求。此屬性稱為可用性。
分區容忍:分布式存儲系統中的多個服務器通過網絡連接。網絡可能鏈路/節點故障或臨時擁堵。分布式系統應該有有一定的耐受水平通過網絡失敗造成的問題。這將是可取的,分布式存儲仍然工作時,網絡被劃分。
Eric Brewer提出第[ 80,81 ]理論在2000,這表明一個分布式系統不能同時示滿足一致性,可用性和分區的要求,在寬容;大多數的三個要求可以同時滿足。塞思Gilbert和南希林奇來自麻省理工學院的證明理論的正確性2002帽。由于一致性,可用性和分區寬容是不可能實現的同時,我們可以通過忽略分區耐受性有一個CA系統,忽視可用性CP系統,和AP系統,忽略了一致性,根據不同的設計目標。在以下三個系統中進行了討論。
沒有分區的公差,即,他們不能處理網絡故障。因此,CA系統一般被認為是一個單一的服務器存儲系統,如傳統的商城規模關系數據庫。這樣的系統功能單一的數據副本,這樣的一致性是很容易保證。可用性是保證關系數據庫的優秀設計。不過由于不能處理網絡故障,不能擴展到多個服務器。因此,大多數大型存儲系統都是系統和應用系統。
與CA系統相比,CP系統確保部分公差。因此,可以擴展到分布式系統的系統。CP系統一般維持相同的數據的多個副本為了保證容錯水平。CP系統也保證了數據的一致性,即同一數據的多個副本的保證是完全相同的。然而,不能保證聲音的可用性高成本的原因,一致性保證。因此,CP系統的場景,但在中度負荷數據精度的嚴格要求是有用的(例如,交易數據)。Bigtable和HBase是兩種流行的CP系統。
美聯社系統也確保分區容忍。然而,美聯社系統不同于在美聯社系統中的系統,也保證了可用性。然而,美聯社系統只確保最終的一致性,而不是漢強一致性前2個系統。因此,美聯社系統只適用于頻繁請求的情況下,但不是非常高的要求的準確性。例如,在網上的社會互聯網絡的組網服務(SNS)的系統中,有許多并行訪問的數據,但一定量的數據的誤差是可以接受的。此外,因為美聯社系統確保最終的一致性,準確數據可以在一定量的延遲后得到。因此,不嚴格的實時要求的情況下,美聯社系統也可以使用。發電機和卡桑德拉的兩種群美聯社系統。
4.3大數據存儲機制
大數據的大量研究促進了大數據存儲機制的發展。現有的大數據存儲機制可以分為三個層次:(我)上的文件系統,(二)數據庫,和
(三)編程模型。文件系統是上層應用程序的基礎。谷歌的GFS是一個可擴展的分布式文件系統支持大規模、分布式的數據密集型應用程序[ 25 ]。GFS我們廉價的商品服務器,以實現容錯能力,并為客戶提供高性能服務。GFS支持大型文件應用比讀寫更頻繁。然而R,GFS也有一定的局限性,如單點失效和小文件性能差。這樣的局限性已經被巨人[ 82 ]克服,GFS的繼任者。
此外,其他公司和研究人員也有他們的解決方案,以滿足不同的需求,對存儲的大數據。例如,HDFS和kosmosfs是衍生物對GF的開放源代碼美國微軟開發的宇宙[ 83 ]來支持它的搜索和廣告業務。Facebook利用草堆[ 84 ]存儲大量小型照片。淘寶還開發了TFS和Fas個TDFs。總之,分布式文件系統已經相對成熟后,業務經營發展年。因此,我們將集中在這段休息的其他兩個層次古斯堪的那維亞語(OldNorse); 4.3.1數據庫技術
數據庫技術已經發展了30多年了。開發用于處理數據在不同尺度和支持各種應用各種數據庫系統。傳統的關系l數據庫不能滿足大數據帶來的類別和尺度的挑戰。NoSQL數據庫(即,非傳統的關系型數據庫)是大數據存儲變得越來越受歡迎。NoSQL數據庫特征方式靈活,簡單和容易復制、簡單的API,最終一致性的支持,并支持大數據量。NoSQL數據庫成為B的核心技術免疫球蛋白。我們將探討以下這段三個主要NoSQL數據庫:鍵值數據庫,面向列的數據庫和面向文檔的數據庫,每個基于一定的數據模型。–鍵值數據庫:鍵值數據庫控制措施的一個簡單的數據模型和數據存儲對應的鍵值。每一個關鍵是獨特的,客戶可以輸入查詢的值到鑰匙。這樣的數據庫功能的簡單結構和現代核心價值的數據庫具有高擴展性和查詢響應時間小于關系數據庫。在過去的幾年中,許多關鍵的價值數據庫已經出現的動機由亞馬遜的發電機系統[ 85 ]。我們將介紹發電機和其他幾個有代表性的主要價值數據庫。
–發電機:發電機是一個高度可用和可擴展的分布式key-value數據存儲系統。它是用來存儲和管理的一些核心服務的狀態,可與所實現的關鍵年代,在亞馬遜電子商務平臺。關系型數據庫的公共模式可能會產生無效的數據和限制數據的規模和可用性,而發電機可以用一個簡單的密鑰來解決這些問題對象的接口,這是通過簡單的構成按讀寫操作。通過數據分區、數據復制、對象編輯機制,實現彈性和效用。Dy納摩比肩天信計劃依賴于一致性哈希[86],其中有一個節點傳遞荷蘭國際集團不僅直接影響到相鄰的節點,不影響其他節點,劃分負載含多處主要優勢電子主要存儲設備。將數據復制到服務器的一組數據中,在該服務器中,該數據是一個可配置的參數以實現高可用性和耐久性。發電機系統還提供了最終的一致性,以便在所有副本上進行異步更新。
–伏地魔,伏地魔也是一個關鍵值存儲系統,這是最初開發的,仍用LinkedIn。在伏地魔的關鍵字和值復合對象由表胚胎和影像。伏地魔的接口包括三個簡單的操作:閱讀,寫作,和刪除,所有這一切都是由關鍵詞確認。伏地魔提供異步更新并行有限控制多個版本,但不保證數據的一致性。然而,伏地魔支持樂觀鎖一致多記錄更新。當更新和一個其他歌劇全文,更新操作將退出。對伏地魔的數據復制機制,發電機相同。伏地魔不僅存儲在RAM中的數據,允許數據被插入一個存儲通用電氣發動機。特別是,伏地魔支持兩個存儲引擎包括伯克利DB和隨機存取文件。
關鍵價值數據庫出現了幾年前。亞馬遜Dynamo DB的深刻影響,其他關鍵值存儲系統包括Redis,東京canbinet和東京的暴君,Memcached和Memcache DB,Riak的一二大蚊,所有這些都提供擴展的關鍵詞為節點分配。伏地魔,Riak,東京柜,和memecached可以利用附加存儲設備在內存或磁盤存儲數據。其他存儲系統存儲在內存中的數據,并提供磁盤備份,或依靠復制和恢復,以避免備份。——面向列的數據庫:面向列的數據庫存儲和處理數據,根據行。兩列和行分割在多個節點實現可擴展性。T他面向列的數據庫主要是由谷歌的BigTable。在這一部分中,我們首先討論了Bigtable然后介紹幾種衍生工具。
–Bigtable:Bigtable是一個分布式的、結構化的數據存儲系統,它的設計過程的大型(PB級)成千上萬的商業服務器[ 87 ]中的數據。基本數據結構F Bigtable是一個多維度的排序映射稀疏,分布,和持久性存儲。指數映射行鍵,列鍵,時間戳,和映射的每個值是一個unana-l分析的字節數組。在Bigtable中每一行的關鍵是一個64KB的字符串。通過lexicograph政治秩序,行存儲不斷分割成片(即單位分布)負載平衡。因此,讀取短行的數據可以非常有效,因為它不僅涉及通信與機器的一小部分。列是根據鍵前綴分組,從而形成列族。這些列的家庭?謊言是訪問控制的基本單位。時間戳是64位的整數來區分不同版本的單元格的值。客戶可以靈活地確定存儲的單元格版本的數量。THESE版本在時間戳降序排序,所以最新的版本都會讀。
Bigtable API的創作特征和片劑和列族的缺失以及集群中,表的元數據的修改,和列族。客戶端應用程序可以插入或刪除Bigtable的E值,從列的查詢值,或瀏覽子數據表中。Bigtable還支持一些其他的特點,如在一行中的事務處理。用戶可以利用澤這樣的特性來進行更復雜的數據處理。
每一個程序執行的Bigtable包括三個主要組成部分:主服務器,平板電腦,服務器,客戶端庫。就只允許一組主服務器被分配負責佛R不同片片檢測服務器,添加或刪除服務器進行負載均衡的平板電腦。此外,它還可以MOD IFY Bigtable架構,例如,創建表和列的發科、垃圾收集以及刪除或禁用文件保存在GFS和Bigtable使用它們的具體實例。每一片一片設置服務器管理和負責的原因一個裝著的平板電腦。當平板電腦太大,他們將被分割的服務器。應用客戶端庫是用來溝通Bigtable的實例。
Bigtable是基于谷歌的許多基本組件,包括GFS [ 25 ],集群管理系統,用于墊SSTable文件,和胖乎乎的[ 88 ]。GFS是用來存儲數據和日志文件。群馬管理系統負責任務調度、資源共享、機器故障處理,和機器狀態監測。SSTable文件格式用于內部存儲Bigtable數據,它提供了映射之間的持久性,測序,和不變的鍵和值的任何字節字符串。Bigtable利用小胖在服務器以下任務:1)確保至多有一個活躍的主副本在任何時間;2)存儲Bigtable數據引導位置;3)查片服務器;4)在臺服務器的情況下進行錯誤恢復失敗的原因;5)存儲Bigtable架構信息信息;6)存儲訪問控制表。
–卡桑德拉:Cassandra是一個分布式的存儲系統來管理構造了數據分布的多個商業服務器[ 89 ]之間的巨大。該系統是由Facebook成為發達一個開源工具,在2008。它所采用的思路和亞馬遜Dynamo和谷歌的BigTable的概念,發電機分布式系統技術與數據集成模型Bigtable特別厄爾尼諾。表在Cassandra是在分布式四維結構圖的形式,其中的四個維度包括行、列、列族,和超柱。一排被區分一個任意長度的字符串鍵。無論是讀寫的列的量,行的操作是自動的。列可能構成一個簇,這是所謂的列家庭,和類似于Bigtable的數據模型。Cassandra提供兩種列家庭:家庭和超柱柱。超級欄包括與相同名稱相關的任意數量的列。一列家族包括列和超級欄,可在運行時連續地插入到列族中。分區和復制機制卡桑德拉非常相似,對發電機,以實現一致性。
–衍生工具就從Bigtable代碼不能通過開放源碼許可證獲得的,一些開源項目競爭實現Bigtable概念開發類似的系統女士,如HBase和Hypertable。HBase是BigTable的克隆版的程序,用java是Apache的Hadoop MapReduce框架[ 90 ]的一部分。HBase GFS和HDFS替換。它將最新的內容寫入內存,并定期更新在磁盤上的文件。行操作是原子操作,配有行級鎖和事務處理,這是大尺度的可選擇。分區和分布的透明操作,有客戶端散列或固定密鑰空間。
Hypertable是開發類似于Bigtable獲得一套高性能、可擴展性、分布式存儲和處理結構化和非結構化的數據[ 91 ]系統。Hypertable是On分布式文件系統HDFS和分布式鎖管理器,例如。數據表示、處理、分配機制類似于Bigtable。Hypertable有自己的查詢語言,CAlled Hypertable的查詢語言(HQL),并允許用戶創建、修改和查詢基礎表。
由于列存儲數據庫主要模仿BigTable,他們的設計都是相似的,除了并發機制等幾個特點。例如,卡桑德拉強調弱一致性的多版本并發控制而HBase和Hypertable重點強一致性通過鎖和日志記錄。
–文檔數據庫:關鍵值存儲相比,文件存儲可以支持更復雜的數據形式。由于文件不遵循嚴格的模式,沒有必要進行模式遷移。在此外,鍵-值對仍然可以保存。我們將檢查文件儲存系統,即,MongoDB,SimpleDB的三重要的代表,與CouchDB。–MongoDB:MongoDB是開源的、面向文檔的數據庫[ 92 ]。MongoDB文檔存儲為二進制JSON對象(BSON)[ 93 ],這是類似的對象。每個文件都有一個標識字段作為公共關系關鍵的關鍵。在MongoDB查詢與綜合稅類似于JSON表示。一個數據庫驅動程序發送查詢為BSON對象MongoDB。該系統可以查詢所有文件,包括嵌入式對象陣列和陣列。為了使快速查詢,索引可以在查詢字段創建文件。在MongoDB的復制操作可以執行,支持所有H的主要節點的日志文件高水平的數據庫進行操作。在復制過程中,奴隸販子查詢所有寫操作自上次同步的掌握和執行操作日志文件的地方數據庫。MongoDB支持橫向擴展自動共享分發了數千個節點之間數據的自動負載平衡和故障轉移。
–SimpleDB:SimpleDB是一個分布式數據庫和亞馬遜Web服務[ 94 ]。數據被組織成各種SimpleDB的領域中,數據可以存儲、獲取和查詢。域包括不同的正確聯系和名稱/值對套的項目。數據復制到不同的機器上以不同的數據中心,保證數據的安全性和提高性能。這個系統不支持自動分區,因此不能擴展數據量的變化。SimpleDB允許用戶查詢與SQL。值得注意的是,云計算可以保證最終一致性但不支持穆蒂版本的并發控制(MVCC)。因此,無法從客戶端檢測到沖突。功能,即地圖和減少,這兩者都是由用戶編程。圖函數處理輸入鍵-值對,并生成中間鍵-值對。然后,MapReduce將結合所有的T他中間值相同的密鑰相關的傳輸給reduce函數,從而進一步壓縮到一個較小的值設置。MapReduce的優點是,它避免了并發癥復雜的開發過程的并行應用程序,例如,數據調度、容錯性和節點間通信。用戶只需要程序的兩個功能開發并行應用-和灰。最初的MapReduce框架不支持多個數據集的一個任務,這已經被最近的一些增強功能[ 96 ]減輕,97。在過去的幾十年中,程序員都熟悉SQL的高級陳述性語言,通常用在關系數據庫中,對任務的描述和 –CouchDB:Apache CouchDB是一個文件的數據集分析。然而,簡潔的MapReduce 面向對象數據庫在Erlang編寫的[ 95 ]。數據在CouchDB組織成文件即場的鑰匙/名稱和值命名,這為JSON對象的存儲和訪問。每一個文件沒有提供一個唯一的標識符。CouchDB允許訪問數據庫文件通過RESTful HTTP API。如果一個文件需要修改,客戶端必須下載整個文件里去修改它,然后將它發送回數據庫。在一個文檔重寫一次之后,該標識符將被更新。CouchDB采用最優復制獲得scalabil性沒有共享機制機制。由于各種couchdbs會隨著其他交易同時執行,任何一種復制拓撲可建。對CouchDB的一致性依賴于復制機制。CouchDB支持MVCC散列記錄歷史。
大數據通常存儲在數百甚至你的商業服務器的沙子。因此,傳統的并行模型,如消息傳遞接口(MPI)和開放式多處理(OpenMP),可能不足以支持大規模并行程序。最近,一些提出的并行編程模型有效提高NoSQL性能、降低績效差距R關系數據庫。因此,這些模型已成為分析海量數據的基石。
–MapReduce:MapReduce [ 22 ]是一個簡單但功能強大的編程模型,用于大規模計算中使用了大量的商業PC集群實現自動并行處理和分布不。MapReduce計算模型中,只有兩個框架只提供了兩個不透明的功能,并不能涵蓋所有的常用操作。因此,程序員必須花時間在編程的基本功能,這是典型的一是保持和重復使用。為了提高編程效率,一些高級語言系統被提出,例如,Sawzall [ 98 ]谷歌,豬拉丁語[ 99 ] [ 100 ]雅虎,蜂巢O臉譜,和范圍[ 87 ]微軟。
–樹精:樹精[ 101 ]是一個通用的粗粒度數據處理的并行應用程序的分布式執行引擎。森林經營結構是一個有向無環圖,W它的頂點表示程序邊表示數據通道。樹妖執行作業對集群的頂點和發送數據通過數據通道,包括文件、TCP連接,一個FIFO和共享內存。在操作過程中,邏輯操作圖中的資源自動映射到物理資源。森林經營結構是由一個中央項目經理協調工作,可執行順序在集群或工作站通過網絡。一個職位經理由兩個部分組成:1)應用程序程序代碼,用于建立一個工作的通信圖,和2)程序庫代碼被用來安排可用資源。各種數據直接傳輸之間的vertexe因此,工作經理只負責決策,不妨礙任何數據傳輸。在樹妖,應用程序開發人員可以靈活地選擇任何的有向無環圖來描述應用程序的通信方式和表達數據傳輸機制。此外,樹妖鋁低點頂點使用任意數量的輸入和輸出數據,而MapReduce僅支持一個輸入和輸出設置。
DryadLINQ [ 102 ]是樹妖的高級語言,是用來整合上述類似SQL的語言執行環境。–所有對:所有對[ 103 ]是一個專門設計的生物識別技術,系統的生物信息學,以及數據挖掘的應用。它側重于通過一個給定的函數在2個數據集的元素對比較。一我對可以表示為三元組(A組,B組,和f),其中f是用來比較的所有元素集合A和B組比較結果輸出矩陣M,這也被稱為笛卡爾積或交叉連接設置和設置B。所有對正在實施的四個階段:系統建模、輸入數據的分布、批作業管理,和結果收集。在第一階段,系統性能的近似模型將不ILT的評估多少CPU資源是必要的,如何進行工作分配。在第二階段,生成樹進行數據傳輸,這使得每一個分區的工作量檢索InP但數據有效。在III期后的數據流傳送到適當的節點,對所有引擎會建立一個批處理承認錫安工作分區,而排序在批處理系統,并制定一個節點運行寧命令獲取數據。在最后一個階段,在完成批量處理系統后,提取引擎將收集結果在一個適當的結構中,它通常是一個單一的文件列表,其中所有的結果都是為了。
–Pregel:預凝膠[ 104 ]的谷歌系統有利于大型圖的處理,例如,網絡圖和社會網絡服務分析。一個計算任務由D表示有向圖的頂點和邊控制措施。每個頂點是一個可變的和用戶定義的值有關,與每一個有向邊一個源點相關的欺詐的措施的使用r-defined價值和目標節點的標識符。當圖是建立的,程序進行迭代計算,這是所謂的超級步驟之間的全球同步點等算法完成和輸出完成。在每一個超級步,頂點計算是平行的,每個頂點執行相同的用戶自定義函數來表達一個給定的算法邏輯。每個頂點可能對其輸出的邊緣地位,收到消息,從以前的superstep發送,發送消息到其他頂點,甚至修改過程的拓撲結構再圖。邊緣沒有提供相應的計算。每一個頂點的函數可以被暫停。當所有的城市都在非活動狀態的版本沒有任何消息傳遞,完成整個程序的執行。
Pregel程序的輸出是一套包含所有頂點的值輸出。一般來說,輸入和輸出的Pregel程序是同構的有向圖。受此啟發的編程模型,其他的研究也主要集中在更為復雜的計算任務,如編程模式,迭代計算[ 105,106 ],容錯存儲器計算[ 107 ],增量計算[ 108 ],和流量控制決策與數據[ 109] 5大數據分析
大數據分析的主要分析方法包括傳統數據和大數據,大數據分析的架構,和軟件用于大數據挖掘與分析。數據分析在大數據的價值鏈中,是最后的和最重要的階段,目的是提取有用的價值,提供建議或決定。不同層次的潛在價值可以通過在不同領域的數據集的分析產生[ 10 ]。然而,數據分析是一個廣泛的領域,它經常變化,是非常復雜的。在這一節中,我們介紹了相遇的方法,為大數據分析的架構和工具。
5.1傳統數據分析
傳統的數據分析方法是使用適當的統計方法來分析大量的數據,集中,提取,并細化有用的數據隱藏在一批混亂的數據集,并確定在標的物的內在規律,從而為數據價值的最大化。數據分析對一個國家制定發展規劃,了解客戶對商業的需求具有巨大的指導作用,和預測市場趨勢的企業。大數據分析可以被認為是一種特殊的數據分析技術。因此,許多傳統的數據分析方法仍然可以利用化大數據分析。幾種有代表性的傳統數據分析方法進行以下檢查,其中有許多是從統計學和計算機科學。
——聚類分析:是一種分組對象的統計方法,具體而言,是根據某些特征對對象進行分類。聚類分析是用來區分對象與特定的F吃特征分為幾類(簇)根據這些特點,這樣的對象在同一類別將有同質性高而不同類別將有高的eneity。聚類分析是一種無監督學習方法,無需訓練數據。
–因素分析:基本上是針對只有幾個因素,即許多元素之間的關系描述,分組密切相關的幾個變量為因子,和幾個因素AR然后過去——相關分析:是一種分析方法,以阻止采礦法的關系,如相關性,相對依賴性,和相互制約,觀察到的現象,并相應地nducting預測與控制。這樣的關系可以分為兩類:(i)功能,反映現象之間嚴格的依存關系,即一個明確的關聯CE的關系;(ii)相關,存在不確定的或不精確的依賴關系,和一個變量的值可能對應其他幾個變量的數值,如N數值價值呈規律性波動圍繞其平均值。
-回歸分析:是一個數學工具,揭示了一個變量和幾個其他變量之間的相關性。基于一組實驗或觀測數據,回歸模型分析外商投資企業的依賴關系被隨機變量之間。回歸分析可以使復雜的變量之間的相關性是簡單規則待定。——一種測試:也稱為桶測試。這是一個技術用于確定如何通過比較試驗組提高目標變量。大數據將需要大量的測試被執行教育和分析。
–統計分析:統計分析是統計理論的基礎上,應用數學的一個分支。在統計理論中,隨機性和不確定性是以概率論為基礎的。統計分析可以提供一個描述和大數據的推理。描述性統計分析可以總結和描述數據集,而推斷性統計分析可以得出從數據的隨機變化的結論。統計分析在經濟和醫療保健領域中有廣泛的應用[ 110 ]。
——數據挖掘算法:數據挖掘是一種提取隱藏的、未知的、但具有潛在有用信息和知識的過程,是從海量、不完整、有噪聲、模糊、隨機的數據中提取的。2006、日E IEEE國際數據挖掘系列會議(ICDM)確定了十個最有影響力的數據挖掘算法,通過嚴格的選拔程序[ 111 ],包括C4.5,K-means聚類算法,SVM,Apriori算法,他們,樸素貝葉斯,和購物車等。這十種算法包括分類、聚類、回歸、統計學習、關聯分析和關聯挖掘,所有這些都是最重要的。數據挖掘研究中的問題。
5.2大數據分析方法
在大數據時代的曙光中,人們對如何快速從海量數據中提取關鍵信息,為企業和個人帶來價值。目前,主要處理我大數據的方法如下。花過濾器:盛開過濾器由一系列的散列函數。開濾波器的原理是利用位數組來存儲數據本身的哈希值,這在本質上是使用哈希函數來進行有損壓縮存儲的位圖索引。它具有空間效率高,查詢速度快等優點,但也有一些缺點misrecognItion和刪除。
–散列:它是一種方法,是把數據轉換成較短的固定長度的數值或指標值。散列法具有快速閱讀、書寫和查詢速度快等優點,但也有很難找到一個聲音哈希函數。——索引:索引始終是一種有效的方法,以減少磁盤讀寫的費用,提高插入、刪除、修改和查詢速度,在傳統的關系數據庫中它的數據結構,管理,和其他技術處理半結構化和非結構化數據。然而,指數有一個缺點,它具有存儲索引文件,這額外的成本當數據更新時,應保持動態維護。
–專用:也叫Trie樹,哈希樹的一個變種。它主要應用于快速檢索和詞頻統計。該研究的主要思想是利用字符串的公共前綴在最大程度上減少字符串的比較,提高查詢效率。–并行計算:相比傳統的串行計算,并行計算是指同時使用多個計算資源完成計算任務。它的基本思想是分解一個問題并將它們分配給獨立完成的幾個單獨的進程,從而實現協同處理。目前,一些經典的并行計算模型,包括MPI(消息傳遞接口)、MapReduce和樹妖(見表1的比較)。
雖然并行計算系統或工具,如MapReduce或樹精,用于大數據分析,它們是低水平的工具,是很難學習和使用。因此,一些高層次的標準并行編程工具或語言是基于這些系統的開發。這樣的高級語言包括Sawzall,豬,和蜂巢用于MapReduce,以及使用范圍和DryadLINQ博士YAD。
5.3大數據分析架構
由于大數據的不同分析架構4Vs,應視不同的應用要求。
Table 1 Comparison of MPI, MapReduce and Dryad
MPI
MapReduce
Dryad
Computing and data storage arranged at the same node(Computing should be close to data)Not clear Deployment
Resource management/ scheduling Low level programming High level programming Data storage
Computing node and data storage arranged separately(Data should be moved computing node)–
Computing and data storage arranged at the same node(Computing should be close to data)Workqueue(google)HOD(Yahoo)MapReduce API Pig, Hive, Jaql, · · · GFS(google)HDFS(Hadoop), KFS Amazon S3, · · · Automation
MPI API
–
The local file system, NFS, · · ·
Dryad API Scope, DryadLINQ
NTFS, Cosmos DFS
Task partitioning
User manually partition the tasks
Messaging, Remote memory access Checkpoint
Automation
Communication
Files(Local FS, DFS)
Files, TCP Pipes, Shared-memory FIFOs Task re-execute
Fault-tolerant
Task re-execute
5.3.1實時與離線分析
根據實時性要求,大數據分析可分為實時分析和離線分析。
——實時分析:主要用于電子商務和金融。由于數據的不斷變化,快速的數據分析是必要的,分析的結果將返回在很短的延遲。主要實時分析現有的體系結構包括(i)并行處理集群使用傳統的關系型數據庫,及(ii)基于內存的計算平臺。例如,Greenplum從EMC和SAP HANA的都是實時分析架構。
–離線分析:通常用于應用程序在響應時間,要求高,如機器學習、統計分析和推薦算法。離線分析通過數據采集工具,將日志導入到一個特殊的平臺中進行分析。大數據背景下,很多互聯網企業利用離線分析體系結構的基礎上Hadoop為了減少數據格式轉換成本,提高數據采集的效率。例子包括Facebook的開源工具,劃線,LinkedIn的開源工具,卡夫卡,TA歐寶的開源工具timetunnel,和Chukwa Hadoop,這些工具可以滿足數據采集和每秒數百兆位傳輸的要求。5.3.2分析不同層次
大數據分析還可以分為記憶水平分析,商業智能(BI)水平分析,和大規模的水平分析,這是在下面的檢查。
-內存層次分析:對于總數據量小于集群的最大內存量的情況。如今,服務器集群蘇爾存儲器通過數百GB甚至TB水平是普遍的。因此,一個內部數據庫技術可以使用,熱數據應駐留在內存中,以提高分析效率。記憶水平分析是非常合適的用于實時分析。MongoDB是一個具有代表性的內存層次分析結構。隨著SSD(固態硬盤),發展能力和記憶水平的數據分析性能得到了進一步的改進和廣泛應用。
–BI分析:是當數據規模蘇爾通過記憶水平但可以導入BI分析環境。目前,主流的BI產品提供數據分析計劃支持結核病的水平。
-大規模分析:數據規模已完全超過了雙產品和傳統關系數據庫的能力。目前,最大量的分析利用HDFS的Hadoop存儲數據,使用MapReduce的數據分析。最龐大的分析屬于離線分析范疇。5.3.3不同復雜度分析
數據分析算法的時間和空間復雜度,根據不同的數據和應用需求的不同而不同。例如,對于應用是適合的為了并行處理,可以設計一個分布式算法和一個并行處理模型,可用于數據分析。大數據挖掘與分析的5.4大工具
大數據的挖掘和分析許多工具可用,包括專業和業余軟件,昂貴的商業軟件和開源軟件。在這一節中,我們簡要回顧一下最廣泛使用的五個軟件,根據一項調查,“什么分析,數據挖掘,大數據軟件,你用在過去12個月為一個真正的項目?“798個專業的基2012 uggets [ 112 ]。
(30.7%):一個開源的編程語言和軟件環境,是專為數據挖掘/分析和可視化設計的。雖然計算密集型任務執行,代碼編程的智慧H C、C++和Fortran可以在R環境稱為。此外,熟練的用戶可以直接調用C語言中的對象,其實,是一種語言的實現,這是一種解釋語言種由AT&T貝爾實驗室和用于數據挖掘,統計分析,并繪制曲線。與之相比,更為流行,因為它是開源的。R在kdnuggets 2012調查排名前1。此外,在“設計語言,你在過去的一年中“2012數據挖掘/分析調查,R也被放在首位,擊敗SQL和Java。由于研究的普及,數據基地的生產廠家,如Teradata和Oracle,已經發布的產品配套R.–Excel(29.8%):Excel,一個微軟Office的核心組件,提供了強大的數據處理和統計分析能力。當Excel安裝,一些先進的插件,如分析是工具庫和求解器的加入,為數據分析的強大功能集成開始,但這樣的插件可以使他們使用只有用戶。最擅長的也是唯一的商業軟件王前五。
–rapid-i RapidMiner(26.7%):RapidMiner是一個用于數據挖掘開源軟件,機器學習,和預測分析。在kdnuggets 2011調查,這是更頻繁用比(排名前1)。數據挖掘和機器學習程序提供RapidMiner包括提取,轉換和加載(ETL),數據預處理和可視化,建模,評估,一三維部署。通過圖形用戶界面(圖形用戶界面)對數據挖掘流程進行描述。快速礦工被寫在爪哇。它把學習者和weka的評價方法,并與R函數RapidMiner與過程包括各種運營商實現連接。整個流程可以被視為一個工廠的生產線,與原始數據的輸入和模式結果輸出。運營商可以被認為是一些特定的功能,具有不同的輸入和輸出特性。
(21.8%):–knmine KNIME(康斯坦茨信息挖掘)是一個用戶友好的、智能的、開放源碼的豐富的數據集成、數據處理、數據分析和數據挖掘平臺[ 113 ]。它允許用戶在可視化的方式創建數據流或數據通道,選擇性地執行部分或全部分析程序,并提供分析結果,模型,和互動的觀點。KNIME是世界資源研究所記在Java和基于Eclipse的插件,提供了更多的功能。通過插件的文件,用戶可以插入圖片文件處理模塊,和時間序列,并將它們集成到各種的開源項目,例如,R和Weka。KNIME控件數據集成、清洗、轉換、濾波、統計、挖掘,最后數據可視化。整個開發過程是條件指示一個可視化的環境下。KNIME設計為模塊化和可擴展的框架。有它的處理單元和數據容器之間沒有依賴性,使其適應分布式環境下的自主發展。此外,它很容易擴展KNIME。開發人員可以輕松地擴展各種節點和看法KNIME。
–WEKA / Pentaho(14.8%):WEKA,從懷卡托環境知識分析的簡稱,是一個免費開源的機器學習和數據挖掘軟件用Java寫的。Weka提供這樣的樂趣具有數據處理、特征選擇、分類、回歸、聚類、關聯規則等,和可視化,Pentaho是一個最流行的開源BI軟件。它包括一個網絡服務器平臺和幾個工具,以支持報告,分析,圖表,數據集成,數據挖掘等,所有方面的雙向。Weka的數據處理算法進行集成的我n Pentaho可直接調用。
6大數據應用
在前一節中,我們研究了大數據分析,這是大數據價值鏈的最后和最重要的階段。大數據分析可以通過判斷提供有用的價值,建議納秒,支持或決定。然而,數據分析涉及范圍廣泛的應用,它經常改變,是非常復雜的。在這一節中,我們首先回顧了數據來源的演變。然后,我們研究六最重要的數據分析領域,包括結構化數據分析,文本分析,網站分析,多媒體分析,網絡分析,和移動分析。最后,我們介紹幾種l關鍵應用領域的大數據。
6.1應用程序演化
最近,大數據分析已經被提出作為一種先進的分析技術,通常包括在特定的分析方法下的大型和復雜的程序。事實上,大在過去的幾十年中,鉭驅動的應用已經出現了。例如,早在20世紀90年代,BI已成為一個普遍的技術為企業應用,基于大規模網絡搜索引擎數據挖掘處理出現在第二十一世紀初。一些潛在的和有影響力的應用程序從不同的領域,其數據和分析的特點進行了討論如下。
商業應用–演變:最早的業務數據是結構化的數據,這是由公司從傳統的系統,然后存儲在RDBMS收集。分析技術在這樣的系統中使用的是在上世紀90年代盛行,是直觀和簡單的,例如,在報告的形式,儀表板,查詢條件,基于商業智能搜索、在線交易處理,交互式可視化,得分卡,預測模型,數據挖掘[ 114 ]。自第二十一世紀開始,網絡和萬維網((兒子厄里斯IM:5May?s2013)
152.李承晚Y,李J(下2009年)在模擬移動社區的典范:設計用戶界面,支持小組互動。
相互作用16(6):46-51 153.漢?,李JG,岡薩雷斯H,李X(2008)挖掘海量RFID,軌跡,和交通數據集。在:第14屆ACM論文集
第四篇:發展觀三題
科學發展觀,是對中外發展經驗與教訓的總結和升華。其實,思考生活中的一些現象,也有助于我們加深對科學發展觀的認識。
一、燒開水的學問。燒一壺開水,是將水一次放到一個大壺中燒得快,還是用幾個小壺分成若干次燒得快?抑或用大壺邊燒邊加冷水快呢?有物理常識的人都知道,第一種方法省時間,后兩種方法耗時不說,還浪費燃料。在謀劃經濟社會發展時,經常會遇到類似“燒開水”的問題。比如,隨著生產生活需求的增長,人們感到水庫小了、馬路窄了、電網差了,這時,是“小壺燒水”,先建后擴,邊擴邊建,還是“大壺燒水”,著眼未來,謀劃全局,就頗費思量。從短期利益出發,“小壺燒水”的見效似乎要快些,但“大壺燒水”顯然更能解決長久的問題,也更能降低建設成本。當然,任何時候都不可能做到“一步到位”。所謂“到位”總是相對而言的。也就是說,“大壺燒水”也不能過于超前,超過經濟社會發展的實際需要。“燒開水”的學問啟發我們,謀劃發展要有長遠眼光、全局意識,不能見事短、見識淺。長遠和眼前、全局和局部,要結合起來、統一起來。
二、打陀螺的常識。不管是城里還是鄉下的孩子,都愛玩一種“打陀螺”的游戲,就是用鞭繩抽打陀螺,使其迅速旋轉而不倒下。打陀螺講求技巧,用力小了陀螺旋轉不起來,用力大了陀螺又容易“栽跟頭”,用力勻稱,陀螺才能平衡而快速地旋轉。在發展的問題上,一些地方和部門總愛犯“急”打陀螺的毛病。他們不是從本地實際出發,而是不顧實際與可能,一味求快。經驗表明,經濟和社會發展是一個過程,急躁不得。越急越亂,欲速不達,有時還會倒退。“打陀螺”的常識啟迪我們,穩扎穩打,穩中求進,往往效率更高、效果更好。
三、握沙子的方法。一把沙子,手握得越緊,沙子流失得越快。要想使沙子“盡在掌握”,則可摻些許水,而且用力要均勻些,輕柔些。謀求發展不僅要有熱情、有勇氣,也要講究策略,講求方法。有的地方為了“水草豐美”,不是扎扎實實地干上幾年,而去實施所謂“生態搬家”的“大手筆”,孰料“生態”不僅未呈良性,反有惡化之虞。“握沙子”的方法告誡我們,拔苗助長、削足適履是不行的。科學發展觀,是一門發展的科學。唯有求真務實,把握規律,方能得其要旨。這里的關鍵是要堅持一切從實際出發,因地制宜,因時制宜,善于統籌,精于協調,顧及全面。一管可窺豹,觀葉能知秋,讀懂弄清了這些生活中的“發展觀”,對于樹立和落實科學發展觀,也不無益處。
第五篇:素質教育三題
素質教育三題
尉天驕
素質教育是目前高等教育界的熱門話題。然而,正如哲學家所說的“熟知非真知”,天天談論的也許恰恰是了解得很不夠的問題,思維的趨易性妨礙了對問題的深入研究,從而也就會妨礙素質教育的深入開展。以下將結合幾個具體問題,談談對素質教育的認識,希望能有助于理論上的探討。
一、素質教育與“做人”的教育
目前高教界講到素質教育,往往與傳統的教育理念進行對照。通常的說法是,傳統教育注重知識的傳授,最多再加上能力的培養,但這些還只是教人“求知”、“做事”,卻忽略了“做人”方面的教育;素質教育就是針對傳統教育的這一缺陷而來的。因此,一位教育專家把素質教育簡縮為“使學生學會‘做人’的教育。”這是一句通俗而又深刻的理論概括。我們常常說,大學生是學校培養出來的人才。在其本職工作范圍內,“才”(專業技能、才干)的顯現機會當然非常多,但在校園里和社會上,最先、最多表現出來的還是“人”(良好的社會公民和集體成員)的品質。“要成才,先成人”是一個規律。“做人”,固然有先天遺傳的因素,而后天的培育更為重要。比起“求知”和“做事”,“做人”的教育,任務更重,內容更豐富。
但是,在實際工作中,對于“做人”往往會從某一個角度進行理解。一是把“做人”限定為政治的信念、信仰,即通常所說的“紅”。應當肯定,這是非常重要的、帶根本性的問題,但不是惟一的。有些大學生宿舍衛生狀況不佳,很顯然就不是個政治信念問題,而是文明習慣的問題。常見的第二種觀點是把“做人”局限于基本道德,如是否誠實、本分、正派等。應當說,這也是非常重要的。然而我們經常見到一些大學生,基本品德不錯,可惜一些日常的行為、舉止與其身份不符。還有第三觀點,把“做人”理解為一種“古典模式”,所謂謙謙君子,謹小慎微。這種“做人”的方式雖然也有一定的正面價值,但過于收斂、缺乏進取精神卻是與時代精神不一致的。由此看來,在當前,“做人”的含義不僅有新的指向,而且還應當包含更多的內容。最直觀的是,“做人”與知識有關。大學生不是普通意義上的人,而是受過高等教育的知識人,知識水平的高低直接影響其“做人”的品位。這里所說的知識,主要還不是指專業知識(因為那是在“才”的范圍之內),也不是指目前非常被人重視的計算機知識和外語知識(這當然也很重要),而是指專業以外的“通識”。目前的高等教育屬于專業教育。這是無可非議的。不管我們多么羨慕歐洲文藝復興時期那些“多才多藝和學術淵博方面的巨人”(恩格斯語),但畢竟時代不同,那已經成為一個“永不復返的階段”(馬克思語)了。科學的發展、社會的分工決定了現代人已不可能成為百科全書式的人物,但正因為如此,又特別顯出普通知識的重要,否則,即使在知識人之間也將不可能進行文化對話。而現實情況是,過于狹隘的專業教育使人養成了非常功利的知識觀,專業以外,百不經意,尤其輕視“沒用”的人文知識,其結果是造成了“通識”的貧乏。例如媒體刊登過的,幾個宿舍的大學生都不會寫“鑰匙”,有的大學生不知道科索沃與南聯盟是什么關系,不知道清華大學校訓中的“厚德載物”為何義,甚至在煙臺發生海輪遇難事件時,搞不清楚煙臺和大連的地理位置。無論是那一個專業的學生,這種“通識”上的貧乏,對其個人交往和工作都將會有不良影響。
進一步看,“做人”還與能力有關。這里主要指的是與人交往、溝通的能力。有的學生在生人、眾人面前不敢說話,不會說話,有的甚至連回答老師的提問都膽怯、羞澀。相當多的大學生遇到問題、困難,不知道以什么途徑和方式與他人溝通、交流,不知道怎樣尋求解決的辦法。學者們特別指出,一些青年過分沉湎于網上虛擬世界,有時恰恰是在現實的社會環境中缺乏交往能力。華裔美國科學家、微軟中國研究院原院長李開復對我國的青年大學生說過一段話:“表達和溝通的能力是非常重要的。不論你做出了怎樣優秀的工作,不會表達,無法讓更多的人去分享,那就幾乎等于白做。所以,在學習階段,你不可以只生活在一個人的世界中,而應當盡量學會與各類人交往和溝通,主動表達自己對各種事物的看法和意見,甚至在公眾集會時發表演講,鍛煉自己的表達能力。”他還進一步指出,表達能力不只是“口才”,還包括非語言表達方式,如人的儀表、舉止、語氣、聲調和表情等。“??從這些方面,人們可以更直觀、更形象地判斷你為人、做事的能力,看出你的自信和熱情。”[2]李開復主要還是著眼于大學畢業后的工作。如果從一個人終身的長遠發展來看,更是如此。信息時代,靠大學里學的東西遠遠不夠,大量的知識和經驗要在實踐中繼續學習。但是,離開了學校,學要靠自己。一個不能主動與人打交道的人,或者是一個不能很好地融入群體之中的人,又怎么能做到有效的學習呢?因此可以說,大學生的言談、舉止作為“做人”的基本內容,不僅影響到他畢業后的工作,也會影響到他今后的發展。
再進一步看,“做人”與內在品格有更深層的聯系。作為用人單位,無論是企業、學校,還是政府機關,都希望其成員要熱愛本單位(本校、本廠、本部門),能敬業、樂群、遵時、守信。教育工作的實踐告訴我們這樣一條規律:一個學生,在學校里熱愛母校,走上社會往往能熱愛所在的單位;在學校能跟同學友好相處,以后跟同事才會有融洽的關系。反過來,一個學生,對自己的母校、老師毫無情感,工作以后對單位、領導、同事也很難滿腔熱忱。學校的學習成績固然不能等同于今后的工作成績,但從在校的學習精神卻大致可以看到今后的工作態度,在學習上不肯投入的,今后在工作上也很難敬業、負責。道理其實并不復雜,如果說能力是獲取知識的保證,那么素質就是能力的基礎。人的素質好像連通器里的水,體現在哪個方面都是相同的高度。可見在學校初步養成良好的習慣和品格乃是為“做人”打好底色。
這些方面的素質教育,是誰的責任?從理想的角度看,這些素質在基礎教育階段就該著力培養。而現實情況是,從小學到中學還無法擺脫應試教育的模式,全面素質教育還只是一種理想,這就把問題像“滾雪球”一樣滾下來了。因此,大學實際上處于無可推脫的地位。從大學的教育途徑來看,關于大學生政治信念的培養,有政治理論課;關于品德修養,也有專門的課程。而日常文明素質,在大學里雖沒有相應的課程卻并不意味著對此放棄責任。一個人的日常文明素質,是屬于“嵌入式”的,即它分布在受教育的整個過程之中,不是通過一段系統的課程學習就可以成功的,事實上也不一定需要開設專門的課程。只要正視這個問題,強調在學校教育的各個環節都滲透“做人”的教育,大學生基本文明素質的提高是可以收到良好效果的。
二、素質教育與精英教育
按照國際通行的標準,高等教育在學人數占適齡人數的比例在15%以內為精英教育階段,15%~50%為大眾教育階段。目前,關于我國高等教育毛入學率的計算結果不盡相同,根據一些統計數字來看,有些教育發達的省份,已經接近或達到大眾教育階段。但就全國情況看,現階段的高等教育(尤其是全日制大學教育)仍然屬于精英教育。從全社會對高考的重視即可看出老師和家長渴望學生成為“精英”的心態。在這種社會大氛圍下,高校也都希望自己的畢業生成為社會的“精英”人物。在開展素質教育時,有的大學就提出,要反思自己學校為什么出的普通工程技術人員多而“將帥”卻不多。這種心態其實不限于某一個學校。關于這個問題的追問可以有兩個向度:一是總結學校在教育方面的薄弱之處,特別是學生在知識、能力、素質等方面存在哪些局限,以至阻礙了他們的發展,影響了他們擔任高層次的領導職務。二是把培養高層領導者視為最能體現辦學水平的標志和學校的驕傲。前一個取向是深刻、有遠見的,而后一個取向就未免有違素質教育的初衷。眾所周知,中國古代科舉制度下的教育,主要就是“為做官”的教育。“西學”輸入后的學校教育,主要是“為做事”的教育,但狹隘的科技教育仍有著較強的功利色彩(所謂“文不如理,理不如工,工不如商”),在現實的發展中又受到傳統文化中“官本位”的影響,因而上大學為了好工作、高報酬、高地位的思想并不鮮見。前段時間,媒體上報道過武漢一位中學生的作文《二十年后回母校》,作者想象到,“我”畢業于名牌大學,當了大官,坐著小汽車回母校,當年的校長、老師、同學一個個對“我”畢恭畢敬。還有湖南一位中學教師在論文中公開說,就是要告訴學生,讀書就是為了上大學,當官,賺錢,娶漂亮的老婆??媒體上曾為此展開熱烈討論,有不少人贊成這些說法,認為他們勇敢地說出了大家心中的真實思想。盡管這些話題來自中學,但明顯可以看出大學教育在社會群眾心目中的性質。本文不可能在此剖析其中的復雜原因,但明顯的事實是,這種觀念造成了當前大學校園中人文精神的淡漠。人文素質教育正是針對這一弊端而提出的,怎么能繞了一圈又回到原點上去呢?
大學希望自己的畢業生在社會上能成為各項事業的帶頭人,這種理想、志氣、責任感當然非常可貴。但是,“精英”不等于高職高位。不論在社會上還是在單位里,“官”總是需要的,然而,“官”的職數也總是有限。“不想當將軍的士兵不是好士兵”,從理想上看,對青年不失為豪邁的激勵。但是從結果看,能當上將帥的士兵卻是百不挑一,絕大多數的人還是當士兵。而且,現代社會的情況更為復雜。青年走上社會,除了通常以文憑、證書等“硬件”所標明的“知識資本”之外,還有許多無形的“文化資本”、“信息資本”、“社會資本”也在起作用。競爭是多種因素的合力最后形成總的結果。即使在學校成績優異,表現突出,也并非將來一定能擁有指揮權。社會的規律就是如此,我們不能視而不見。有的大學生走上社會后常有“理想幻滅”的失落感,固然有社會環境的原因,但恐怕也與自視甚高的“精英”心態有關。
其實,從本質上看,“精英”的關鍵在于責任意識而不在于官職地位,在于奉獻社會而不在于傲然于民眾之上。古人所說“位卑未敢忘憂國”,“天下興亡,匹夫有責”,就是普通地位而有精英意識。這是中華文化的優良傳統。而目前有人把“精英意識”理解為要高人一等,把個人置于他人、民眾、社會之上、之外。稍有不順,即埋怨條件和環境,卻沒有想到檢查自己。這是曲解了精英的真正含義。今天的大學教育,仍然要堅持積極的人生職責教育,對青年學生宣傳“走在社會前端”的精神,自覺擔當起時代的重任。這是從繼承民族優秀文化傳統來看的。從現代社會要求來看,更需要以開放的心態看待“精英”。高效率的社會需要高度的協同、配合,任何一個環節的失誤都會影響全局。“士兵”素質高,在整體范圍內也是精英。從實際工作中看,“強將”固不易求,“精兵”也并非隨處可得。如果一個單位,一個部門,成員個個都是好的被領導者,勤奮,敬業,團結合作,能力又強,這個單位(部門)的工作就特別能出成績。如果一所高校,培養的畢業生絕大多數成為高素質的專業人才,在任何一個崗位上都是出類拔萃的,同樣的工作往往比別人干得好,這就是學校教育事業的成功。并不一定在于該校出了多少官員。
當然,在一個機制正常的環境中,高素質的“士兵”更容易有當“將帥”的機會。但這是社會選擇的結果,不是個人刻意追求的問題。眾所周知,英國的牛津、劍橋,出了很多大政治家,但作為學校的培養目標卻是“君子人”。美國的哈佛大學,先后出了六位總統,一位基辛格博士,還有數以百計的參眾議員和大法官,以及當代美國500家大財團的2/3的決策者,另有大量的外國政要出自哈佛,因此被公認為全球性精英搖籃。但其校訓是:“與柏拉圖為友,與亞里斯多德為友,更重要的是與真理為友”。[3]注重的是提升品格,追求真理。這種教育思想有值得學習和借鑒之處。因此,作為素質教育,對學生應當強調的是,提高素質首先是為了做一個良好的甚至是杰出的工作者,而并非僅僅是為了追求日后的高升。
三、素質教育與文科知識教育
在人才的各種素質之中,文化素質是基礎,因此,原國家教委提出,加強文化素質教育是全面推進高校素質教育的重要切入點。文化素質教育分為科學素質教育和人文素質教育。在理工科院校,文化素質教育主要是人文素質教育。為了論述的方便,我們以下把文化素質教育中的人文社會科學知識統稱為文科知識。前面說過,像素質中的稟賦、性格等因素,先天的成分較大,而像氣質、修養、能力等主要是后天培育的成果,是知識的內化和升華而形成素質。知識固然不等于素質,但沒有一定的人文社會科學知識做基礎,文化素質的提高也將流于空泛。因此,在開展素質教育(特別是人文素質教育)時,很多學校開設了一些文科選修課,講授一些文科知識,喚起了大學生的興趣,對提高大學生的人文素質起到了促進作用。但作為施教者,不能滿足于此。因為,在1995年原國家教委提出開展文化素質教育之前,高校一般都沒有在全校范圍內開設這類選修課,因此人文素質選修課的開設背景可以說是“一張白紙”。“從零開始”的任何一筆都是容易見效果的,只不過這是“有勝于無”的效果。學生的興趣是出于渴求知識的心情。在這種背景下,即使是傳統的、粗放式的教學,也能在一定程度上提高學生的人文素質。但隨著素質教育的深入開展,學生的人文素質在不斷提高,這就促使人文素質教育必須進一步探索更為有效的教學途徑和方法。[4]其中的關鍵問題就是“因材施教”。此處所說的“因材施教”不是說教學要考慮到每個學生的個別情況(作為大面積的選修課,很難做到這一點),而是指面向理工科大學生的人文素質教育,應當與綜合性大學和師范院校的文科教育有區別。
綜合性大學和師范院校的文科教育,注重知識、理論的廣泛性和系統性,目的在于培養人文社會科學的專業人員和文科教師。而理工科大學的學生接受人文素質教育,盡管也多是從學習文科知識開始,但主要目的不在于獲得系統的學問,也不是學點人文社會科學知識以作為茶余飯后的談資或海侃神聊的話題,而是在一定知識積累的基礎上熏陶精神,樹立正確的人生觀念。簡單地說,“知”是為了“行”。這就是教學的基本目標。為達此目標,筆者認為,理工科大學人文素質選修課的教學應當注意以下幾個方面:
1.教學內容應注重宏觀性和精髓性
文科知識浩如煙海,理工科大學生沒時間也沒必要掌握那些精深、細致的內容,他們需要了解的是基本的“輪廓”和傳神的“眼睛”,并從中領悟該學科的精神內涵和價值觀念。對他們來說,“見林”比“見木”更重要。因此,把學科知識劃分過細而形成的課程,實踐證明并不太適合理工科大學生,而“概覽(觀)”、“概論”之類課程,如果真正是簡明扼要而不是枯燥干癟,是高屋建瓴而不是流于空泛,那將是非常有用的。至于一些靜態知識,如學科
歷史、不同流派和見解、代表人物的生平事跡等,則宜簡略或刪去,不求知識的面面俱到、環環緊扣,特別不必細說枝葉。
2.教學過程中要努力喚起興趣,培養能力
任何一門課程,從教師的角度看都有很豐富的內容可講。但假如不能喚起學生的興趣,教得越多可能越不討好,甚至可能使學生長期厭惡這門課程乃至這個學科。而且,即使是學生感興趣的內容,在有限的教學時間內也只能做到引導入門,提供鑰匙,有助于學生今后的自學。以文學為例,中外文學史上的著名作家、作品不可能在教學中一一講解。但對于那些確實喜愛文學的學生,最好給他們提供一個線索,使其養成文學的眼光,能辨別精粗雅俗,在課程結束以后乃至在離開學校以后,能夠自己去閱讀和欣賞喜愛的文學作品,終生從優秀文學作品中汲取人生的營養。
3.在通識教育中保持學術性內核
“興趣”與“趣味性”有聯系,但不是等同的。建立在趣味性上的興趣,多是不穩定的,而被學科知識精髓激發起來的興趣才是真正能持久的興趣。因此,學術性不僅是專業教學的基礎,同樣也應當成為通識教育的內核。對文科選修課教學質量的衡量,要注重其學術上的“含金量”,不能僅看表面的效果。滿堂笑聲可能是會心的爆發,也可能是浮面的逗樂。從根本上說,學生要獲得的不僅僅是課堂上的開心,更需要的是精神的充實,心靈的陶冶。這里就有一個矛盾:既要保持學術性,又不能照搬綜合性大學文科教學的做法。這實際上也是對教師提出了新的要求:通識教育要與學術研究相結合,教師先要有提煉精華,以簡馭繁的功力;同時,又要研究教學方法和技巧,追求深入淺出,在學術性與通俗性(生動性)之間保持必要的平衡。這也是需要付出辛勤勞動、努力探索的。
《河海大學學報(哲學社會科學版)》
打印本文