第一篇:Google關(guān)于大數(shù)據(jù)處理的論文簡(jiǎn)述要點(diǎn)
Google關(guān)于大數(shù)據(jù)處理的論文簡(jiǎn)述
2013年4月
目錄
一、簡(jiǎn)述...........................................................................................................................................3
二、Google經(jīng)典三篇大數(shù)據(jù)論文介紹..........................................................................................3
2.1、GFS...................................................................................................................................3 2.2、MapReduce......................................................................................................................5 2.3、BigTable一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)...............................................................6
三、Google新大數(shù)據(jù)論文介紹......................................................................................................6
3.1、Caffeine:處理個(gè)體修改................................................................................................7 3.2、Pregel:可擴(kuò)展的圖計(jì)算................................................................................................8 3.3、Dremel:在線可視化......................................................................................................8
四、總結(jié).........................................................................................................................................12
一、簡(jiǎn)述
Google在2003年開始陸續(xù)公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文,這也成為后來(lái)云計(jì)算發(fā)展的重要基石,為數(shù)據(jù)領(lǐng)域工作者開啟了大數(shù)據(jù)算法之門。然而Google的大數(shù)據(jù)腳步顯然不止于此,其后公布了Percolator、Pregel、Dremel、Spanner等多篇論文。沒有止步的不僅是Google,很多公司也跟隨其腳步開發(fā)了很多優(yōu)秀的產(chǎn)品,雖然其中不乏模仿。主流的大數(shù)據(jù)基本都是MapReduce的衍生,然而把目光聚焦到實(shí)時(shí)上就會(huì)發(fā)現(xiàn):MapReuce的局限性已經(jīng)漸漸浮現(xiàn)。下面將討論一下自大數(shù)據(jù)開始,Google公布的大數(shù)據(jù)相關(guān)技術(shù),以及這些技術(shù)的現(xiàn)狀。
從2010年之后Google在后Hadoop時(shí)代的新“三駕馬車”——Caffeine、Pregel、Dremel再一次影響著全球大數(shù)據(jù)技術(shù)的發(fā)展潮流。但這還遠(yuǎn)遠(yuǎn)不夠,目前Google內(nèi)部使用的大數(shù)據(jù)軟件Dremel使大數(shù)據(jù)處理起來(lái)更加智能。
二、Google經(jīng)典三篇大數(shù)據(jù)論文介紹
Google在2003年到2006年公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文。
三篇論文主要闡述:
2.1、GFS 公布時(shí)間:2003年。
GFS闡述了Google File System的設(shè)計(jì)原理,GFS是一個(gè)面向大規(guī)模數(shù)據(jù)密集型應(yīng)用的、可伸縮的分布式文件系統(tǒng)。GFS雖然運(yùn)行在廉價(jià)的普遍硬件設(shè)備上,但是它依然了提供災(zāi)難冗余的能力,為大量客戶機(jī)提供了高性能的服務(wù)。
雖然GFS的設(shè)計(jì)目標(biāo)與許多傳統(tǒng)的分布式文件系統(tǒng)有很多相同之處,但是,我們?cè)O(shè)計(jì)還是以我們對(duì)自己的應(yīng)用的負(fù)載情況和技術(shù)環(huán)境的分析為基礎(chǔ)的,不管現(xiàn)在還是將來(lái),GFS和早期的分布式文件系統(tǒng)的設(shè)想都有明顯的不同。所以我們重新審視了傳統(tǒng)文件系統(tǒng)在設(shè)計(jì)上的折衷選擇,衍生出了完全不同的設(shè)計(jì)思路。
GFS完全滿足了我們對(duì)存儲(chǔ)的需求。GFS作為存儲(chǔ)平臺(tái)已經(jīng)被廣泛的部署在Google內(nèi)部,存儲(chǔ)我們的服務(wù)產(chǎn)生和處理的數(shù)據(jù),同時(shí)還用于那些需要大規(guī)模數(shù)據(jù)集的研究和開發(fā)工作。目前為止,最大的一個(gè)集群利用數(shù)千臺(tái)機(jī)器的數(shù)千個(gè)硬盤,提供了數(shù)百TB的存儲(chǔ)空間,同時(shí)為數(shù)百個(gè)客戶機(jī)服務(wù)。
為了滿足Google迅速增長(zhǎng)的數(shù)據(jù)處理需求,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了Google文件系統(tǒng)(Google File System –GFS)。GFS 與傳統(tǒng)的分布式文件系統(tǒng)有著很多相同的設(shè)計(jì)目標(biāo),比如,性能、可伸縮性、可靠性以及可用性。但是,我們的設(shè)計(jì)還基于我們對(duì)我們自己的應(yīng)用的負(fù)載情況和技術(shù)環(huán)境的觀察的影響,不管現(xiàn)在還是將來(lái),GFS 和早期文件系統(tǒng)的假設(shè)都有明顯的不同。所以我們重新審視了傳統(tǒng)文件系統(tǒng)在設(shè)計(jì)上的折衷選擇,衍生出了完全不同的設(shè)計(jì)思路。
首先,組件失效被認(rèn)為是常態(tài)事件,而不是意外事件。GFS 包括幾百甚至幾千臺(tái)普通的廉價(jià)設(shè)備組裝的存儲(chǔ)機(jī)器,同時(shí)被相當(dāng)數(shù)量的客戶機(jī)訪問。GFS 組件的數(shù)量和質(zhì)量導(dǎo)致在事實(shí)上,任何給定時(shí)間內(nèi)都有可能發(fā)生某些組件無(wú)法工作,某些組件無(wú)法從它們目前的失效狀態(tài)中恢復(fù)。我們遇到過(guò)各種各樣的問題,比如應(yīng)用程序bug、操作系統(tǒng)的bug、人為失誤,甚至還有硬盤、內(nèi)存、連接器、網(wǎng)絡(luò)以及電源失效等造成的問題。所以,持續(xù)的監(jiān)控、錯(cuò)誤偵測(cè)、災(zāi)難冗余以及自動(dòng)恢復(fù)的機(jī)制必須集成在GFS 中。
其次,以通常的標(biāo)準(zhǔn)衡量,我們的文件非常巨大。數(shù)GB的文件非常普遍。每個(gè)文件通常都包含許多應(yīng)用程序?qū)ο螅热鐆eb文檔。當(dāng)我們經(jīng)常需要處理快速增長(zhǎng)的、并且由數(shù)億個(gè)對(duì)象構(gòu)成的、數(shù)以TB的數(shù)據(jù)集時(shí),采用管理數(shù)億個(gè)KB大小的小文件的方式是非常不明智的,盡管有些文件系統(tǒng)支持這樣的管理方式。因此,設(shè)計(jì)的假設(shè)條件和參數(shù),比如I/O 操作和Block的尺寸都需要重新考慮。
第三,絕大部分文件的修改是采用在文件尾部追加數(shù)據(jù),而不是覆蓋原有數(shù)據(jù)的方式。對(duì)文件的隨機(jī)寫入操作在實(shí)際中幾乎不存在。一旦寫完之后,對(duì)文件的操作就只有讀,而且通常是按順序讀。大量的數(shù)據(jù)符合這些特性,比如:數(shù)據(jù)分析程序掃描的超大的數(shù)據(jù)集;正在運(yùn)行的應(yīng)用程序生成的連續(xù)的數(shù)據(jù)流;存檔的數(shù)據(jù);由一臺(tái)機(jī)器生成、另外一臺(tái)機(jī)器處理的中間數(shù)據(jù),這些中間數(shù)據(jù)的處理可能是同時(shí)進(jìn)行的、也可能是后續(xù)才處理的。對(duì)于這種針對(duì)海量文件的訪問模式,客戶端對(duì)數(shù)據(jù)塊緩存是沒有意義的,數(shù)據(jù)的追加操作是性能優(yōu)化和原子性保證的主要考量因素。
第四,應(yīng)用程序和文件系統(tǒng)API的協(xié)同設(shè)計(jì)提高了整個(gè)系統(tǒng)的靈活性。比如,我們放松了對(duì)GFS 一致性模型的要求,這樣就減輕了文件系統(tǒng)對(duì)應(yīng)用程序的苛刻要求,大大簡(jiǎn)化了GFS 的設(shè)計(jì)。我們引入了原子性的記錄追加操作,從而保證多個(gè)客戶端能夠同時(shí)進(jìn)行追加操作,不需要額外的同步操作來(lái)保證數(shù)據(jù)的一致性。本文后面還有對(duì)這些問題的細(xì)節(jié)的詳細(xì)討論。
Google已經(jīng)針對(duì)不同的應(yīng)用部署了多套GFS 集群。最大的一個(gè)集群擁有超過(guò)1000個(gè)存儲(chǔ)節(jié)點(diǎn),超過(guò)300TB的硬盤空間,被不同機(jī)器上的數(shù)百個(gè)客戶端連續(xù)不斷的頻繁訪問。
2.2、MapReduce 公布時(shí)間:2004年。
MapReduce是一個(gè)編程模型,也是一個(gè)處理和生成超大數(shù)據(jù)集的算法模型的相關(guān)實(shí)現(xiàn)。用戶首先創(chuàng)建一個(gè)Map函數(shù)處理一個(gè)基于key/value pair 的數(shù)據(jù)集合,輸出中間的基于key/value pair 的數(shù)據(jù)集合;然后再創(chuàng)建一個(gè)Reduce 函數(shù)用來(lái)合并所有的具有相同中間key 值的中間value 值。現(xiàn)實(shí)世界中有很多滿足上述處理模型的例子,本論文將詳細(xì)描述這個(gè)模型。
MapReduce架構(gòu)的程序能夠在大量的普通配置的計(jì)算機(jī)上實(shí)現(xiàn)并行化處理。這個(gè)系統(tǒng)在運(yùn)行時(shí)只關(guān)心:如何分割輸入數(shù)據(jù),在大量計(jì)算機(jī)組成的集群上的調(diào)度,集群中計(jì)算機(jī)的錯(cuò)誤處理,管理集群中計(jì)算機(jī)之間必要的通信。采用MapReduce架構(gòu)可以使那些沒有并行計(jì)算和分布式處理系統(tǒng)開發(fā)經(jīng)驗(yàn)的程序員有效利用分布式系統(tǒng)的豐富資源。
我們的MapReduce實(shí)現(xiàn)運(yùn)行在規(guī)模可以靈活調(diào)整的由普通機(jī)器組成的集群上:一個(gè)典型的MapReduce計(jì)算往往由幾千臺(tái)機(jī)器組成、處理以TB計(jì)算的數(shù)據(jù)。程序員發(fā)現(xiàn)這個(gè)系統(tǒng)非常好用:已經(jīng)實(shí)現(xiàn)了數(shù)以百計(jì)的MapReduce程序,在Google的集群上,每天都有1000多個(gè)MapReduce程序在執(zhí)行。
2.3、BigTable一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)
公布時(shí)間:2006年。
Bigtable是一個(gè)分布式的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng),它被設(shè)計(jì)用來(lái)處理海量數(shù)據(jù):通常是分布在數(shù)千臺(tái)普通服務(wù)器上的PB級(jí)的數(shù)據(jù)。Google的很多項(xiàng)目使用Bigtable存儲(chǔ)數(shù)據(jù),包括Web索引、Google Earth、Google Finance。這些應(yīng)用對(duì)Bigtable提出的要求差異非常大,無(wú)論是在數(shù)據(jù)量上(從URL 到網(wǎng)頁(yè)到衛(wèi)星圖像)還是在響應(yīng)速度上(從后端的批量處理到實(shí)時(shí)數(shù)據(jù)服務(wù))。盡管應(yīng)用需求差異很大,但是,針對(duì)Google的這些產(chǎn)品,Bigtable還是成功的提供了一個(gè)靈活的、高性能的解決方案。本論文描述了Bigtable提供的簡(jiǎn)單的數(shù)據(jù)模型,利用這個(gè)模型,用戶可以動(dòng)態(tài)的控制數(shù)據(jù)的分布和格式。
老三篇即使我們常用的Hadoop系統(tǒng)的設(shè)計(jì)理論基石。雖然Google沒有公布這三個(gè)產(chǎn)品的源碼,但是根據(jù)google發(fā)布了這三個(gè)產(chǎn)品的詳細(xì)設(shè)計(jì)論文。而且,Yahoo資助的Hadoop也有按照這三篇論文的開源Java實(shí)現(xiàn):Hadoop對(duì)應(yīng)Mapreduce, Hadoop Distributed File System(HDFS)對(duì)應(yīng)Google fs,Hbase對(duì)應(yīng)Bigtable。不過(guò)在性能上Hadoop比Google要差很多
三、Google新大數(shù)據(jù)論文介紹
Hadoop來(lái)源自Google在2003年底和2004年發(fā)表的兩篇研究論文。第一篇介紹了Google File System,它是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它運(yùn)行于廉價(jià)的普通電腦服務(wù)器上,但可以提供容錯(cuò)功能并且可以給大量的用戶提供總體性能較高的服務(wù);另一篇介紹的是MapReduce,這是是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,能夠極大地方便編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。八年之后,Hadoop在網(wǎng)絡(luò)上得到了廣泛的使用,應(yīng)用領(lǐng)域涉及數(shù)據(jù)分析到各種這樣的數(shù)值計(jì)算任務(wù)。但Google卻研發(fā)出了更好的技術(shù)。
2009年,網(wǎng)絡(luò)巨頭Google開始用新的技術(shù)取代Google File System和MapReduce。相應(yīng)替代的理論基礎(chǔ)來(lái)自以下三篇論文為主導(dǎo):Caffeine、Pregel、Dremel。
3.1、Caffeine:處理個(gè)體修改
公布時(shí)間:2010年。
Google并沒有止步于MapReduce。事實(shí)上,隨著Internet的指數(shù)增長(zhǎng),從零開始重算所有搜索索引變得不切實(shí)際。取而代之,Google開發(fā)了一個(gè)更有價(jià)值的系統(tǒng),同樣支持分布式計(jì)算系統(tǒng)。Google Caffeine是google全球數(shù)據(jù)中心網(wǎng)絡(luò)上的新的搜索基礎(chǔ)設(shè)施——是基于分布式數(shù)據(jù)處理系統(tǒng)Percolator的。Percolator引入了事務(wù),而一些NoSQL數(shù)據(jù)庫(kù)仍然在強(qiáng)調(diào)得到高擴(kuò)展性的同時(shí)你必須犧牲(或者不再需要)事務(wù)處理。它是一個(gè)增量處理平臺(tái)——一種可以持續(xù)更新Google公司的核心搜索索引而不需要從頭開始處理所有數(shù)據(jù)的方法。
在本質(zhì)上Caffeine丟棄MapReduce轉(zhuǎn)而將索引放置在由Google開發(fā)的分布式數(shù)據(jù)庫(kù)BigTable上。作為Google繼GFS和MapReduce兩項(xiàng)創(chuàng)新后的又一項(xiàng)創(chuàng)新,其在設(shè)計(jì)用來(lái)針對(duì)海量數(shù)據(jù)處理情形下的管理結(jié)構(gòu)型數(shù)據(jù)方面具有巨大的優(yōu)勢(shì)。這種海量數(shù)據(jù)可以定義為在云計(jì)算平臺(tái)中數(shù)千臺(tái)普通服務(wù)器上PB級(jí)的數(shù)據(jù)。
在本論文中,Google展示了其網(wǎng)絡(luò)搜索是如何保持著與時(shí)俱進(jìn)。Percolator建立于已存類似Bigtable的技術(shù),但是加入了事務(wù)以及行和表上的鎖和表變化的通知。這些通知之后會(huì)被用于觸發(fā)不同階段的計(jì)算。通過(guò)這樣的方式,個(gè)體的更新就可以“滲透”整個(gè)數(shù)據(jù)庫(kù)。這種方法會(huì)讓人聯(lián)想到類似Storm(或者是Yahoo的S4)的流處理框架(SPF),然而Percolator內(nèi)在是以數(shù)據(jù)作為基礎(chǔ)。SPF使用的一般是消息傳遞而不是數(shù)據(jù)共享,這樣的話更容易推測(cè)出究竟是發(fā)生了什么。然而問題也隨之產(chǎn)生:除非你手動(dòng)的在某個(gè)終端上儲(chǔ)存,否則你將無(wú)法訪問計(jì)算的結(jié)果。
Caffeine大大提升了google搜索速度。在原有的系統(tǒng)中,Google公司每天爬數(shù)以億萬(wàn)計(jì)的文檔,把它們和現(xiàn)有文檔的集合一起經(jīng)過(guò)約100次MapReduce工序進(jìn)行處理。由于系統(tǒng)是順序的,每個(gè)文檔都要花2到3天來(lái)索引才能出現(xiàn)在google的在線搜索結(jié)果中。
Percolator提供對(duì)現(xiàn)有的PB級(jí)索引數(shù)據(jù)的隨機(jī)訪問,讓google可以更新索引而不需要重新處理所有數(shù)據(jù),通過(guò)這種方式減少了這個(gè)延遲。“隨機(jī)訪問讓我們可以處理單個(gè)文檔,而不是像MapReduce那樣需要對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行掃描。”論文中說(shuō)道。該系統(tǒng)運(yùn)行于海量計(jì)算機(jī)上,通過(guò)被稱作ACID兼容數(shù)據(jù)庫(kù)事務(wù)的方式,并行的對(duì)索引進(jìn)行大量修改。
3.2、Pregel:可擴(kuò)展的圖計(jì)算
公布時(shí)間:2010年。
最終Google還需要挖掘圖數(shù)據(jù),比如在線社交網(wǎng)絡(luò)的社交圖譜;所以他們開發(fā)了 Pregel,并在2010年公布其論文。
Pregel路徑(SSSP)、PageRank計(jì)算環(huán)境。沒有Pregel
(BFS)、最短
MapReduce來(lái)做,但是效率很低;也可以用已有的并行圖算法庫(kù)Parallel BGL或者CGMgraph來(lái)做,但是這兩者又沒有容錯(cuò)。
Pregel內(nèi)在的計(jì)算模型比MapReduce復(fù)雜的多:基本上每個(gè)節(jié)點(diǎn)都擁有一個(gè)工作者線程,并且對(duì)眾多工作者線程進(jìn)行迭代并行。在每一個(gè)所謂的“superstep”中,每一個(gè)工作者線程都可以從節(jié)點(diǎn)的“收件夾”中讀取消息和把消息發(fā)送給其它節(jié)點(diǎn),設(shè)置和讀取節(jié)點(diǎn)相關(guān)值以及邊界,或者投票停止。線程會(huì)一直運(yùn)行,直到所有的節(jié)點(diǎn)都被投票停止。此外,還擁有Aggregator和Combiner做全局統(tǒng)計(jì)。
論文陳述了許多算法的實(shí)現(xiàn),比如Google的PageRank、最短路徑、二分圖匹配等。對(duì)比MapReduce或SPF,Pregel需要更多實(shí)現(xiàn)的再思考。
3.3、Dremel:在線可視化
公布時(shí)間:2010年。
面對(duì)海量數(shù)據(jù)的分析處理,MapReduce的優(yōu)勢(shì)不需多言,其劣勢(shì)在于時(shí)效性較差不滿足交互式查詢的需求,比如3秒內(nèi)完成對(duì)萬(wàn)億數(shù)據(jù)的一次查詢等,Dremel應(yīng)此需求而生,與MapReduce成為有效互補(bǔ)。Dremel是一個(gè)為結(jié)構(gòu)化數(shù)據(jù)設(shè)計(jì),并擁有類SQL語(yǔ)言的交互式數(shù)據(jù)庫(kù)。然而取代SQL數(shù)據(jù)庫(kù)使用字段填補(bǔ)的表格,Dremel中使用的是類JSON格式數(shù)據(jù)(更準(zhǔn)確的說(shuō),使用Google Protocol buffer格式,這將加強(qiáng)對(duì)允許字段的限制)。內(nèi)部,數(shù)據(jù)被使用特殊格式儲(chǔ)存,可以讓數(shù)據(jù)掃描工作來(lái)的更高效。查詢被送往服務(wù)器,而優(yōu)秀的格式可以最大性能的輸出結(jié)果。
這篇論文描述了一個(gè)叫做Dremel的系統(tǒng),它支持在普通PC組成的共享集群上對(duì)超大規(guī)模的數(shù)據(jù)集合執(zhí)行交互式查詢。不像傳統(tǒng)的數(shù)據(jù)庫(kù),它能夠操作原位嵌套數(shù)據(jù)。原位意味著在適當(dāng)?shù)奈恢迷L問數(shù)據(jù)的能力,比如,在一個(gè)分布式文件系統(tǒng)(比如GFS或者其他存儲(chǔ)層(比如Bigtable)。查詢這些數(shù)據(jù)一般需要一系列的MapReduce任務(wù),而Dremel可以同時(shí)執(zhí)行很多,而且執(zhí)行時(shí)間比MapReduce小得多。Dremel不是為了成為MapReduce的替代品,而是經(jīng)常與它協(xié)同使用來(lái)分析MapReduce管道的輸出或者創(chuàng)建大規(guī)模計(jì)算的原型系統(tǒng)。
Dremel自從2006就投入生產(chǎn)了并且在Google有幾千用戶。多種多樣Dremel的實(shí)例被部署在公司里,排列著成千上萬(wàn)個(gè)節(jié)點(diǎn)。使用此系統(tǒng)的例子包括:
? 分析網(wǎng)絡(luò)文檔
? 追蹤Android市場(chǎng)應(yīng)用程序的安裝數(shù)據(jù) ? Google產(chǎn)品的崩潰報(bào)告分析 ? Google Books的OCR結(jié)果 ? 垃圾郵件分析
? Google Maps里地圖部件調(diào)試 ? 托管Bigtable實(shí)例中的Tablet遷移 ? Google分布式構(gòu)建系統(tǒng)中的測(cè)試結(jié)果分析 ? 成百上千的硬盤的磁盤IO統(tǒng)計(jì)信息 ? Google數(shù)據(jù)中心上運(yùn)行的任務(wù)的資源監(jiān)控 ? Google代碼庫(kù)的符號(hào)和依賴關(guān)系分析
Dremel基于互聯(lián)網(wǎng)搜索和并行DBMS的概念。首先,它的架構(gòu)借鑒了用在分布式搜索引擎中的服務(wù)樹概念。就像一個(gè)web搜索請(qǐng)求一樣,查詢請(qǐng)求被推入此樹、在每個(gè)步驟被重寫。通過(guò)聚合從下層樹節(jié)點(diǎn)中收到的回復(fù),不斷裝配查詢的最終結(jié)果。其次,Dremel提供了一個(gè)高級(jí)、類SQL的語(yǔ)言來(lái)表達(dá)ad-hoc查詢。與Pig和Hive不同,它使用自己技術(shù)執(zhí)行查詢,而不是翻譯為MapReduce任務(wù)。
最后也是最重要的,Dremel使用了一個(gè)column-striped的存儲(chǔ)結(jié)構(gòu),使得它能夠從二級(jí)存儲(chǔ)中讀取較少數(shù)據(jù)并且通過(guò)更廉價(jià)的壓縮減少CPU消耗。列存儲(chǔ)曾被采用來(lái)分析關(guān)系型數(shù)據(jù),但是據(jù)我們了解還沒有推廣到嵌套數(shù)據(jù)模型上。我們所展現(xiàn)的列狀存儲(chǔ)格式在Google已經(jīng)有很多數(shù)據(jù)處理工具支持,包括MapReduce、Sawzall、以及Flume Java。
關(guān)于Dremel的效率:
論文中描述如下:Dremel每個(gè)月掃描千之五次方條記錄。我們采樣了某個(gè)月的查詢記錄,統(tǒng)計(jì)出耗時(shí)分布曲線。如圖15所示,大部分查詢低于10秒,在交互型查詢的耗時(shí)容忍范圍內(nèi)。一些查詢會(huì)在共享集群上執(zhí)行接近于100 billion條記錄每秒的全量掃描,在專用機(jī)器上這個(gè)值還要更高。通過(guò)對(duì)上述實(shí)驗(yàn)數(shù)據(jù)進(jìn)行觀察,我們可以得到如下結(jié)論:
? 我們可以在磁盤常駐的數(shù)據(jù)集合上對(duì)萬(wàn)億級(jí)記錄執(zhí)行基于掃描的查詢,并達(dá)到交互式速度。
? 在幾千個(gè)節(jié)點(diǎn)范圍內(nèi),列數(shù)量和服務(wù)器數(shù)量的可伸縮性、可擴(kuò)展性是接近線性的。
? MapReduce也可以從列狀存儲(chǔ)中得益,就像一個(gè)DBMS。
? 記錄裝配和解析是昂貴的。軟件層(在查詢處理層之上)最好被優(yōu)化,能夠直接消費(fèi)面向列的數(shù)據(jù)
? MapReduce和查詢處理可以互為補(bǔ)充;一個(gè)層的輸出能作為另一個(gè)的輸入。
? 在一個(gè)多用戶環(huán)境,規(guī)模較大的系統(tǒng)能得益于高性價(jià)比的可伸縮能力,而且本質(zhì)上改善用戶體驗(yàn)。? 如果能接受細(xì)微的精度損失,查詢速度可以更快。
? 互聯(lián)網(wǎng)級(jí)別的海量數(shù)據(jù)集合可以做到很快速的掃描,但想要花費(fèi)更少的時(shí)間則很困難。
? Dremel的代碼庫(kù)包含少于100K行的C++ Java和 Python 代碼
hadoop和Dremel對(duì)比:
Dremel是個(gè)數(shù)據(jù)分析工具,經(jīng)專門設(shè)計(jì)用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語(yǔ)法,區(qū)別在于它是只讀的。不支持修改或者建立功能,也沒有表索引。數(shù)據(jù)被列式存儲(chǔ),這樣有助于提升查詢的速度。Google的BigQuery就是Dremel通過(guò)RESTful API的一種實(shí)現(xiàn)。
Hadoop(MapReduce的一種開源實(shí)現(xiàn))集合了“Hive”數(shù)據(jù)倉(cāng)庫(kù)軟件,同樣允許使用SQL語(yǔ)句對(duì)大量的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析。Hive本質(zhì)上是把查詢轉(zhuǎn)換成MapReduce運(yùn)算。對(duì)比使用ColumIO格式,Hive則是使用表索引的思想去優(yōu)化查詢。
Hadoop更多的則是用于批處理,這就意味著數(shù)據(jù)是運(yùn)行在你已經(jīng)擁有的數(shù)據(jù)集上。有數(shù)據(jù)流入時(shí),流引擎會(huì)進(jìn)行處理。“流”和“實(shí)時(shí)”通常被互換使用,這也是導(dǎo)致Dremel和Drill混淆的原因,通常都會(huì)把它們歸類成延時(shí)。
值得注意的是Google只是打算將Dremel作為MapReduce的一種補(bǔ)充,而不是替換。通過(guò)論文也可以得知,Dremel被頻繁的用于分析MapReduce的結(jié)果或者是作為大規(guī)模計(jì)算的測(cè)試。Dremel可以做那些通常需要一系列MapReduce才可以完成的查詢,但是花費(fèi)的時(shí)間只是使用MapReduce的一小部分。如前所述,Dremel從速度上完全超越MapReduce。
Google Dremel 和Apache Drill對(duì)比: Apache Drill更像是Google Drill的開原版本。OpenDremel,另一個(gè)創(chuàng)建Dremel開源版本的項(xiàng)目。當(dāng)然還有一些其他支持大數(shù)據(jù)快速查詢的項(xiàng)目,比如:Apache CouchDB和Cloudant的演變版本BigCouch。
除了Drill外,還有其他一些大數(shù)據(jù)分析工具和技術(shù) 1.Storm —— Backtype開發(fā)并被Twitter開源。2.Apache S4 —— Yahoo!開源。
而流引擎就是這些實(shí)時(shí)大數(shù)據(jù)處理系統(tǒng)(比如Storm和S4)與Dremel的最大區(qū)別,當(dāng)然Dremel是專門針對(duì)查詢?cè)O(shè)計(jì)。
四、總結(jié)
目前國(guó)內(nèi)提起大數(shù)據(jù)就不能不說(shuō)Hadoop,而Hadoop的火爆要得益于Google在2003年底和2004年公布的兩篇研究論文,其中一份描述了GFS(Google File System),GFS是一個(gè)可擴(kuò)展的大型數(shù)據(jù)密集型應(yīng)用的分布式文件系統(tǒng),該文件系統(tǒng)可在廉價(jià)的硬件上運(yùn)行,并具有可靠的容錯(cuò)能力,該文件系統(tǒng)可為用戶提供極高的計(jì)算性能,而同時(shí)具備最小的硬件投資和運(yùn)營(yíng)成本。另外一篇?jiǎng)t描述了MapReduce,MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語(yǔ)言里借來(lái)的,同時(shí)也包含了從矢量編程語(yǔ)言里借來(lái)的特性。基于MapReduce編寫的程序是在成千上萬(wàn)的普通PC機(jī)上被并行分布式自動(dòng)執(zhí)行的。8年后,Hadoop已經(jīng)被廣泛使用在網(wǎng)絡(luò)上,并涉及數(shù)據(jù)分析和各類數(shù)學(xué)運(yùn)算任務(wù)。但Google卻提出更好的技術(shù)。在2009年,網(wǎng)絡(luò)巨頭開始使用新的技術(shù)取代GFS和MapReduce。這些技術(shù)代表未來(lái)的趨勢(shì)。
自Hadoop興起以來(lái),Google已經(jīng)發(fā)布了三篇研究論文,主要闡述了基礎(chǔ)設(shè)施如何支持龐大網(wǎng)絡(luò)操作。其中一份詳細(xì)描述了Caffeine,Caffeine主要為Google網(wǎng)絡(luò)搜索引擎提供支持。
在Google采用Caffeine之前,Google使用MapReduce和分布式文件系統(tǒng)(如GFS)來(lái)構(gòu)建搜索索引(從已知的Web頁(yè)面索引中)。在2010年,Google搜索引擎發(fā)生了重大變革。Google將其搜索遷移到新的軟件平臺(tái),他們稱之為“Caffeine”。Caffeine是Google出自自身的設(shè)計(jì),Caffeine使Google能夠更迅速的添加新的鏈接(包括新聞報(bào)道以及博客文章等)到自身大規(guī)模的網(wǎng)站索引系統(tǒng)中,相比于以往的系統(tǒng),新系統(tǒng)可提供“50%新生”的搜索結(jié)果。
另一篇介紹了Pregel,Pregel主要繪制大量網(wǎng)上信息之間關(guān)系的“圖形數(shù)據(jù)庫(kù)”。而最吸引人的一篇論文要屬被稱之為Dremel的工具。全球很多技術(shù)都落后于Google,而Google自身的技術(shù)也正在影響全球。在Google思路以及論文的啟發(fā)下,同樣涌現(xiàn)出一些開源項(xiàng)目,比如:Apache Drill、Apache Giraph、斯坦福GPS等等。Google近年來(lái)每篇論文都有著深遠(yuǎn)的影響,同時(shí)大數(shù)據(jù)領(lǐng)域內(nèi)有很多人必然在翹首以盼Google的下一篇論文。
第二篇:論文簡(jiǎn)述
農(nóng)村中小學(xué)布局調(diào)整過(guò)程中的人文缺失
自我介紹,很榮幸接受各位老師的指導(dǎo)、批評(píng)。
論文的基本觀點(diǎn)是:農(nóng)村中小學(xué)布局調(diào)整工作在實(shí)施過(guò)程中引發(fā)了相當(dāng)嚴(yán)重的人文缺失問題。論文從關(guān)中平原東部農(nóng)村中小學(xué)布局調(diào)整的現(xiàn)狀入手,列舉了該項(xiàng)工作實(shí)施過(guò)程中引發(fā)的人文缺失問題,并對(duì)幾個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了認(rèn)真的反思和討論。
論文第一部分分別從農(nóng)村文化資源、學(xué)生身心發(fā)展、教師工作壓力三個(gè)方面闡述了農(nóng)村中小學(xué)布局調(diào)整實(shí)施過(guò)程中凸現(xiàn)的人文缺失問題。第一方面論文通過(guò)關(guān)中平原東部農(nóng)村一所非完全小學(xué)撤并工作未能成行的典型事例,闡釋了大量撤并學(xué)校不但破壞了當(dāng)?shù)氐奈幕鷳B(tài)平衡,對(duì)于學(xué)校外圍優(yōu)質(zhì)發(fā)展環(huán)境也造成了嚴(yán)重的損失。農(nóng)村中小學(xué)布局調(diào)整失當(dāng)產(chǎn)生的最令人揪心的問題莫過(guò)于學(xué)生身心健康發(fā)展面臨嚴(yán)峻挑戰(zhàn)。第二方面論文首先關(guān)注了當(dāng)?shù)夭季终{(diào)整后缺乏寄宿制條件的學(xué)生面臨的新的求學(xué)困難以及相應(yīng)的家長(zhǎng)經(jīng)濟(jì)和心理負(fù)擔(dān)的加重,然后列舉了當(dāng)?shù)丶乃拗茖W(xué)校在建設(shè)、管理方面存在的問題。第三方面,論文簡(jiǎn)要分析了布局調(diào)整導(dǎo)致學(xué)校規(guī)模盲目擴(kuò)大造成教師工作心理壓力增大進(jìn)而引發(fā)職業(yè)倦怠的問題。
論文第二部分對(duì)于農(nóng)村中小學(xué)布局調(diào)整工作引發(fā)的問題進(jìn)行了初步的反思和討論。第一個(gè)問題,論文從產(chǎn)業(yè)經(jīng)營(yíng)的規(guī)模經(jīng)濟(jì)原理出發(fā),分析了我國(guó)大規(guī)模實(shí)施農(nóng)村中小學(xué)布局調(diào)整工作的初衷,強(qiáng)調(diào)布局調(diào)整在關(guān)注經(jīng)濟(jì)效益的同時(shí),更應(yīng)關(guān)注學(xué)生身心的健康發(fā)展。第二個(gè)問題,論文提出對(duì)優(yōu)質(zhì)教育資源應(yīng)有一個(gè)全面的認(rèn)識(shí),強(qiáng)調(diào)布局調(diào)整工作應(yīng)注重優(yōu)質(zhì)校園文化資源的保留和延續(xù)。第三個(gè)問題,論文提出當(dāng)前布局調(diào)整“重廢難立”問題突出,認(rèn)為加大投入,集中精力推進(jìn)中心寄宿制學(xué)校建設(shè)是做好布局調(diào)整工作的關(guān)鍵環(huán)節(jié)。
最后,論文認(rèn)為隨著教育投入的不斷增加和存在問題的不斷修正,布局調(diào)整工作的穩(wěn)步推進(jìn)必然推動(dòng)農(nóng)村基礎(chǔ)教育的大發(fā)展。
論文存在諸多問題請(qǐng)老師批評(píng)指導(dǎo)。
第三篇:商業(yè)銀行數(shù)據(jù)處理應(yīng)用論文
[摘 要] 本文主要是針對(duì)商業(yè)銀行電子銀行會(huì)計(jì)處理中的憑證設(shè)計(jì)和填制、打印等問題,利用計(jì)算機(jī)進(jìn)行了自動(dòng)化設(shè)計(jì)。
[關(guān)鍵詞] 電子銀行 原始憑證 函數(shù)
隨著電子銀行的普及,銀行會(huì)計(jì)的數(shù)據(jù)處理工作中存在的問題也日益顯露,筆者認(rèn)為電子銀行業(yè)務(wù)開展后,銀行會(huì)計(jì)的日常數(shù)據(jù)處理工作中存在票據(jù)中數(shù)據(jù)的填制等具體的業(yè)務(wù)處理問題可以通過(guò)EXCEL的強(qiáng)大的電子數(shù)據(jù)處理功能來(lái)完成。
銀行會(huì)計(jì)在填制某些原始憑證的時(shí)候,如銀行承兌匯票等票據(jù),以前都是用手工方法填寫,工作量大,且容易出錯(cuò),為了節(jié)約人力和財(cái)力,筆者在調(diào)研后進(jìn)行了如下設(shè)計(jì):
一、打印區(qū)域設(shè)置
以網(wǎng)銀手續(xù)費(fèi)憑證的填制為例,如圖1,會(huì)計(jì)人員需要在印制好格式的憑證上填制如下內(nèi)容,筆者通過(guò)測(cè)量憑證上需要填制的位置,通過(guò)EXCEL的列寬和行高來(lái)設(shè)定數(shù)據(jù)區(qū)域。
二、單位名稱設(shè)置
對(duì)于單位名稱和賬號(hào)等,可以直接輸入賬號(hào),利用VLOOK()函數(shù)來(lái)自動(dòng)完成填制。例如,我們預(yù)先設(shè)置一個(gè)“客戶名稱與賬號(hào)”工作表如圖2,然后在“網(wǎng)上銀行手續(xù)費(fèi)”工作表中C2單元格中輸入公式:=VLOOKUp(A3,客戶名稱與賬號(hào)!B3:C38,2,FALSE),則只要在A3單元格中輸入相關(guān)的單位賬號(hào),就可以直接取得相關(guān)的單位名稱。
三、金額自動(dòng)填寫設(shè)計(jì)
如圖,我們?cè)O(shè)K8單元格為數(shù)據(jù)源,可以通過(guò)函數(shù)或鏈接等方式獲取數(shù)據(jù),筆者在此處通過(guò)直接輸入數(shù)字的方式來(lái)說(shuō)明問題。
在S6單元格中輸入公式:=INT($K$×8100)-INT($K$8×10)10,直接獲取分位數(shù)字。設(shè)計(jì)如下:
1.獲取角分位數(shù)字。設(shè)K8單元格中的數(shù)為345.67(元),則INT($K$8×100)的運(yùn)算結(jié)果為34567,而$K$8×10的運(yùn)算結(jié)果為3456.7,INT($K$8×10)10的運(yùn)算結(jié)果為34560,則INT($K$8×100)-INT($K$8×10)×10=34567-34560=7,為S6單元格中的分位數(shù)字,同理,在角位輸入:=INT(ABS($K$8×10))-INT(ABS($K$8))×10,在元位輸入:=INT(ABS($K$8))-INT(ABS($K$8/10))10,則角位和元位數(shù)字也可以輕松取得。
2.整數(shù)位數(shù)字的確定和人民幣符號(hào)的設(shè)置。在T8單元格輸入:= INT(K8),再在p6單元格中輸入公式:=IF(LEN($T$8)>=2,LEFT(RIGHT($T$8,2),1),“¥”)。
在O6單元格中輸入:=IF(LEN($T$8)>=3,LEFT(RIGHT($T$8,3),1),IF(LEN($T$8)=2,“¥”,“”)),同理,N6、M6、L6、K6單元格中分別輸入:=IF(LEN($T$8)>=4,LEFT(RIGHT($T$8,4),1),IF(LEN($T$8)=3,“¥”,“”)),=IF(LEN($T$8)>=5,LEFT(RIGHT($T$8,5),1),IF(LEN($T$8)=4,“¥”,“”)),=IF(LEN($T$8)>=7,LEFT(RIGHT($T$8,7),1),IF(LEN($T$8)>=6,“¥”,“”))(假設(shè)數(shù)字不超過(guò)百萬(wàn)),完成了小寫數(shù)字與“¥”輸入工作。
3.生成大寫金額。在C8單元格中輸入:=TEXT(INT(ABS(K8)),“[DBNum2]”),然后在單元格D8中輸入:=TEXT(INT(ABS(K8 10))-INT(ABS(K8))×10,”[DBNum2]”)或=TEXT(R6,”[DBNum2]”),在E8單元格中輸入:=TEXT(INT(ABS(K8×100))-INT(ABS(K8×10))×10,”[DBNum2]”)或=TEXT(S6,”[DBNum2]”),然后我們?cè)贐7單元格中輸入:=IF(K8<0.1,E8&”分”,(IF(K8=INT(K8),C8&”元整”,(IF(C8=”零”,””&(IF(D8=”零“,”零“&E8&”分“,D8&”角“&(IF(E8=”零“,”“,E8&”分“)))),C8&”元“&(IF(D8=”零“,”零“&E8&”分“,D8&”角“&(IF(E8=”零“,”“,E8&”分“)))))))))。
也可以設(shè)置如下:在C8單元格中輸入:=TEXT(INT(ABS(K8)),”[DBNum2][$-804]G/通用格式元”),直接取出不含角分的數(shù)值,然后和上面同理,取“整”、“角”或“分”,此處不再探討。
為了隱藏第8、9行的數(shù)值,可以設(shè)置文字顏色為白色,打印的時(shí)候就不打印這部分的內(nèi)容了。
四、日期自動(dòng)更正為銀行特殊規(guī)定格式的設(shè)計(jì)
銀行要求會(huì)計(jì)人員在填寫有關(guān)憑證的時(shí)候,需要按照“某某某某年某某月某某日”的大寫格式來(lái)填寫,主要是為了防止篡改日期。而我們?cè)诶肊XCEL作為工具的時(shí)候,發(fā)現(xiàn)其日期格式根本沒有我們所需要的格式,可以通過(guò)如下操作完成日期格式設(shè)計(jì): 在設(shè)置單元格格式的時(shí)候,采用自定義格式,輸入:[DBNum2][$-804]yyyy”年”mm”月”dd”日”;@,定義其格式即可。例如,輸入2007-3-2,則自動(dòng)顯示為“貳零零柒年零叁月零貳日”。
也可以在特定的單元格(假設(shè)為AC17)中輸入:=TEXT(AD17,”[DBNum2][$-804]yyyy年mm月dd日”)其中,設(shè)AD17為輸入日期的單元格,則AC17單元格返回的數(shù)值為銀行規(guī)定的日期格式:“某某某某年某某月某某日”。
參考文獻(xiàn):
[1]劉宣杰 李志剛:用友ERp沙盤應(yīng)收賬款存在的問題與設(shè)想[J].商場(chǎng)現(xiàn)代化,2007.10
[2]電腦報(bào):Office辦公應(yīng)用疑難破解[M].汕頭大學(xué)出版社,2005.6
第四篇:Excel與數(shù)據(jù)處理-結(jié)課論文
畢業(yè)設(shè)計(jì)-文獻(xiàn)翻譯
姓名:樊世克 專業(yè):金屬12-1 學(xué)號(hào):311206001111 學(xué)院:材料學(xué)院 指導(dǎo)老師:許磊
EXCEL與數(shù)據(jù)處理結(jié)課論文
1.摘要
Office Excel的功能非常強(qiáng)大,也非常好用,一般的文字排版、表格、計(jì)算、函數(shù)的應(yīng)用等都用EXCEL來(lái)解決,它能夠方便的制作出各種電子表格,使用公式和函數(shù)對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算;用各種圖表來(lái)表示數(shù)據(jù)直觀明了;利用超級(jí)鏈接功能,用戶可以快速打開局域網(wǎng)或Internet上的文件,與世界上任何位置的互聯(lián)網(wǎng)用戶共享工作薄文件。本文為學(xué)習(xí)完excel課程后的相關(guān)心得體會(huì)。
2.關(guān)鍵詞
Excel 數(shù)據(jù)處理 心得體會(huì)
3.背景
在知識(shí)大爆炸,數(shù)據(jù)日益龐大的當(dāng)今時(shí)代;在會(huì)計(jì)電算化日益普及,企業(yè)日益發(fā)展;交易日益擴(kuò)大和復(fù)雜的今天,傳統(tǒng)的手工審計(jì)已越來(lái)越不能適應(yīng)現(xiàn)代審計(jì)的需要;會(huì)計(jì)電算化對(duì)傳統(tǒng)的會(huì)計(jì)理論和實(shí)務(wù)產(chǎn)生了重大影響,當(dāng)然也會(huì)影響到為達(dá)到有效的內(nèi)部控制而采取的組織結(jié)構(gòu)和業(yè)務(wù)程序,必然對(duì)傳統(tǒng)的審計(jì)產(chǎn)生很大的影響。所以,必須制定與新情況相適應(yīng)的計(jì)算機(jī)審計(jì)準(zhǔn)則以及計(jì)算機(jī)審計(jì)方法,以利開展計(jì)算機(jī)審計(jì)工作。與此同時(shí),計(jì)算機(jī)審計(jì)準(zhǔn)則的制定和計(jì)算機(jī)審計(jì)工作的開展將會(huì)對(duì)會(huì)計(jì)電算化的發(fā)展產(chǎn)生積極的推動(dòng)作用。會(huì)計(jì)師
算與分析的平臺(tái),集成了最優(yōu)秀的數(shù)據(jù)計(jì)算與分析功能,用戶完全可以按照自己的思路來(lái)創(chuàng)建電子表格,并在Excel的幫助下出色的完成工作任務(wù)。如果能熟練使用Excel,就能做到“一招鮮,吃遍天”,無(wú)論在哪個(gè)行業(yè)哪家公司,高超的Excel水平都能在職場(chǎng)上助您成功。
在電子表格軟件領(lǐng)域,Excel軟件唯一的競(jìng)爭(zhēng)對(duì)手就是自己。基于這樣的絕對(duì)優(yōu)勢(shì)地位,Excel已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn)。因此,您大可不必花時(shí)間去關(guān)注別的電子表格軟件。即使需要,以Excel的功底去學(xué)習(xí)其他同類軟件,學(xué)習(xí)成本會(huì)非常低。如此,學(xué)習(xí)Excel的綜合優(yōu)勢(shì)就很明顯了。
Excel能夠方便的制作出各種電子表格,使用公式和函數(shù)對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算;用各種圖表來(lái)表示數(shù)據(jù)直觀明了;利用超級(jí)鏈接功能,用戶可以快速打開局域網(wǎng)或Internet上的文件,與世界上任何位置的互聯(lián)網(wǎng)用戶共享工作薄文件。它能夠方便的制作出各種電子表格,使用公式和函數(shù)對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算;用各種圖表來(lái)表示數(shù)據(jù)直觀明了;利用超級(jí)鏈接功能,用戶可以快速打開局域網(wǎng)或Internet上的文件,與世界上任何位置的互聯(lián)網(wǎng)用戶共享工作薄文件。它能夠方便的制作出各種電子表格,使用公式和函數(shù)對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算;用各種圖表來(lái)表示數(shù)據(jù)直觀明了;利用超級(jí)鏈接功能,用戶可以快速打開局域網(wǎng)或Internet上的文件,與世界上任何位置的互聯(lián)網(wǎng)用戶共享工作薄文件。
Excel一向具有良好的向下兼容特性,特別是自從進(jìn)入97版本
的成熟期以來(lái),歷經(jīng)9年時(shí)間中3個(gè)版本的升級(jí),每一次升級(jí)都能帶來(lái)新的功能,但卻幾乎可以不費(fèi)力的掌握這些新功能并同時(shí)沿用原有的功能。而且,這4個(gè)版本的功能有99%的部分都是通用的,文件格式也可以完全通用。
5.Excel的學(xué)習(xí)方法
1.正確的學(xué)習(xí)方法
學(xué)習(xí)任何知識(shí)都是講究方法的,學(xué)習(xí)Excel也不例外。正確的學(xué)習(xí)方法能使人不斷進(jìn)步,而且是以最快的速度進(jìn)步。錯(cuò)誤的方法則會(huì)使人止步不前,甚至失去學(xué)習(xí)的興趣。沒有人天生就是Excel專家,只有運(yùn)用正確的方法不斷的努力才會(huì)有提高。
2.善用資源,學(xué)以致用
大部分人學(xué)習(xí)Excel的目的是為了解決自己工作中的問題和提升工作效率的問題。但總會(huì)有遇到問題的時(shí)候,帶著問題學(xué)習(xí),不但進(jìn)步快,而且很容易對(duì)Excel產(chǎn)生更多的興趣,從而獲得持續(xù)的成長(zhǎng)。
3.多閱讀多實(shí)踐
多閱讀Excel技巧或案例方面的文章與書籍,能夠拓寬你的視野,并從中學(xué)到許多對(duì)自己有幫助的知識(shí)。在互聯(lián)網(wǎng)上,介紹Excel應(yīng)用的文章很多,而且可以免費(fèi)閱讀,有些甚至是視頻文件或者動(dòng)畫教程,這些都是非常好的學(xué)習(xí)資源。在圖書市場(chǎng)上也有許多Excel書,所以多花點(diǎn)時(shí)間在書店,也是個(gè)好主意。對(duì)于朋友推薦或者經(jīng)過(guò)試讀以后認(rèn)為確實(shí)對(duì)自己有幫助的書,可以買回家去仔細(xì)研讀。
實(shí)是自己認(rèn)識(shí)太淺薄了。
每做一次實(shí)踐,感覺自己的收獲總會(huì)不少。做實(shí)訓(xùn)是為了讓我們對(duì)平時(shí)學(xué)習(xí)的理論知識(shí)與實(shí)際操作相結(jié)合,在理論和實(shí)訓(xùn)教學(xué)基礎(chǔ)上進(jìn)一步鞏固已學(xué)基本理論及應(yīng)用知識(shí)并加以綜合提高,學(xué)會(huì)將知識(shí)應(yīng)用于實(shí)際的方法,提高分析和解決問題的能力。在實(shí)訓(xùn)的過(guò)程中,我深深感覺到自身所學(xué)知識(shí)的有限。有些題目書本上沒有提及,所以我就沒有去研究過(guò),做的時(shí)候突然間覺得自己真的有點(diǎn)無(wú)知,雖所現(xiàn)在去看依然可以解決問題,但還是浪費(fèi)了許多時(shí)間,這一點(diǎn)是我必須在以后的學(xué)習(xí)中加以改進(jìn)的地方,同時(shí)也要督促自己在學(xué)習(xí)的過(guò)程中不斷的完善自我。另外一點(diǎn),也是在每次實(shí)訓(xùn)中必不可少的部分,就是同學(xué)之間的互相幫助。所謂”當(dāng)局者迷,旁觀者清”,有些東西感覺自己做的是時(shí)候明明沒什么錯(cuò)誤,偏偏對(duì)賬的時(shí)候就是有錯(cuò)誤,讓其同學(xué)幫忙看了一下,發(fā)現(xiàn)其實(shí)是個(gè)很小的錯(cuò)誤。
所以說(shuō),相互幫助是很重要的一點(diǎn)。這在以后的工作或生活中也是很關(guān)鍵的。俗話說(shuō):“要想為事業(yè)多添一把火,自己就得多添一捆材”。此次實(shí)訓(xùn),我深深體會(huì)到了積累知識(shí)的重要性。在著當(dāng)中我們遇到了不少難題,但是經(jīng)過(guò)我們大家的討論和老師細(xì)心的一一指導(dǎo),問題得到了解決。
Excel課程結(jié)束了,我感覺學(xué)到很多東西,初步認(rèn)識(shí)了解了Excel的強(qiáng)大功能,但也有遺憾,有很多東西只是做了卻不明白為何那樣做,有些東西甚至沒有完成。但我想現(xiàn)在只是了解階段,以后要學(xué)習(xí)的還有很多,所以在以后的學(xué)習(xí)中我會(huì)更加努力和認(rèn)真,學(xué)會(huì)更深的內(nèi)容。
第五篇:【技術(shù)貼啊】google學(xué)術(shù) 論文搜索
【技術(shù)貼啊】google學(xué)術(shù) 論文搜索
2011-05-30 21:35:37 來(lái)自: 我會(huì)考上!!(不許扯我后腿!我要長(zhǎng)大!)http://www.tmdps.cnpLINKer(cnpiec LINK service)在線數(shù)據(jù)庫(kù)檢索系統(tǒng),并正式開通運(yùn)行。cnpLINKer即“中圖鏈接服務(wù)”,目前主要提供約3600種國(guó)外期刊的目次和文摘的查詢檢索、電子全文鏈接及期刊國(guó)內(nèi)館藏查詢功能.并時(shí)時(shí)與國(guó)外出版社保持?jǐn)?shù)據(jù)內(nèi)容的一致性和最新性.點(diǎn)評(píng):只提供了外文檢索的功能,但是無(wú)法得到全文。個(gè)人認(rèn)為不是很理想。3.專家個(gè)人主頁(yè)搜索引擎
http://hpsearch.uni-trier.de/ 搜索專家們的主頁(yè),各位可以看看,具體的好處我還要進(jìn)一步的挖掘各位也可以提一些建議。4.InfoSeek http://www.tmdps.cnkikw”這個(gè)cnki常用密碼進(jìn)行搜索,然后搜索到的資源還是很多,至少感覺比百度強(qiáng)。就是缺少快照。但是也不錯(cuò)!他的功能還要進(jìn)一步挖掘!6。Lycos http://www.tmdps.cn
多功能搜索引擎,提供類目、網(wǎng)站、圖象及聲音文件等多種檢索功能。目錄分類規(guī)范細(xì)致,類目設(shè)置較好,網(wǎng)站歸類較準(zhǔn)確,提要簡(jiǎn)明扼要。收錄豐富。搜索結(jié)果精確度較高,尤其是搜索圖像和聲音文件上的功能很強(qiáng)。有高級(jí)檢索功能,支持邏輯條件限制查詢。
點(diǎn)評(píng):在搜索其他的國(guó)外免費(fèi)資源的時(shí)候我發(fā)現(xiàn)還是比較好用,但是對(duì)于學(xué)術(shù)資源的搜索,我覺得至今還沒有挖掘出他的潛力。7.http://www.tmdps.cn
Google在同一水平的搜索引擎。是Amazon.com推出的,Web result部分是基于Google的,所以保證和Google在同一水平,另外增加了Amazon的在書本內(nèi)搜索的功能和個(gè)性化功能:主要是可以記錄你的搜索歷史。現(xiàn)在還是Beta,不過(guò)試用后感覺很好,向大家推薦一試,不過(guò)缺憾是現(xiàn)在書本內(nèi)搜索沒有中文內(nèi)容。8。http://vivisimo.com/
推薦一個(gè)很有特色的搜索引擎 http://vivisimo.com/,cmu的作品,對(duì)搜索的內(nèi)容進(jìn)行分類,這樣可以有效地做出選擇,比較有特色。可實(shí)現(xiàn)分類檢索,檢索速度也很好,如EBSCO 密碼幾分鐘就可找一大堆.http://search.epnet.com/
9。goole 搜索引擎goole.com,與google比較了一下發(fā)現(xiàn),能搜索到一些google搜索不到的好東東。它界面簡(jiǎn)潔,功能強(qiáng)大,速度快,YAHOO、網(wǎng)易都采用了它的搜索技術(shù)。各位可以一試。10。looksmart 一個(gè)檢索免費(fèi)paper的好工具,網(wǎng)址是:http://www.tmdps.cn/ 進(jìn)入網(wǎng)頁(yè)以后,可以看到他有三個(gè)功能,driectory web article,其中article對(duì)我們很有幫助,你可以嘗試輸入你要找的文章,會(huì)有很多發(fā)現(xiàn)的!