第一篇:調(diào)研數(shù)據(jù)處理方法:
調(diào)研數(shù)據(jù)處理辦法:調(diào)研數(shù)據(jù)顯示新一季MINISO名創(chuàng)優(yōu)品在華知名度高達(dá)63%
當(dāng)前國內(nèi)實體零售業(yè)市場普遍收縮的大環(huán)境下,MINISO名創(chuàng)優(yōu)品的異軍突起,為廣大零售業(yè)界同行所震撼。為剖析MINISO名創(chuàng)優(yōu)品品牌逆勢而上的品牌戰(zhàn)略,探究其贏取市場青睞的原因,本所組織成立研究生項目調(diào)研小組開展了獨立的針對MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研項目,現(xiàn)撰寫形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報告2.0》。
半年來,國內(nèi)零售業(yè)市場驚現(xiàn)了休閑時尚百貨品牌MINISO名創(chuàng)優(yōu)品強勢來襲的景象,其以驚人的開業(yè)速度進(jìn)軍全國各大重要商圈,特別是改革開放前沿陣地的廣東,僅上下九商圈就開設(shè)了5家MINISO名創(chuàng)優(yōu)品店鋪,深受廣大消費者熱捧,成績斐然。在當(dāng)前國內(nèi)實體零售業(yè)市場普遍收縮的大環(huán)境下,MINISO名創(chuàng)優(yōu)品的異軍突起,為廣大零售業(yè)界同行所震撼。為剖析MINISO名創(chuàng)優(yōu)品品牌逆勢而上的品牌戰(zhàn)略,本所組織成立研究生項目調(diào)研小組開展了獨立的針對MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研項目。本項目獲得了名創(chuàng)優(yōu)品(中國)有限公司的支持,向項目組提供了很多有關(guān)其品牌、新媒體渠道、深度訪問協(xié)助等間接資料和幫助。
第一季度調(diào)研時間:2014年3月1日10時始至31日16時止;調(diào)研對象:部分城市消費者;調(diào)研主要方式:網(wǎng)絡(luò)問卷自填定量調(diào)研;調(diào)研輔助方式:購物現(xiàn)場消費者深度訪問的定性調(diào)研;調(diào)研問卷設(shè)計維度:從消費者對品牌的知曉度、首次進(jìn)店行為興奮點、首次賣場感知、品牌接受狀況、購買心動理由、品牌分享意愿等6個維度設(shè)計問卷。據(jù)統(tǒng)計,第一季度品牌調(diào)研活動共吸引了44247人查收電子調(diào)研問卷,回收問卷15034份,有效問卷14712份,最終形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報告1.0》。
《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報告1.0》主要內(nèi)容回顧如下:
1)62%的消費者表示沒聽說過MINISO名創(chuàng)優(yōu)品,僅38%的消費者表示聽說過MINISO名
創(chuàng)優(yōu)品,可見當(dāng)前的MINISO名創(chuàng)優(yōu)品品牌知曉度不高,需加快全國重要商圈布局開店步伐,同時需配合高密度的廣告策略。
2)51%的消費者醉心于MINISO名創(chuàng)優(yōu)品高端大氣的店鋪形象,MINISO名創(chuàng)優(yōu)品高端大
氣的SI是針對商圈經(jīng)過人群的高效殺傷性武器。
3)50%的消費者認(rèn)同MINISO名創(chuàng)優(yōu)品品牌理念,認(rèn)同MINISO名創(chuàng)優(yōu)品“真正物美價廉”的品牌主張,消費者品牌體驗良好。
4)72%的消費者明確表示會再度光臨消費,且會因價格吸引愿意購買計劃外商品。
5)60%的消費者認(rèn)為使其做出購買決定的最心動理由是其商品超高的性價比。
6)82%的消費者愿意將MINISO名創(chuàng)優(yōu)品品牌動態(tài)信息分享給身邊好友。
第二季度調(diào)研時間:2014年5月21日12時始至6月20日12時止;調(diào)研對象:部分城市消費者;調(diào)研主要方式:網(wǎng)絡(luò)問卷自填定量調(diào)研;調(diào)研輔助方式:購物現(xiàn)場消費者深度訪問的定性調(diào)研;調(diào)研問卷設(shè)計維度:從品牌知曉度、品牌令你最心動的原因、購買的首要考慮因素、偏向購買的品類、關(guān)注的媒介渠道、品牌分享意愿等6個維度設(shè)計問卷。據(jù)統(tǒng)計,該調(diào)研活動共吸引了88250人查收電子調(diào)研問卷,回收問卷56139份,有效問卷55578份,最終形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報告2.0》。
《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報告2.0》調(diào)研基本結(jié)果簡述:
1)MINISO名創(chuàng)優(yōu)品品牌知名度同比第一季度調(diào)研結(jié)果提升25%,高達(dá)63%。
2)MINISO名創(chuàng)優(yōu)品主張的“真正物美價廉”品牌理念的認(rèn)同度同比第一季度調(diào)研結(jié)果提
升了14%,高達(dá)64%。
3)MINISO名創(chuàng)優(yōu)品消費者購買的首要考慮因素有51%集中在品牌主張的“真正物美價廉”的先發(fā)優(yōu)勢區(qū)間,即超高性價比,同時25%消費者折服在國際著名休閑時尚百貨品牌的影響力下。
4)MINISO名創(chuàng)優(yōu)品品牌代表的區(qū)隔品類是“休閑時尚百貨”,62%的消費者用購買行動
認(rèn)同和支持著品牌引入初期的品類區(qū)隔,有利于品牌差異化識別,其中37%的消費者會首選生活百貨,25%的消費者會首選創(chuàng)意家居。
5)92%的消費者明確表示會選擇通過MINISO名創(chuàng)優(yōu)品微信、微博等自媒體平臺收聽其品
牌動態(tài)和商品信息,夯實了MINISO名創(chuàng)優(yōu)品自媒體低成本傳播的基礎(chǔ),確保其可持續(xù)提供“真正物美價廉”的商品。
6)97%的消費者會支持MINISO名創(chuàng)優(yōu)品媒介策略,并愿意將其良好的消費體驗和海量物
美價廉信息分享推廣,支持MINISO名創(chuàng)優(yōu)品低成本品牌推廣策略。
第二篇:北京地鐵沉降監(jiān)測方法及數(shù)據(jù)處理
北京地鐵沉降監(jiān)測方法及數(shù)據(jù)處理
摘要:北京是軌道交通工程在建項目最多的城市,沉降監(jiān)測對地鐵工程的安全施工有著重要意義,同時監(jiān)測數(shù)據(jù)能夠直接用來評價地鐵施工對地表環(huán)境的影響。本文重點論述了北京地鐵沉降監(jiān)測的方法與技術(shù)要求,介紹了所用儀器數(shù)據(jù)文件的格式,詳述了數(shù)據(jù)處理和統(tǒng)計分析。最后,文章給出了變形預(yù)報分析的數(shù)學(xué)方法,并說明了其現(xiàn)實意義。
關(guān)鍵詞:沉降監(jiān)測;數(shù)字水準(zhǔn)儀;數(shù)據(jù)處理引言
北京是一個國際化的大都市,人口與車輛的增多給北京城帶來了很嚴(yán)重的交通問題。隨著2008年奧運會的日趨臨近,解決這個問題就顯得越來越緊迫。軌道交通是解決日益惡化的城市交通問題的一個主要手段。然而,在人口密集、建筑設(shè)施密布的城市中進(jìn)行軌道工程施工,由于巖土開挖不可避免地產(chǎn)生對巖土體的擾動并引起洞室周圍地表發(fā)生位移和變形,當(dāng)位移和變形超過一定的限度時,勢必危及周圍地面建筑設(shè)施、道路葙地下管線的安全。因此,研究城市軌道工程開挖過程中地表沉降的有效控制問題,對于地表環(huán)境保護(hù)及軌道工程的安全施工都具有十分重要的意義。2 沉降基準(zhǔn)點和沉降監(jiān)測點的布設(shè)與觀測
從2005年3月開始,我們開始對北京地鐵四號線某標(biāo)段(車站)的沉降監(jiān)測工作,預(yù)計該標(biāo)段的土建施工工作和監(jiān)測工作將于2006年底結(jié)束。監(jiān)測儀器使用TrimbleDiNi12數(shù)字水準(zhǔn)儀,監(jiān)測內(nèi)容包括建筑物沉降監(jiān)測和地表沉降監(jiān)測。沉降監(jiān)測控制網(wǎng)采用地鐵四號線的高程控制網(wǎng)。水準(zhǔn)基點與工作基點的聯(lián)測采用一等水準(zhǔn)觀測,起初開始觀測時,一個月復(fù)測一次,三個月以后每三月觀測一次。遇跨雨季等特殊情況增加觀測次數(shù),以判定工作基點的穩(wěn)定性。工作基點均位于沉降影響范圍外的已穩(wěn)定的永久性建筑物上。2·1 監(jiān)測點布設(shè)主要要點
1)監(jiān)測點布設(shè)的范圍為地鐵結(jié)構(gòu)外沿30m內(nèi),但在車站主體結(jié)構(gòu)施工地段,地鐵結(jié)構(gòu)外沿50m范圍內(nèi)的重點建(構(gòu))筑物也應(yīng)監(jiān)測。
2)地表沉降監(jiān)測應(yīng)盡量和施工單位監(jiān)測同點量測,同時要注意和施工單位量測的時間也應(yīng)一致(同天量測),以進(jìn)行監(jiān)測數(shù)據(jù)的比對和校核。
3)由于此地鐵屬于蓋挖車站,原則上沿線路走向上每40m布設(shè)一個地表沉降測點,布設(shè)3排;車站中線一排,區(qū)間線路延長線各一排。
4)建筑物沉降監(jiān)測點一般布設(shè)在3層以上(含3層)的永久建筑物上,但對于3層以下的重要建筑物(如具文物性質(zhì)的建筑物)也應(yīng)布設(shè)沉降監(jiān)測點。沉降測點要布設(shè)在建(構(gòu))筑物主體結(jié)構(gòu)的角點、中點和承重墻上,(如圖1,2所示)。2·2 監(jiān)測技術(shù)要求及觀測方法
沉降觀測精度等級的確定,根據(jù)各監(jiān)測內(nèi)容的
定精度(式中ms———沉降量S的觀測中誤差;mΔs———沉降差Δs的觀測中誤差;QH———網(wǎng)中最弱觀測點高程H的權(quán)倒數(shù);Qh———網(wǎng)中待求觀測點間高差h的權(quán)倒數(shù)),參考國際測量工作者協(xié)會(FIG)于1981年第16屆大會提出的常用取值方法,即:為實用目的,觀測值中誤差不應(yīng)超過變形允許值的1/26~1/10。結(jié)合《地下鐵道、輕軌交通工程測量規(guī)范》,本次沉降監(jiān)測網(wǎng)采用國家二等水準(zhǔn)測量方法,即: 相鄰基準(zhǔn)點的高程中誤差≤0.5mm,觀側(cè)點的高程中誤差≤1.0mm。
各項觀測限差為:
1)附合或環(huán)線閉合差≤0.5(mm)(n為測站數(shù))
2)視線長度≤5m、前后視距差≤1.0m、前后視距累積差≤3.0m。
觀測順序和方法如下:
1)往測時,奇數(shù)站照準(zhǔn)標(biāo)尺為后前前后(BFFB),偶數(shù)站照準(zhǔn)標(biāo)尺為前后后前(FBBF)。
2)返測時,奇、偶數(shù)站照準(zhǔn)標(biāo)尺的順序分別與往測偶、奇數(shù)站相同。
3)分別利用兩工作基點起算,采用閉合水準(zhǔn)路線觀測監(jiān)測點。
蓋挖法施工車站監(jiān)測頻率表:(×標(biāo)段×站)沉降觀測的數(shù)據(jù)處理
3·1 TrimbleDiNi12的數(shù)據(jù)格式
TrimbleDiNi12使用兩種記錄數(shù)據(jù)模式,一種模式記錄測量原始數(shù)據(jù)(RM),另一種模式記錄計算數(shù)據(jù)(RMc)。同時,DiNi12有兩種數(shù)據(jù)格式(與記錄模式不是同一個概念),一種是RECE(M5),另一種是REC500,RECE(M5)和REC500格式都可用于記錄和傳輸數(shù)據(jù),但RECS00記錄的信息量少。RM模式下的數(shù)據(jù)僅記錄了測量讀數(shù)的標(biāo)準(zhǔn)差,這樣情況下不可以進(jìn)行線路平差,作業(yè)時應(yīng)避免這種情況,表1為M5格式說明表。
RECE(M5)數(shù)據(jù)格式:
RECE(M5)格式的數(shù)據(jù)行包含121個字符,總的數(shù)據(jù)以這個數(shù)據(jù)乘以地址行數(shù)而存在項目文件中。字符119為空格,接下來的字符120、121為回車符(CR)、換行符(LF)。空格字符在RECE(M5)格式中是重要的,不能被刪除。3·2 監(jiān)測成果與變化分析
可以統(tǒng)計出每次監(jiān)測點的沉隆量,MicrosoftExcel提供了豐富的統(tǒng)計函數(shù)功能,再結(jié)合自編的程序,可以輕松制作出沉降量周報報表(見表2)。
2)沉隆量曲線圖
圖表具有較好的視覺效果,可方便用戶查看數(shù)據(jù)的差異、圖案和預(yù)測趨勢。在沉降量曲線圖中,可以直接查看到最小沉降點和最大沉降點,當(dāng)沉降趨勢較明顯時,可引起用戶的注意。我們利用MicrosoftExcel的圖表功能自動生成沉降量曲線圖,在Excel中,圖表是和數(shù)據(jù)表相鏈接的。橫坐標(biāo)以觀測時間為單位,縱坐標(biāo)以沉降量為單位,坐標(biāo)刻度以2mm為主要刻度,這樣足以反映出大于2mm的沉降量(見圖3)。
3)變形預(yù)報和安全判斷
1)沉降量報表
北京地鐵四號線第三方監(jiān)測在主體結(jié)構(gòu)施工階段是一周一次,根據(jù)各次變形監(jiān)測點的高程數(shù)據(jù), 可以統(tǒng)計出每次監(jiān)測點的沉隆量,MicrosoftExcel提供了豐富的統(tǒng)計函數(shù)功能,再結(jié)合自編的程序,可以輕松制作出沉降量周報報表(見表2)。
在考慮施工進(jìn)度(主要是隧道開挖進(jìn)度)和監(jiān)測點沉降量統(tǒng)計分析的基礎(chǔ)上,采用數(shù)值分析中的線性內(nèi)插法來推算時域外的變形值。因為外推預(yù)報值時使用最近的兩次監(jiān)測值,對于連續(xù)下沉的監(jiān)測點有簡單實用的優(yōu)點。
yi+1=yi-1+(yi-yi-1)·(ti+1-ti-1)/(ti-ti-1)
式中:y—沉降量;t—時間。
沉降觀測數(shù)據(jù)為地鐵安全施工提供一個重要依據(jù),因而具有十分重要意義。監(jiān)測項目中建(構(gòu))筑物沉降、裂縫,地表沉降,直接用來評價地鐵施工對周邊環(huán)境的影響程度。從我們前期的監(jiān)測數(shù)據(jù)顯示來看,車站1#風(fēng)道采用暗挖法,設(shè)置在地鐵車站1#風(fēng)道附近的監(jiān)測點和地面上的監(jiān)測點整體沉降量較大,這與施工進(jìn)度相關(guān),同時也說明了我們的作業(yè)方法良好。根據(jù)設(shè)計單位要求,建筑物點的累積沉降限值為±20mm,地面點的累積沉降限值為±25mm,當(dāng)沉降量接近限值時,則及時向業(yè)主及相關(guān)部門匯報情況,并同施工單位共同分析原因,以便采取處理措施。每次監(jiān)測點沉降量大于2mm的,要在報告中加以說明并進(jìn)行回歸分析,對變形趨勢進(jìn)行預(yù)測預(yù)報。結(jié)束語
1)監(jiān)測儀器操作簡單,精度高,讀數(shù)客觀,能對同一測站兩次高差之差超限發(fā)出警告,測量數(shù)據(jù)全部存儲在PCMCIA卡,便于計算機(jī)處理。
2)變形預(yù)報采用線性內(nèi)插法的變換形式來外推預(yù)報值,在短期內(nèi)較回歸分析更具現(xiàn)實意義,從數(shù)學(xué)方法上來說,短期內(nèi)的一元線性回歸方程與線性內(nèi)插公式的變換形式基本等效。
3)沉降量曲線圖能較沉降量報表直觀地反映監(jiān)測點的變化情況,可以預(yù)測監(jiān)測點變化趨勢,以便及時將信息反饋至監(jiān)測管理單位。此外,每月要對施工地段巡察至少一次,確保沉降影響范圍內(nèi)的建筑物及地面沒有異常情況,沒有出現(xiàn)裂縫、裂紋。
參考文獻(xiàn)
[1]北京勘察技術(shù)公司.北京地鐵四號線第三方監(jiān)測實施大綱.2005.[2]地下鐵道、輕軌交通工程測量規(guī)范(GB50308-1999).中國計劃出版社.2000.[3]胡伍生,潘慶林,黃騰.土木工程測量手冊.人發(fā)交通出版社.2004,10.[4]天寶.DiNi12說明書.[5]周祖淵.電子數(shù)字式水準(zhǔn)儀的性能及測量原理.重慶交通學(xué)院學(xué)報.2005,2.[6]李剛,徐鵬,張偉娜.高精度電子水準(zhǔn)儀在煤倉沉降觀測中的應(yīng)用.工程地球物理學(xué)報.2004,12.
第三篇:隨機(jī)數(shù)據(jù)處理方法 答案 第四章
第四章大數(shù)定律與中心極限定理習(xí)題參考答案與提示
1.試?yán)们斜妊┓虿坏仁阶C明:能以0.97的概率斷言,將一枚均勻硬幣連續(xù)拋1000次,其出現(xiàn)正面H的次數(shù)在400至600次之間。
分析:將一枚均勻硬幣連續(xù)拋1000次可看成是1000重貝努利試驗,因此1000次試驗中出現(xiàn)正面H的次數(shù)服從二項分布。
解:設(shè)X表示1000次試驗中出現(xiàn)正面H的次數(shù),則X是一個隨機(jī)變量,且X~B(1000,1/2)。因此
EX?np?1000?1?500 2
11DX?np(1?p)?1000??(1?)?250 22
而所求的概率為
P{400?X?600}?P{400?500?X?600?500}
?P{?100?X?EX?100}
?P{X?EX?100}
?1?DX?0.975 2100
2.已知隨機(jī)變量X的概率分布為
X13
P0.20.30.5
試?yán)们斜妊┓虿坏仁焦烙嬍录母怕省?E(?1.}5
分析:要利用切比雪夫不等式,需先根據(jù)給出的隨機(jī)變量分布列求得相應(yīng)的期望和方差。
解:由題設(shè)知,EX?1?0.2?2?0.3?3?0.5?2.3,EX2?12?0.2?22?0.3?32?0.5?5.9。
從而DX?EX2?(EX)2?5.9?2.32?0.61。
由切比雪夫不等式得
P{X?EX?1.5}?1?DX?0.729。21.5
3.設(shè)X為非負(fù)隨機(jī)變量,試證;當(dāng)t?0時,P(X?t)?1?EX。t
t
??分析:P{X?t}?F(t)??f(x)dx,而EX??xf(x)dx,代入要證的不等????
式的兩側(cè)比較,會發(fā)現(xiàn)證明實質(zhì)上是對積分限的放大或縮小,以及變量間暗含的大小關(guān)系,很容易就聯(lián)系到對切比雪夫不等式的證明技巧。
證明:設(shè)隨機(jī)變量X的分布密度函數(shù)為f(x),則當(dāng)t?0時,P{X?t}??f(x)dx?1????t??tf(x)dx
?1????
tx1??f(x)dx?1??xf(x)dx ttt
1??1?1??xf(x)dx?1?EX。t??t
4.設(shè)X為一列獨立同分布的隨機(jī)變量,且k階原點矩存在,,X,?,X,?12n
1nkp記作EX??k。試證明:?Xi????k。ni?1k
分析:由題設(shè)條件X為一列獨立同分布的隨機(jī)變量,以及,X,?,X,?12n
1nk1n1E(?Xi)??EXik??n?k??k,可見所證結(jié)論與辛欽大數(shù)定律的結(jié)論非常ni?1ni?1n
類似,即知證明應(yīng)用獨立同分布的辛欽大數(shù)定律。
證明:由X1,X2,?,Xn為一列獨立同分布的隨機(jī)變量,以及y?xk是連續(xù)函數(shù)知,X1k,X2k,?,Xnk相互獨立。再由EXk??k,得
1nk1n1E(?Xi)??EXik??n?k??k,ni?1ni?1n
1nkp則由辛欽大數(shù)定律知:?Xi????k ni?1
5.在一家保險公司里10000個人參加保險,每人每年付12元保險費,在一年內(nèi)一個人死亡的概率為0.006,死亡者家屬可向保險公司領(lǐng)得1000元。問:
(1)保險公司虧本的概率多大?
(2)保險公司一年的利潤不少于40000元的概率多大?
分析:對于每個人,在一年內(nèi)要么死亡,要么不死亡,只有這兩種可能性,因此考慮10000個人在一年中是否死亡可看成10000重貝努利試驗,故死亡人數(shù)服從二項分布。因此應(yīng)用棣莫弗-拉普拉斯極限定理解決該問題。
解:設(shè)一年中死亡的人數(shù)為X,每人的死亡概率就為p?0.006,從而
X~B(10000,0.006),保險公司每年收入10000?12?120000元,需支付1000X元。
(1)設(shè)A:“保險公司虧本”,則有
P(A)?P{1000X?120000}?P{X?120}
????? =1?P{0?X?120}?1???????
???1??????????
?1???(7.7693)??(?7.7693)??2?2?(7.7693)
?2-2=0
可見保險公司虧本的概率近似為零。
(2)設(shè)B:“保險公司一年中獲利不少于40000元”,則
P(B)?P{120000?1000X?40000}?P{0?X?
80}
??????
????(2.59)??(?7.7693)??(2.59)?(1??(7.7693))
?0.9952
即一年中保險公司以近99.52%的概率獲利40000元以上。
6.100道單項選擇題,每題1分,考生每次從四個答案中選一個正確答案。若一考生全為亂猜,試用切比雪夫不等式和正態(tài)逼近兩種方法計算其成績15分至35分之間的概率約為多少?
解:設(shè)X表示考生成績(選對個數(shù)),則X服從二項分布B(100,1/4),由切比雪夫不等式
P{15?X?35}?P{X?25?10}?1?DX 100
由于 EX?25,DX?75/4,所以
P{15?X?35}?1?DX75/4?1??0.8125 100100
35?2515?25)??()4754正態(tài)逼近法 P{15?X?35}??(??(2.31)??(?2.31)
?2?(2.31)?1?0.9792
7.某廠有400臺同類機(jī)器,各臺機(jī)器發(fā)生故障的概率均為0.02,假設(shè)各臺機(jī)器工作是相互獨立的,試求機(jī)器發(fā)生故障的臺數(shù)不小于2的概率。解:設(shè)X為機(jī)器發(fā)生故障的臺數(shù),則由題意知X~B(400,0.02),問題化為求
。以下用三種方法來求解: PX{?2}
(1)利用二項分布
4001399 P{XP?2}?1?{X?2}?1?0.98?C?0.02?0.98?0.9972400
(2)用泊松分布作近似計算(此時?)?np?400?0.02?8
?8?8 P{X?2}?1?P{X?2}?1?e()1?8?1?9e?0.9970
(3)用正態(tài)分布作近似計算(利用定理4-5及4-4的推論1)由于X~B(400,0.02),則由定理4-4的推論1知X~N(n,n)?N(8,400?0.98?0.)02?N(8,2.8)近似??
于是
0?8X?82?8 P{X?2}?10?P{?X?2}?2.82.82.8?6?8。?1?[)?)]?0.98592.82.8
8.假設(shè)X是來自總體X的簡單隨機(jī)抽樣,已知EXk??k,X,?,X12n
1n2(k?1,2,3,4),證明當(dāng)n充分大時,隨機(jī)變量Zn??Xi近似服從正態(tài)分ni?1
布,并指出其分布參數(shù)。
2222證明:由假設(shè)條件可知,X,X,?,X12n為來自總體X的簡單隨機(jī)抽樣,22222則X同分布,即E,X(i?1,2,?,)n,X,?,Xi?212n相互獨立且與X
222222,則由獨立同分布的中心極限定理?有 DXE(X)?(EX)??x?Ri?ii42
2Xn??i?2
n??n??x?lini?14?22?x}????12edt 1t221n2?2近X??X?n?i?2近似似ni?1i?1即,所以當(dāng)n充分大(,)01,(,01)~N~N224??2(??4?2)/n2i
?4??21n22時,Zn??Xi近似服從參數(shù)為(?2)的正態(tài)分布。ni?1n
第四篇:大學(xué)物理實驗數(shù)據(jù)處理方法總結(jié)
有效數(shù)字
1、有效數(shù)字不同的數(shù)相加減時,以參加運算各量中有效數(shù)字最末一位位數(shù)最高的為準(zhǔn),最后結(jié)果與它對其,余下的尾數(shù)按舍入規(guī)則處理。
2、乘除法以參與運算的數(shù)值中有效位數(shù)最少的那個數(shù)為準(zhǔn),但當(dāng)結(jié)果的第1位數(shù)較小,比如1、2、3時可以多保留一位(較小:結(jié)果的第一位數(shù)小于 有效數(shù)字最少的結(jié)果第一位數(shù))!例如:n=tg56° θ=56° dθ=1°
dn?dtg?d?d??d?cos2???1???0.05cos2?cos256?180
帶入??56?,???1?
?n??n?tg56??1.48(8為保留)
3、可以數(shù)字只出現(xiàn)在最末一位:對函數(shù)運算以不損失有效數(shù)字為準(zhǔn)。例如:20*lg63.4 可疑最小位變化0.1 Y=20lgx dy?20dlnx20dx200.1dx???0.01
ln10dxln10xln1063.?20lg63.4?36.04
4、原始數(shù)據(jù)記錄、測量結(jié)果最后表示,嚴(yán)格按有效數(shù)字規(guī)定處理。(中間過程、結(jié)果多算幾次)5、4舍5入6湊偶
6、不估計不確定度時,有效數(shù)字按相應(yīng)運算法則取位;計算不確定度時以不確定度的處理結(jié)果為準(zhǔn)。
真值和誤差
1、誤差=測量值-真值
ΔN=N-A
2、誤差既有大小、方向與政府。
3、通常真值和誤差都是未知的。
4、相對約定真值,誤差可以求出。
5、用相對誤差比較測量結(jié)果的準(zhǔn)確度。
6、ΔN/A≈ΔN/N
7、系統(tǒng)誤差、隨機(jī)誤差、粗大誤差
8、隨機(jī)誤差:統(tǒng)計意義下的分布規(guī)律。粗大誤差:測量錯誤
9、系統(tǒng)誤差和隨機(jī)誤差在一定條件下相互轉(zhuǎn)化。
不確定度
1、P(x)是概率密度函數(shù)
x測量結(jié)果落在xp?dx之間的概率是P(xP)dx當(dāng)x取遍所有可能的概率值為1.2、正態(tài)分布且消除了系統(tǒng)誤差,概率最大的位置是真值A(chǔ)
3、曲線“胖”精密度低“瘦”精密度高。
4、標(biāo)準(zhǔn)誤差:無限次測量?(x)??(X?A)P(X)dx 有限次測量且真值不知道標(biāo)準(zhǔn)偏
-??2差近似給出S(X)??(Xi?X)2K?1
5、正態(tài)分布的測量結(jié)果落入X左右?范圍內(nèi)的概率是0.683
6、真值落入測定值Xi左右?區(qū)間內(nèi)的概率為0.683
7、不確定度是測量結(jié)果帶有的一個參數(shù),用以表征合理賦予被測量值的分散性。
8、A類:用統(tǒng)計方法獲得不確定度 B類:非統(tǒng)計方法。
例如:單擺測量為A類
B類:準(zhǔn)確度級別 1.0級電流報表 ΔI=1.0%X15mA=0.15mA為不確定度極限
9、不確定度分量的合成1、重復(fù)性誤差S1由平均值的標(biāo)準(zhǔn)差算出
2、儀器誤差由儀器誤差線除以根號3算出
3、方法誤差由實際公式通過理論導(dǎo)出。
不確定度的方差合成
1、方差u?u?????u?????不確定度(標(biāo)準(zhǔn)差形式)
2、uj-標(biāo)準(zhǔn)不確定度分量 標(biāo)準(zhǔn)差?或s。由儀器最大誤差限給出的誤差稱為展伸不確定度。Uj=kuj.uj為標(biāo)準(zhǔn)不確定度,K稱謂包含因子或置信印子。正太分布K=
3、均勻分布K=根號3.3、(樣本)標(biāo)準(zhǔn)偏差2212j?ujn2j uj是參與第j個不確定度的分量開根號后即為合成S(X)??(Xi?X)2n?1(單次測量的標(biāo)準(zhǔn)偏差)。平均值的標(biāo)準(zhǔn)偏差S(X)?S(X)。n4、多次測量的算術(shù)平均值X?
5、間接測量不確定度的傳播
?Xiin平均值X的標(biāo)準(zhǔn)偏差S(X)??(Xii?X)2。
n(n?1)例如:伏安法測電阻Rx。Rx?V?Rg IV~V?u(V)??I~I?u(I)?u(Rx)Rg~Rg?u(Rg)?? 由于u(I)u(V)u(Rg),??1 ,把由此造成的不確定度看成微分看成IVRgV1?RX?R?RdI?XdV?XdRg dRX??2dI?dV?dRg
II?I?V?RgdRX?22222 u(RX)?u1?u2?u3 u2(RX)?u12?u2?u3u1??RX?RXV?RX1u(Rg)?u(Rg)u(I)?2u(I)u2?u(v)?u(v)u3??Rg?II?vI222推廣到多個分量u(Y)?uX1?uX2????uXn
ux1(Y)??Y?Yu(X1)??uxn(Y)?u(Xn)?X1?Xn6、乘除或冪指數(shù)形式采用相對不確定度往往要簡單
乘除 左右同時取對數(shù)后再求微分 例如 ??bb' ln??11d?1db1db?lnb?lnb? 微分 ?? 22?2b2b?222?u(?)??1u(b)??1u(b?)?把微分符號改換成不確定度的合成法則????2b???2b?? ???????U(α)即可求出
7、不確定度提供了在概率含義下的誤差可能取值范圍的一種估計
8、不確定度原則上只保留一位非零數(shù)字,被測量的取位與不確定度對齊,例如u(L)=0.0851cm 第一位不為零的數(shù)為8 而51大于50 所以最后是0.09cm。對中間過程多保留幾位。9、10、方差合成的成立條件 :各分量是小量并且相互獨立。物理實驗中的數(shù)據(jù)處理方法
1、列表法 作圖法 線性回歸法 逐差法
2、列表法:方法簡便 對應(yīng)直觀 常用于原始數(shù)據(jù)的記錄 或其它數(shù)據(jù)處理的基礎(chǔ)
①表格的設(shè)計明確合理 ②數(shù)據(jù)記錄的規(guī)范和完整 ③注意環(huán)境參數(shù) 列出引用的東西 注意原始數(shù)據(jù)的記錄。
3、作圖法:把實驗數(shù)據(jù)依據(jù)自變量和因變量的關(guān)系做成曲線以便反映兩者的函數(shù)關(guān)系找出經(jīng)驗
①列表法的基本要求給出原始的數(shù)據(jù)表格 ②坐標(biāo)的選取和分度 :最小分度與儀器的最小分度相對應(yīng)③實驗點用便于識別位置的符號表示,曲線擬合要平滑。不適用于校準(zhǔn)曲線例如校準(zhǔn)電流表
4、求公式: 直線處理 :經(jīng)驗公式,直線兩頭的坐標(biāo) 求出斜率以及截距 b?y2?y1
x2?x1??x2y1?x1y2 取點從擬合后的直線上進(jìn)行 不取原來的實驗點,應(yīng)在實驗范圍內(nèi),盡量x2?x1遠(yuǎn)離。
5、一元線性回歸方法(最小二乘法)
y=a+bx 實驗測得數(shù)據(jù)并不嚴(yán)格符合直線關(guān)系 選出一條直線使得實驗數(shù)據(jù)到直線Δy的平方和最小
??yi?min
i2b?xy?xyX?X22 ??y?bx
①變量關(guān)系的選擇 等精度測量u(yi)相等 X-無誤差 ②線性關(guān)系的檢驗: 線性模型的合理性 數(shù)據(jù)的相關(guān)性 檢驗方法:(1)物理規(guī)律(2)計算相關(guān)系數(shù)r r?xy?xy(x?x)(y?y)2222 ?1?r??1 r接近于零 不相關(guān)
③曲線改直線
6、逐差法
第五篇:常用大數(shù)據(jù)量、海量數(shù)據(jù)處理方法 (算法)總結(jié)
? 大數(shù)據(jù)量的問題是很多面試筆試中經(jīng)常出現(xiàn)的問題,比如baidu google 騰訊 這樣的一些涉及到海量數(shù)據(jù)的公司經(jīng)常會問到。
下面的方法是我對海量數(shù)據(jù)的處理方法進(jìn)行了一個一般性的總結(jié),當(dāng)然這些方法可能并不能完全覆蓋所有的問題,但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目,方法不一定最優(yōu),如果你有更好的處理方法,歡迎與我討論。
1.Bloom filter
適用范圍:可以用來實現(xiàn)數(shù)據(jù)字典,進(jìn)行數(shù)據(jù)的判重,或者集合求交集
基本原理及要點:
對于原理來說很簡單,位數(shù)組+k個獨立hash函數(shù)。將hash函數(shù)對應(yīng)的值的位數(shù)組置1,查找時如果發(fā)現(xiàn)所有hash函數(shù)對應(yīng)位都是1說明存在,很明顯這個過程并不保證查找的結(jié)果是100%正確的。同時也不支持刪除一個已經(jīng)插入的關(guān)鍵字,因為該關(guān)鍵字對應(yīng)的位會牽動到其他的關(guān)鍵字。所以一個簡單的改進(jìn)就是 counting Bloom filter,用一個counter數(shù)組代替位數(shù)組,就可以支持刪除了。
還有一個比較重要的問題,如何根據(jù)輸入元素個數(shù)n,確定位數(shù)組m的大小及hash函數(shù)個數(shù)。當(dāng)hash函數(shù)個數(shù)k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下,m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應(yīng)該更大些,因為還要保證bit數(shù)組里至少一半為0,則m應(yīng)該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數(shù))。
舉個例子我們假設(shè)錯誤率為0.01,則此時m應(yīng)大概是n的13倍。這樣k大概是8個。
注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數(shù)為單位(準(zhǔn)確的說是不同元素的個數(shù))。通常單個元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。
擴(kuò)展:
Bloom filter將集合中的元素映射到位數(shù)組中,用k(k為哈希函數(shù)個數(shù))個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數(shù)組中的每一位擴(kuò)展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現(xiàn)次數(shù)關(guān)聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。
問題實例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?
根據(jù)這個問題我們來計算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡單了。
2.Hashing
適用范圍:快速查找,刪除的基本數(shù)據(jù)結(jié)構(gòu),通常需要總數(shù)據(jù)量可以放入內(nèi)存
基本原理及要點:
hash函數(shù)選擇,針對字符串,整數(shù),排列,具體相應(yīng)的hash方法。
碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。
擴(kuò)展:
d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數(shù),h1和h2。在存儲一個新的key時,同時用兩個哈希函數(shù)進(jìn)行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經(jīng)存儲的(有碰撞的)key比較多,然后將新key存儲在負(fù)載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key 存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進(jìn)行兩次hash,同時查找兩個位置。
問題實例:
1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。
IP的數(shù)目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內(nèi)存,然后進(jìn)行統(tǒng)計。
3.bit-map
適用范圍:可進(jìn)行數(shù)據(jù)的快速查找,判重,刪除,一般來說數(shù)據(jù)范圍是int的10倍以下
基本原理及要點:使用bit數(shù)組來表示某些元素是否存在,比如8位電話號碼
擴(kuò)展:bloom filter可以看做是對bit-map的擴(kuò)展
問題實例:
1)已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計不同號碼的個數(shù)。
8位最多99 999 999,大概需要99m個bit,大概10幾m字節(jié)的內(nèi)存即可。
2)2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。
將bit-map擴(kuò)展一下,用2bit表示一個數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上。或者我們不用2bit來進(jìn)行表示,我們用兩個bit-map即可模擬實現(xiàn)這個2bit-map。
4.堆
適用范圍:海量數(shù)據(jù)前n大,并且n比較小,堆可以放入內(nèi)存
基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當(dāng)前元素與最大堆里的最大元素,如果它小于最大元素,則應(yīng)該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數(shù)據(jù)量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。
擴(kuò)展:雙堆,一個最大堆與一個最小堆結(jié)合,可以用來維護(hù)中位數(shù)。
問題實例:
1)100w個數(shù)中找最大的前100個數(shù)。
用一個100個元素大小的最小堆即可。
5.雙層桶劃分
適用范圍:第k大,中位數(shù),不重復(fù)或重復(fù)的數(shù)字
基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內(nèi)進(jìn)行。可以通過多次縮小,雙層只是一個例子。
擴(kuò)展:
問題實例:
1).2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。
有點像鴿巢原理,整數(shù)個數(shù)為2^32,也就是,我們可以將這2^32個數(shù),劃分為2^8個區(qū)域(比如用單個文件代表一個區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。
2).5億個int找它們的中位數(shù)。
這個例子比上面那個更明顯。首先我們將int劃分為2^16個區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計落到各個區(qū)域里的數(shù)的個數(shù),之后我們根據(jù)統(tǒng)計結(jié)果就可以判斷中位數(shù)落到那個區(qū)域,同時知道這個區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計落在這個區(qū)域中的那些數(shù)就可以了。
實際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計了。
6.數(shù)據(jù)庫索引
適用范圍:大數(shù)據(jù)量的增刪改查
基本原理及要點:利用數(shù)據(jù)的設(shè)計實現(xiàn)方法,對海量數(shù)據(jù)的增刪改查進(jìn)行處理。
擴(kuò)展:
問題實例:
7.倒排索引(Inverted index)
適用范圍:搜索引擎,關(guān)鍵字查詢
基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文為例,下面是要被索引的文本:
T0 = “it is what it is” T1 = “what is it”
T2 = “it is a banana”
我們就能得到下面的反向文件索引:
“a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}
檢索的條件“what”, “is” 和 “it” 將對應(yīng)集合的交集。
正向索引開發(fā)出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據(jù)了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關(guān)系。
擴(kuò)展:
問題實例:文檔檢索系統(tǒng),查詢那些文件包含了某單詞,比如常見的學(xué)術(shù)論文的關(guān)鍵字搜索。
8.外排序
適用范圍:大數(shù)據(jù)的排序,去重
基本原理及要點:外排序的歸并方法,置換選擇 敗者樹原理,最優(yōu)歸并樹
擴(kuò)展:
問題實例:
1).有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
這個數(shù)據(jù)具有很明顯的特點,詞的大小為16個字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。
9.trie樹
適用范圍:數(shù)據(jù)量大,重復(fù)多,但是數(shù)據(jù)種類小可以放入內(nèi)存
基本原理及要點:實現(xiàn)方式,節(jié)點孩子的表示方式
擴(kuò)展:壓縮實現(xiàn)。
問題實例:
1).有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復(fù)。要你按照query的頻度排序。
2).1000萬字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字符串。請問怎么設(shè)計和實現(xiàn)?
3).尋找熱門查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個,每個不超過255字節(jié)。
10.分布式處理 mapreduce
適用范圍:數(shù)據(jù)量大,但是數(shù)據(jù)種類小可以放入內(nèi)存
基本原理及要點:將數(shù)據(jù)交給不同的機(jī)器去處理,數(shù)據(jù)劃分,結(jié)果歸約。
擴(kuò)展:
問題實例:
1).The canonical example application of MapReduce is a process to count the appearances of
each different word in a set of documents: void map(String name, String document):
// name: document name
// document: document contents
for each word w in document:
EmitIntermediate(w, 1);
void reduce(String word, Iterator partialCounts):
// key: a word
// values: a list of aggregated partial counts
int result = 0;
for each v in partialCounts:
result += ParseInt(v);
Emit(result);
Here, each document is split in words, and each word is counted initially with a “1” value by
the Map function, using the word as the result key.The framework puts together all the pairs
with the same key and feeds them to the same call to Reduce, thus this function just needs to
sum all of its input values to find the total appearances of that word.2).海量數(shù)據(jù)分布在100臺電腦中,想個辦法高效統(tǒng)計出這批數(shù)據(jù)的TOP10。
3).一共有N個機(jī)器,每個機(jī)器上有N個數(shù)。每個機(jī)器最多存O(N)個數(shù)并對它們操作。如何找到N^2個數(shù)的中數(shù)(median)?
經(jīng)典問題分析
上千萬or億數(shù)據(jù)(有重復(fù)),統(tǒng)計其中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),分兩種情況:可一次讀入內(nèi)存,不可一次讀入。
可用思路:trie樹+堆,數(shù)據(jù)庫索引,劃分子集分別統(tǒng)計,hash,分布式計算,近似統(tǒng)計,外排序
所謂的是否能一次讀入內(nèi)存,實際上應(yīng)該指去除重復(fù)后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存,我們可以為數(shù)據(jù)建立字典,比如通過 map,hashmap,trie,然后直接進(jìn)行統(tǒng)計即可。當(dāng)然在更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時候,我們可以利用一個堆來維護(hù)出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),當(dāng)然這樣導(dǎo)致維護(hù)次數(shù)增加,不如完全統(tǒng)計后在求前N大效率高。
如果數(shù)據(jù)無法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進(jìn)以適應(yīng)這種情形,可以做的改變就是將字典存放到硬盤上,而不是內(nèi)存,這可以參考數(shù)據(jù)庫的存儲方法。
當(dāng)然還有更好的方法,就是可以采用分布式計算,基本上就是map-reduce過程,首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù)hash(md5)后的值,將數(shù)據(jù)按照范圍劃分到不同的機(jī)子,最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存,這樣不同的機(jī)子負(fù)責(zé)處理各種的數(shù)值范圍,實際上就是map。得到結(jié)果后,各個機(jī)子只需拿出各自的出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),然后匯總,選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),這實際上就是reduce過程。
實際上可能想直接將數(shù)據(jù)均分到不同的機(jī)子上進(jìn)行處理,這樣是無法得到正確的解的。因為一個數(shù)據(jù)可能被均分到不同的機(jī)子上,而另一個則可能完全聚集到一個機(jī)子上,同時還可能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個,我們將1000萬的數(shù)據(jù)分布到10臺機(jī)器上,找到每臺出現(xiàn)次數(shù)最多的前 100個,歸并之后這樣不能保證找到真正的第100個,因為比如出現(xiàn)次數(shù)最多的第100個可能有1萬個,但是它被分到了10臺機(jī)子,這樣在每臺上只有1千個,假設(shè)這些機(jī)子排名在1000個之前的那些都是單獨分布在一臺機(jī)子上的,比如有1001個,這樣本來具有1萬個的這個就會被淘汰,即使我們讓每臺機(jī)子選出出現(xiàn)次數(shù)最多的1000個再歸并,仍然會出錯,因為可能存在大量個數(shù)為1001個的發(fā)生聚集。因此不能將數(shù)據(jù)隨便均分到不同機(jī)子上,而是要根據(jù)hash 后的值將它們映射到不同的機(jī)子上處理,讓不同的機(jī)器處理一個數(shù)值范圍。
而外排序的方法會消耗大量的IO,效率不會很高。而上面的分布式方法,也可以用于單機(jī)版本,也就是將總的數(shù)據(jù)根據(jù)值的范圍,劃分成多個不同的子文件,然后逐個處理。處理完畢之后再對這些單詞的及其出現(xiàn)頻率進(jìn)行一個歸并。實際上就可以利用一個外排序的歸并過程。
另外還可以考慮近似計算,也就是我們可以通過結(jié)合自然語言屬性,只將那些真正實際中出現(xiàn)最多的那些詞作為一個字典,使得這個規(guī)模可以放入內(nèi)存。