久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

隨機數據處理方法 答案 第四章

時間:2019-05-13 18:14:30下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《隨機數據處理方法 答案 第四章》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《隨機數據處理方法 答案 第四章》。

第一篇:隨機數據處理方法 答案 第四章

第四章大數定律與中心極限定理習題參考答案與提示

1.試利用切比雪夫不等式證明:能以0.97的概率斷言,將一枚均勻硬幣連續拋1000次,其出現正面H的次數在400至600次之間。

分析:將一枚均勻硬幣連續拋1000次可看成是1000重貝努利試驗,因此1000次試驗中出現正面H的次數服從二項分布。

解:設X表示1000次試驗中出現正面H的次數,則X是一個隨機變量,且X~B(1000,1/2)。因此

EX?np?1000?1?500 2

11DX?np(1?p)?1000??(1?)?250 22

而所求的概率為

P{400?X?600}?P{400?500?X?600?500}

?P{?100?X?EX?100}

?P{X?EX?100}

?1?DX?0.975 2100

2.已知隨機變量X的概率分布為

X13

P0.20.30.5

試利用切比雪夫不等式估計事件的概率。X?E(?1.}5

分析:要利用切比雪夫不等式,需先根據給出的隨機變量分布列求得相應的期望和方差。

解:由題設知,EX?1?0.2?2?0.3?3?0.5?2.3,EX2?12?0.2?22?0.3?32?0.5?5.9。

從而DX?EX2?(EX)2?5.9?2.32?0.61。

由切比雪夫不等式得

P{X?EX?1.5}?1?DX?0.729。21.5

3.設X為非負隨機變量,試證;當t?0時,P(X?t)?1?EX。t

t

??分析:P{X?t}?F(t)??f(x)dx,而EX??xf(x)dx,代入要證的不等????

式的兩側比較,會發現證明實質上是對積分限的放大或縮小,以及變量間暗含的大小關系,很容易就聯系到對切比雪夫不等式的證明技巧。

證明:設隨機變量X的分布密度函數為f(x),則當t?0時,P{X?t}??f(x)dx?1????t??tf(x)dx

?1????

tx1??f(x)dx?1??xf(x)dx ttt

1??1?1??xf(x)dx?1?EX。t??t

4.設X為一列獨立同分布的隨機變量,且k階原點矩存在,,X,?,X,?12n

1nkp記作EX??k。試證明:?Xi????k。ni?1k

分析:由題設條件X為一列獨立同分布的隨機變量,以及,X,?,X,?12n

1nk1n1E(?Xi)??EXik??n?k??k,可見所證結論與辛欽大數定律的結論非常ni?1ni?1n

類似,即知證明應用獨立同分布的辛欽大數定律。

證明:由X1,X2,?,Xn為一列獨立同分布的隨機變量,以及y?xk是連續函數知,X1k,X2k,?,Xnk相互獨立。再由EXk??k,得

1nk1n1E(?Xi)??EXik??n?k??k,ni?1ni?1n

1nkp則由辛欽大數定律知:?Xi????k ni?1

5.在一家保險公司里10000個人參加保險,每人每年付12元保險費,在一年內一個人死亡的概率為0.006,死亡者家屬可向保險公司領得1000元。問:

(1)保險公司虧本的概率多大?

(2)保險公司一年的利潤不少于40000元的概率多大?

分析:對于每個人,在一年內要么死亡,要么不死亡,只有這兩種可能性,因此考慮10000個人在一年中是否死亡可看成10000重貝努利試驗,故死亡人數服從二項分布。因此應用棣莫弗-拉普拉斯極限定理解決該問題。

解:設一年中死亡的人數為X,每人的死亡概率就為p?0.006,從而

X~B(10000,0.006),保險公司每年收入10000?12?120000元,需支付1000X元。

(1)設A:“保險公司虧本”,則有

P(A)?P{1000X?120000}?P{X?120}

????? =1?P{0?X?120}?1???????

???1??????????

?1???(7.7693)??(?7.7693)??2?2?(7.7693)

?2-2=0

可見保險公司虧本的概率近似為零。

(2)設B:“保險公司一年中獲利不少于40000元”,則

P(B)?P{120000?1000X?40000}?P{0?X?

80}

??????

????(2.59)??(?7.7693)??(2.59)?(1??(7.7693))

?0.9952

即一年中保險公司以近99.52%的概率獲利40000元以上。

6.100道單項選擇題,每題1分,考生每次從四個答案中選一個正確答案。若一考生全為亂猜,試用切比雪夫不等式和正態逼近兩種方法計算其成績15分至35分之間的概率約為多少?

解:設X表示考生成績(選對個數),則X服從二項分布B(100,1/4),由切比雪夫不等式

P{15?X?35}?P{X?25?10}?1?DX 100

由于 EX?25,DX?75/4,所以

P{15?X?35}?1?DX75/4?1??0.8125 100100

35?2515?25)??()4754正態逼近法 P{15?X?35}??(??(2.31)??(?2.31)

?2?(2.31)?1?0.9792

7.某廠有400臺同類機器,各臺機器發生故障的概率均為0.02,假設各臺機器工作是相互獨立的,試求機器發生故障的臺數不小于2的概率。解:設X為機器發生故障的臺數,則由題意知X~B(400,0.02),問題化為求

。以下用三種方法來求解: PX{?2}

(1)利用二項分布

4001399 P{XP?2}?1?{X?2}?1?0.98?C?0.02?0.98?0.9972400

(2)用泊松分布作近似計算(此時?)?np?400?0.02?8

?8?8 P{X?2}?1?P{X?2}?1?e()1?8?1?9e?0.9970

(3)用正態分布作近似計算(利用定理4-5及4-4的推論1)由于X~B(400,0.02),則由定理4-4的推論1知X~N(n,n)?N(8,400?0.98?0.)02?N(8,2.8)近似??

于是

0?8X?82?8 P{X?2}?10?P{?X?2}?2.82.82.8?6?8。?1?[)?)]?0.98592.82.8

8.假設X是來自總體X的簡單隨機抽樣,已知EXk??k,X,?,X12n

1n2(k?1,2,3,4),證明當n充分大時,隨機變量Zn??Xi近似服從正態分ni?1

布,并指出其分布參數。

2222證明:由假設條件可知,X,X,?,X12n為來自總體X的簡單隨機抽樣,22222則X同分布,即E,X(i?1,2,?,)n,X,?,Xi?212n相互獨立且與X

222222,則由獨立同分布的中心極限定理?有 DXE(X)?(EX)??x?Ri?ii42

2Xn??i?2

n??n??x?lini?14?22?x}????12edt 1t221n2?2近X??X?n?i?2近似似ni?1i?1即,所以當n充分大(,)01,(,01)~N~N224??2(??4?2)/n2i

?4??21n22時,Zn??Xi近似服從參數為(?2)的正態分布。ni?1n

第二篇:調研數據處理方法:

調研數據處理辦法:調研數據顯示新一季MINISO名創優品在華知名度高達63%

當前國內實體零售業市場普遍收縮的大環境下,MINISO名創優品的異軍突起,為廣大零售業界同行所震撼。為剖析MINISO名創優品品牌逆勢而上的品牌戰略,探究其贏取市場青睞的原因,本所組織成立研究生項目調研小組開展了獨立的針對MINISO名創優品品牌現狀調研項目,現撰寫形成《MINISO名創優品品牌現狀調研報告2.0》。

半年來,國內零售業市場驚現了休閑時尚百貨品牌MINISO名創優品強勢來襲的景象,其以驚人的開業速度進軍全國各大重要商圈,特別是改革開放前沿陣地的廣東,僅上下九商圈就開設了5家MINISO名創優品店鋪,深受廣大消費者熱捧,成績斐然。在當前國內實體零售業市場普遍收縮的大環境下,MINISO名創優品的異軍突起,為廣大零售業界同行所震撼。為剖析MINISO名創優品品牌逆勢而上的品牌戰略,本所組織成立研究生項目調研小組開展了獨立的針對MINISO名創優品品牌現狀調研項目。本項目獲得了名創優品(中國)有限公司的支持,向項目組提供了很多有關其品牌、新媒體渠道、深度訪問協助等間接資料和幫助。

第一季度調研時間:2014年3月1日10時始至31日16時止;調研對象:部分城市消費者;調研主要方式:網絡問卷自填定量調研;調研輔助方式:購物現場消費者深度訪問的定性調研;調研問卷設計維度:從消費者對品牌的知曉度、首次進店行為興奮點、首次賣場感知、品牌接受狀況、購買心動理由、品牌分享意愿等6個維度設計問卷。據統計,第一季度品牌調研活動共吸引了44247人查收電子調研問卷,回收問卷15034份,有效問卷14712份,最終形成《MINISO名創優品品牌現狀調研報告1.0》。

《MINISO名創優品品牌現狀調研報告1.0》主要內容回顧如下:

1)62%的消費者表示沒聽說過MINISO名創優品,僅38%的消費者表示聽說過MINISO名

創優品,可見當前的MINISO名創優品品牌知曉度不高,需加快全國重要商圈布局開店步伐,同時需配合高密度的廣告策略。

2)51%的消費者醉心于MINISO名創優品高端大氣的店鋪形象,MINISO名創優品高端大

氣的SI是針對商圈經過人群的高效殺傷性武器。

3)50%的消費者認同MINISO名創優品品牌理念,認同MINISO名創優品“真正物美價廉”的品牌主張,消費者品牌體驗良好。

4)72%的消費者明確表示會再度光臨消費,且會因價格吸引愿意購買計劃外商品。

5)60%的消費者認為使其做出購買決定的最心動理由是其商品超高的性價比。

6)82%的消費者愿意將MINISO名創優品品牌動態信息分享給身邊好友。

第二季度調研時間:2014年5月21日12時始至6月20日12時止;調研對象:部分城市消費者;調研主要方式:網絡問卷自填定量調研;調研輔助方式:購物現場消費者深度訪問的定性調研;調研問卷設計維度:從品牌知曉度、品牌令你最心動的原因、購買的首要考慮因素、偏向購買的品類、關注的媒介渠道、品牌分享意愿等6個維度設計問卷。據統計,該調研活動共吸引了88250人查收電子調研問卷,回收問卷56139份,有效問卷55578份,最終形成《MINISO名創優品品牌現狀調研報告2.0》。

《MINISO名創優品品牌現狀調研報告2.0》調研基本結果簡述:

1)MINISO名創優品品牌知名度同比第一季度調研結果提升25%,高達63%。

2)MINISO名創優品主張的“真正物美價廉”品牌理念的認同度同比第一季度調研結果提

升了14%,高達64%。

3)MINISO名創優品消費者購買的首要考慮因素有51%集中在品牌主張的“真正物美價廉”的先發優勢區間,即超高性價比,同時25%消費者折服在國際著名休閑時尚百貨品牌的影響力下。

4)MINISO名創優品品牌代表的區隔品類是“休閑時尚百貨”,62%的消費者用購買行動

認同和支持著品牌引入初期的品類區隔,有利于品牌差異化識別,其中37%的消費者會首選生活百貨,25%的消費者會首選創意家居。

5)92%的消費者明確表示會選擇通過MINISO名創優品微信、微博等自媒體平臺收聽其品

牌動態和商品信息,夯實了MINISO名創優品自媒體低成本傳播的基礎,確保其可持續提供“真正物美價廉”的商品。

6)97%的消費者會支持MINISO名創優品媒介策略,并愿意將其良好的消費體驗和海量物

美價廉信息分享推廣,支持MINISO名創優品低成本品牌推廣策略。

第三篇:北京地鐵沉降監測方法及數據處理

北京地鐵沉降監測方法及數據處理

摘要:北京是軌道交通工程在建項目最多的城市,沉降監測對地鐵工程的安全施工有著重要意義,同時監測數據能夠直接用來評價地鐵施工對地表環境的影響。本文重點論述了北京地鐵沉降監測的方法與技術要求,介紹了所用儀器數據文件的格式,詳述了數據處理和統計分析。最后,文章給出了變形預報分析的數學方法,并說明了其現實意義。

關鍵詞:沉降監測;數字水準儀;數據處理引言

北京是一個國際化的大都市,人口與車輛的增多給北京城帶來了很嚴重的交通問題。隨著2008年奧運會的日趨臨近,解決這個問題就顯得越來越緊迫。軌道交通是解決日益惡化的城市交通問題的一個主要手段。然而,在人口密集、建筑設施密布的城市中進行軌道工程施工,由于巖土開挖不可避免地產生對巖土體的擾動并引起洞室周圍地表發生位移和變形,當位移和變形超過一定的限度時,勢必危及周圍地面建筑設施、道路葙地下管線的安全。因此,研究城市軌道工程開挖過程中地表沉降的有效控制問題,對于地表環境保護及軌道工程的安全施工都具有十分重要的意義。2 沉降基準點和沉降監測點的布設與觀測

從2005年3月開始,我們開始對北京地鐵四號線某標段(車站)的沉降監測工作,預計該標段的土建施工工作和監測工作將于2006年底結束。監測儀器使用TrimbleDiNi12數字水準儀,監測內容包括建筑物沉降監測和地表沉降監測。沉降監測控制網采用地鐵四號線的高程控制網。水準基點與工作基點的聯測采用一等水準觀測,起初開始觀測時,一個月復測一次,三個月以后每三月觀測一次。遇跨雨季等特殊情況增加觀測次數,以判定工作基點的穩定性。工作基點均位于沉降影響范圍外的已穩定的永久性建筑物上。2·1 監測點布設主要要點

1)監測點布設的范圍為地鐵結構外沿30m內,但在車站主體結構施工地段,地鐵結構外沿50m范圍內的重點建(構)筑物也應監測。

2)地表沉降監測應盡量和施工單位監測同點量測,同時要注意和施工單位量測的時間也應一致(同天量測),以進行監測數據的比對和校核。

3)由于此地鐵屬于蓋挖車站,原則上沿線路走向上每40m布設一個地表沉降測點,布設3排;車站中線一排,區間線路延長線各一排。

4)建筑物沉降監測點一般布設在3層以上(含3層)的永久建筑物上,但對于3層以下的重要建筑物(如具文物性質的建筑物)也應布設沉降監測點。沉降測點要布設在建(構)筑物主體結構的角點、中點和承重墻上,(如圖1,2所示)。2·2 監測技術要求及觀測方法

沉降觀測精度等級的確定,根據各監測內容的

定精度(式中ms———沉降量S的觀測中誤差;mΔs———沉降差Δs的觀測中誤差;QH———網中最弱觀測點高程H的權倒數;Qh———網中待求觀測點間高差h的權倒數),參考國際測量工作者協會(FIG)于1981年第16屆大會提出的常用取值方法,即:為實用目的,觀測值中誤差不應超過變形允許值的1/26~1/10。結合《地下鐵道、輕軌交通工程測量規范》,本次沉降監測網采用國家二等水準測量方法,即: 相鄰基準點的高程中誤差≤0.5mm,觀側點的高程中誤差≤1.0mm。

各項觀測限差為:

1)附合或環線閉合差≤0.5(mm)(n為測站數)

2)視線長度≤5m、前后視距差≤1.0m、前后視距累積差≤3.0m。

觀測順序和方法如下:

1)往測時,奇數站照準標尺為后前前后(BFFB),偶數站照準標尺為前后后前(FBBF)。

2)返測時,奇、偶數站照準標尺的順序分別與往測偶、奇數站相同。

3)分別利用兩工作基點起算,采用閉合水準路線觀測監測點。

蓋挖法施工車站監測頻率表:(×標段×站)沉降觀測的數據處理

3·1 TrimbleDiNi12的數據格式

TrimbleDiNi12使用兩種記錄數據模式,一種模式記錄測量原始數據(RM),另一種模式記錄計算數據(RMc)。同時,DiNi12有兩種數據格式(與記錄模式不是同一個概念),一種是RECE(M5),另一種是REC500,RECE(M5)和REC500格式都可用于記錄和傳輸數據,但RECS00記錄的信息量少。RM模式下的數據僅記錄了測量讀數的標準差,這樣情況下不可以進行線路平差,作業時應避免這種情況,表1為M5格式說明表。

RECE(M5)數據格式:

RECE(M5)格式的數據行包含121個字符,總的數據以這個數據乘以地址行數而存在項目文件中。字符119為空格,接下來的字符120、121為回車符(CR)、換行符(LF)。空格字符在RECE(M5)格式中是重要的,不能被刪除。3·2 監測成果與變化分析

可以統計出每次監測點的沉隆量,MicrosoftExcel提供了豐富的統計函數功能,再結合自編的程序,可以輕松制作出沉降量周報報表(見表2)。

2)沉隆量曲線圖

圖表具有較好的視覺效果,可方便用戶查看數據的差異、圖案和預測趨勢。在沉降量曲線圖中,可以直接查看到最小沉降點和最大沉降點,當沉降趨勢較明顯時,可引起用戶的注意。我們利用MicrosoftExcel的圖表功能自動生成沉降量曲線圖,在Excel中,圖表是和數據表相鏈接的。橫坐標以觀測時間為單位,縱坐標以沉降量為單位,坐標刻度以2mm為主要刻度,這樣足以反映出大于2mm的沉降量(見圖3)。

3)變形預報和安全判斷

1)沉降量報表

北京地鐵四號線第三方監測在主體結構施工階段是一周一次,根據各次變形監測點的高程數據, 可以統計出每次監測點的沉隆量,MicrosoftExcel提供了豐富的統計函數功能,再結合自編的程序,可以輕松制作出沉降量周報報表(見表2)。

在考慮施工進度(主要是隧道開挖進度)和監測點沉降量統計分析的基礎上,采用數值分析中的線性內插法來推算時域外的變形值。因為外推預報值時使用最近的兩次監測值,對于連續下沉的監測點有簡單實用的優點。

yi+1=yi-1+(yi-yi-1)·(ti+1-ti-1)/(ti-ti-1)

式中:y—沉降量;t—時間。

沉降觀測數據為地鐵安全施工提供一個重要依據,因而具有十分重要意義。監測項目中建(構)筑物沉降、裂縫,地表沉降,直接用來評價地鐵施工對周邊環境的影響程度。從我們前期的監測數據顯示來看,車站1#風道采用暗挖法,設置在地鐵車站1#風道附近的監測點和地面上的監測點整體沉降量較大,這與施工進度相關,同時也說明了我們的作業方法良好。根據設計單位要求,建筑物點的累積沉降限值為±20mm,地面點的累積沉降限值為±25mm,當沉降量接近限值時,則及時向業主及相關部門匯報情況,并同施工單位共同分析原因,以便采取處理措施。每次監測點沉降量大于2mm的,要在報告中加以說明并進行回歸分析,對變形趨勢進行預測預報。結束語

1)監測儀器操作簡單,精度高,讀數客觀,能對同一測站兩次高差之差超限發出警告,測量數據全部存儲在PCMCIA卡,便于計算機處理。

2)變形預報采用線性內插法的變換形式來外推預報值,在短期內較回歸分析更具現實意義,從數學方法上來說,短期內的一元線性回歸方程與線性內插公式的變換形式基本等效。

3)沉降量曲線圖能較沉降量報表直觀地反映監測點的變化情況,可以預測監測點變化趨勢,以便及時將信息反饋至監測管理單位。此外,每月要對施工地段巡察至少一次,確保沉降影響范圍內的建筑物及地面沒有異常情況,沒有出現裂縫、裂紋。

參考文獻

[1]北京勘察技術公司.北京地鐵四號線第三方監測實施大綱.2005.[2]地下鐵道、輕軌交通工程測量規范(GB50308-1999).中國計劃出版社.2000.[3]胡伍生,潘慶林,黃騰.土木工程測量手冊.人發交通出版社.2004,10.[4]天寶.DiNi12說明書.[5]周祖淵.電子數字式水準儀的性能及測量原理.重慶交通學院學報.2005,2.[6]李剛,徐鵬,張偉娜.高精度電子水準儀在煤倉沉降觀測中的應用.工程地球物理學報.2004,12.

第四篇:大學物理實驗數據處理方法總結

有效數字

1、有效數字不同的數相加減時,以參加運算各量中有效數字最末一位位數最高的為準,最后結果與它對其,余下的尾數按舍入規則處理。

2、乘除法以參與運算的數值中有效位數最少的那個數為準,但當結果的第1位數較小,比如1、2、3時可以多保留一位(較小:結果的第一位數小于 有效數字最少的結果第一位數)!例如:n=tg56° θ=56° dθ=1°

dn?dtg?d?d??d?cos2???1???0.05cos2?cos256?180

帶入??56?,???1?

?n??n?tg56??1.48(8為保留)

3、可以數字只出現在最末一位:對函數運算以不損失有效數字為準。例如:20*lg63.4 可疑最小位變化0.1 Y=20lgx dy?20dlnx20dx200.1dx???0.01

ln10dxln10xln1063.?20lg63.4?36.04

4、原始數據記錄、測量結果最后表示,嚴格按有效數字規定處理。(中間過程、結果多算幾次)5、4舍5入6湊偶

6、不估計不確定度時,有效數字按相應運算法則取位;計算不確定度時以不確定度的處理結果為準。

真值和誤差

1、誤差=測量值-真值

ΔN=N-A

2、誤差既有大小、方向與政府。

3、通常真值和誤差都是未知的。

4、相對約定真值,誤差可以求出。

5、用相對誤差比較測量結果的準確度。

6、ΔN/A≈ΔN/N

7、系統誤差、隨機誤差、粗大誤差

8、隨機誤差:統計意義下的分布規律。粗大誤差:測量錯誤

9、系統誤差和隨機誤差在一定條件下相互轉化。

不確定度

1、P(x)是概率密度函數

x測量結果落在xp?dx之間的概率是P(xP)dx當x取遍所有可能的概率值為1.2、正態分布且消除了系統誤差,概率最大的位置是真值A

3、曲線“胖”精密度低“瘦”精密度高。

4、標準誤差:無限次測量?(x)??(X?A)P(X)dx 有限次測量且真值不知道標準偏

-??2差近似給出S(X)??(Xi?X)2K?1

5、正態分布的測量結果落入X左右?范圍內的概率是0.683

6、真值落入測定值Xi左右?區間內的概率為0.683

7、不確定度是測量結果帶有的一個參數,用以表征合理賦予被測量值的分散性。

8、A類:用統計方法獲得不確定度 B類:非統計方法。

例如:單擺測量為A類

B類:準確度級別 1.0級電流報表 ΔI=1.0%X15mA=0.15mA為不確定度極限

9、不確定度分量的合成1、重復性誤差S1由平均值的標準差算出

2、儀器誤差由儀器誤差線除以根號3算出

3、方法誤差由實際公式通過理論導出。

不確定度的方差合成

1、方差u?u?????u?????不確定度(標準差形式)

2、uj-標準不確定度分量 標準差?或s。由儀器最大誤差限給出的誤差稱為展伸不確定度。Uj=kuj.uj為標準不確定度,K稱謂包含因子或置信印子。正太分布K=

3、均勻分布K=根號3.3、(樣本)標準偏差2212j?ujn2j uj是參與第j個不確定度的分量開根號后即為合成S(X)??(Xi?X)2n?1(單次測量的標準偏差)。平均值的標準偏差S(X)?S(X)。n4、多次測量的算術平均值X?

5、間接測量不確定度的傳播

?Xiin平均值X的標準偏差S(X)??(Xii?X)2。

n(n?1)例如:伏安法測電阻Rx。Rx?V?Rg IV~V?u(V)??I~I?u(I)?u(Rx)Rg~Rg?u(Rg)?? 由于u(I)u(V)u(Rg),??1 ,把由此造成的不確定度看成微分看成IVRgV1?RX?R?RdI?XdV?XdRg dRX??2dI?dV?dRg

II?I?V?RgdRX?22222 u(RX)?u1?u2?u3 u2(RX)?u12?u2?u3u1??RX?RXV?RX1u(Rg)?u(Rg)u(I)?2u(I)u2?u(v)?u(v)u3??Rg?II?vI222推廣到多個分量u(Y)?uX1?uX2????uXn

ux1(Y)??Y?Yu(X1)??uxn(Y)?u(Xn)?X1?Xn6、乘除或冪指數形式采用相對不確定度往往要簡單

乘除 左右同時取對數后再求微分 例如 ??bb' ln??11d?1db1db?lnb?lnb? 微分 ?? 22?2b2b?222?u(?)??1u(b)??1u(b?)?把微分符號改換成不確定度的合成法則????2b???2b?? ???????U(α)即可求出

7、不確定度提供了在概率含義下的誤差可能取值范圍的一種估計

8、不確定度原則上只保留一位非零數字,被測量的取位與不確定度對齊,例如u(L)=0.0851cm 第一位不為零的數為8 而51大于50 所以最后是0.09cm。對中間過程多保留幾位。9、10、方差合成的成立條件 :各分量是小量并且相互獨立。物理實驗中的數據處理方法

1、列表法 作圖法 線性回歸法 逐差法

2、列表法:方法簡便 對應直觀 常用于原始數據的記錄 或其它數據處理的基礎

①表格的設計明確合理 ②數據記錄的規范和完整 ③注意環境參數 列出引用的東西 注意原始數據的記錄。

3、作圖法:把實驗數據依據自變量和因變量的關系做成曲線以便反映兩者的函數關系找出經驗

①列表法的基本要求給出原始的數據表格 ②坐標的選取和分度 :最小分度與儀器的最小分度相對應③實驗點用便于識別位置的符號表示,曲線擬合要平滑。不適用于校準曲線例如校準電流表

4、求公式: 直線處理 :經驗公式,直線兩頭的坐標 求出斜率以及截距 b?y2?y1

x2?x1??x2y1?x1y2 取點從擬合后的直線上進行 不取原來的實驗點,應在實驗范圍內,盡量x2?x1遠離。

5、一元線性回歸方法(最小二乘法)

y=a+bx 實驗測得數據并不嚴格符合直線關系 選出一條直線使得實驗數據到直線Δy的平方和最小

??yi?min

i2b?xy?xyX?X22 ??y?bx

①變量關系的選擇 等精度測量u(yi)相等 X-無誤差 ②線性關系的檢驗: 線性模型的合理性 數據的相關性 檢驗方法:(1)物理規律(2)計算相關系數r r?xy?xy(x?x)(y?y)2222 ?1?r??1 r接近于零 不相關

③曲線改直線

6、逐差法

第五篇:常用大數據量、海量數據處理方法 (算法)總結

? 大數據量的問題是很多面試筆試中經常出現的問題,比如baidu google 騰訊 這樣的一些涉及到海量數據的公司經常會問到。

下面的方法是我對海量數據的處理方法進行了一個一般性的總結,當然這些方法可能并不能完全覆蓋所有的問題,但是這樣的一些方法也基本可以處理絕大多數遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目,方法不一定最優,如果你有更好的處理方法,歡迎與我討論。

1.Bloom filter

適用范圍:可以用來實現數據字典,進行數據的判重,或者集合求交集

基本原理及要點:

對于原理來說很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時如果發現所有hash函數對應位都是1說明存在,很明顯這個過程并不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter,用一個counter數組代替位數組,就可以支持刪除了。

還有一個比較重要的問題,如何根據輸入元素個數n,確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下,m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,因為還要保證bit數組里至少一半為0,則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。

舉個例子我們假設錯誤率為0.01,則此時m應大概是n的13倍。這樣k大概是8個。

注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數為單位(準確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節省的。

擴展:

Bloom filter將集合中的元素映射到位數組中,用k(k為哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數組中的每一位擴展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現次數關聯。SBF采用counter中的最小值來近似表示元素的出現頻率。

問題實例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節,內存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?

根據這個問題我們來計算下內存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的,就可以轉換成ip,則大大簡單了。

2.Hashing

適用范圍:快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存

基本原理及要點:

hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。

碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。

擴展:

d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經存儲的(有碰撞的)key比較多,然后將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key 存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。

問題實例:

1).海量日志數據,提取出某日訪問百度次數最多的那個IP。

IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然后進行統計。

3.bit-map

適用范圍:可進行數據的快速查找,判重,刪除,一般來說數據范圍是int的10倍以下

基本原理及要點:使用bit數組來表示某些元素是否存在,比如8位電話號碼

擴展:bloom filter可以看做是對bit-map的擴展

問題實例:

1)已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。

8位最多99 999 999,大概需要99m個bit,大概10幾m字節的內存即可。

2)2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。

將bit-map擴展一下,用2bit表示一個數即可,0表示未出現,1表示出現一次,2表示出現2次及以上。或者我們不用2bit來進行表示,我們用兩個bit-map即可模擬實現這個2bit-map。

4.堆

適用范圍:海量數據前n大,并且n比較小,堆可以放入內存

基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆里的最大元素,如果它小于最大元素,則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數據量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。

擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數。

問題實例:

1)100w個數中找最大的前100個數。

用一個100個元素大小的最小堆即可。

5.雙層桶劃分

適用范圍:第k大,中位數,不重復或重復的數字

基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內進行。可以通過多次縮小,雙層只是一個例子。

擴展:

問題實例:

1).2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。

有點像鴿巢原理,整數個數為2^32,也就是,我們可以將這2^32個數,劃分為2^8個區域(比如用單個文件代表一個區域),然后將數據分離到不同的區域,然后不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

2).5億個int找它們的中位數。

這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域,然后讀取數據統計落到各個區域里的數的個數,之后我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然后第二次掃描我們只統計落在這個區域中的那些數就可以了。

實際上,如果不是int是int64,我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然后確定區域的第幾大數,在將該區域分成2^20個子區域,然后確定是子區域的第幾大數,然后子區域里的數的個數只有2^20,就可以直接利用direct addr table進行統計了。

6.數據庫索引

適用范圍:大數據量的增刪改查

基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。

擴展:

問題實例:

7.倒排索引(Inverted index)

適用范圍:搜索引擎,關鍵字查詢

基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

以英文為例,下面是要被索引的文本:

T0 = “it is what it is” T1 = “what is it”

T2 = “it is a banana”

我們就能得到下面的反向文件索引:

“a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}

檢索的條件“what”, “is” 和 “it” 將對應集合的交集。

正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關系。

擴展:

問題實例:文檔檢索系統,查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。

8.外排序

適用范圍:大數據的排序,去重

基本原理及要點:外排序的歸并方法,置換選擇 敗者樹原理,最優歸并樹

擴展:

問題實例:

1).有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。

這個數據具有很明顯的特點,詞的大小為16個字節,但是內存只有1m做hash有些不夠,所以可以用來排序。內存可以當輸入緩沖區使用。

9.trie樹

適用范圍:數據量大,重復多,但是數據種類小可以放入內存

基本原理及要點:實現方式,節點孩子的表示方式

擴展:壓縮實現。

問題實例:

1).有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。要你按照query的頻度排序。

2).1000萬字符串,其中有些是相同的(重復),需要把重復的全部去掉,保留沒有重復的字符串。請問怎么設計和實現?

3).尋找熱門查詢:查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復后,不超過3百萬個,每個不超過255字節。

10.分布式處理 mapreduce

適用范圍:數據量大,但是數據種類小可以放入內存

基本原理及要點:將數據交給不同的機器去處理,數據劃分,結果歸約。

擴展:

問題實例:

1).The canonical example application of MapReduce is a process to count the appearances of

each different word in a set of documents: void map(String name, String document):

// name: document name

// document: document contents

for each word w in document:

EmitIntermediate(w, 1);

void reduce(String word, Iterator partialCounts):

// key: a word

// values: a list of aggregated partial counts

int result = 0;

for each v in partialCounts:

result += ParseInt(v);

Emit(result);

Here, each document is split in words, and each word is counted initially with a “1” value by

the Map function, using the word as the result key.The framework puts together all the pairs

with the same key and feeds them to the same call to Reduce, thus this function just needs to

sum all of its input values to find the total appearances of that word.2).海量數據分布在100臺電腦中,想個辦法高效統計出這批數據的TOP10。

3).一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數并對它們操作。如何找到N^2個數的中數(median)?

經典問題分析

上千萬or億數據(有重復),統計其中出現次數最多的前N個數據,分兩種情況:可一次讀入內存,不可一次讀入。

可用思路:trie樹+堆,數據庫索引,劃分子集分別統計,hash,分布式計算,近似統計,外排序

所謂的是否能一次讀入內存,實際上應該指去除重復后的數據量。如果去重后數據可以放入內存,我們可以為數據建立字典,比如通過 map,hashmap,trie,然后直接進行統計即可。當然在更新每條數據的出現次數的時候,我們可以利用一個堆來維護出現次數最多的前N個數據,當然這樣導致維護次數增加,不如完全統計后在求前N大效率高。

如果數據無法放入內存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形,可以做的改變就是將字典存放到硬盤上,而不是內存,這可以參考數據庫的存儲方法。

當然還有更好的方法,就是可以采用分布式計算,基本上就是map-reduce過程,首先可以根據數據值或者把數據hash(md5)后的值,將數據按照范圍劃分到不同的機子,最好可以讓數據劃分后可以一次讀入內存,這樣不同的機子負責處理各種的數值范圍,實際上就是map。得到結果后,各個機子只需拿出各自的出現次數最多的前N個數據,然后匯總,選出所有的數據中出現次數最多的前N個數據,這實際上就是reduce過程。

實際上可能想直接將數據均分到不同的機子上進行處理,這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上,而另一個則可能完全聚集到一個機子上,同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個,我們將1000萬的數據分布到10臺機器上,找到每臺出現次數最多的前 100個,歸并之后這樣不能保證找到真正的第100個,因為比如出現次數最多的第100個可能有1萬個,但是它被分到了10臺機子,這樣在每臺上只有1千個,假設這些機子排名在1000個之前的那些都是單獨分布在一臺機子上的,比如有1001個,這樣本來具有1萬個的這個就會被淘汰,即使我們讓每臺機子選出出現次數最多的1000個再歸并,仍然會出錯,因為可能存在大量個數為1001個的發生聚集。因此不能將數據隨便均分到不同機子上,而是要根據hash 后的值將它們映射到不同的機子上處理,讓不同的機器處理一個數值范圍。

而外排序的方法會消耗大量的IO,效率不會很高。而上面的分布式方法,也可以用于單機版本,也就是將總的數據根據值的范圍,劃分成多個不同的子文件,然后逐個處理。處理完畢之后再對這些單詞的及其出現頻率進行一個歸并。實際上就可以利用一個外排序的歸并過程。

另外還可以考慮近似計算,也就是我們可以通過結合自然語言屬性,只將那些真正實際中出現最多的那些詞作為一個字典,使得這個規模可以放入內存。

下載隨機數據處理方法 答案 第四章word格式文檔
下載隨機數據處理方法 答案 第四章.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    數據處理考綱

    全國殘疾人崗位精英職業技能競賽規則計算機操作員(數據處理)全國殘疾人崗位精英職業技能競賽組委會2012年7月競 賽 標 準一、競賽目的考查參賽選手對于數據處理相關基礎知識的......

    數據處理教案

    數據處理教案 引言: 根據高專中專部安排,由我帶10級綜合班的數據處理課和Office辦公自動化課,根據教學的要求,特寫此教案,該教案分為5部分,第一部分介紹數據處理定義,結構,常用軟件;......

    數據處理工作總結

    2011年XXX空間數據處理工作總結 2011年XXX水利普查空間數據工作,嚴格按照《第一次全國水利普查空間數據采集與處理實施方案》要求,以質量為中心,精心組織、周密安排,經過全區普......

    mtt數據處理

    實驗一急性毒性試驗(改進寇氏法) 一、目的與要求 1、學習急性毒性試驗的方法,掌握LD50的測定方法。 2、觀察馬錢子的毒性反應。 二、實驗原理 急性毒性試驗是指受試動物在一次......

    GPS數據處理

    《GPS數據處理》課程總結報告 班級:地101 學號:2103071011291 姓名:常悅成績:北京建筑工程學院.測繪與城市空間信息學院 二零一三年. 五月 《GPS數據處理》課程總結報告 1. GP......

    壓力表檢定項目及數據處理和誤差修正方法研究

    壓力表檢定項目及數據處理和誤差修正方法研究 摘 要:壓力表檢定工作是否到位會在很大程度上影響企業的安全生產與日常經營。要科學選擇壓力表,并對外觀、零位和示值誤差進行檢......

    GPS測量數據處理

    8.1.1 GPS測量數據粗加工的兩個部分 GPS測量數據的粗加工包括數據傳輸和數據分流兩部分內容。 大多數GPS接收機采集的數據記錄在接收機內存模塊上。在數據通過專用電纜線從......

    《數據處理》教學設計(推薦)

    《數據處理》教學設計 山東省青島市二十六中學 李珺 【所用教材版本】青島出版社《初中信息技術》八年級上冊 【適用年級】初中二年級 【適用單元】第7單元 【教材分析】 1.......

主站蜘蛛池模板: 免费精品国产一区二区三区| 日日干夜夜操| 国产免费一区二区三区免费视频| 欧美成人一区二区三区在线视频| 天天澡天天添天天摸97影院| 亚洲日韩精品欧美一区二区| 亚洲最大的熟女水蜜桃av网站| 无码人妻少妇久久中文字幕蜜桃| 无码乱人伦一区二区亚洲| 国产精品无码一区二区三级| 国产精品久久久福利| 亚洲男人第一av网站| 国内精品视这里只有精品| 精品国产午夜福利在线观看| 欧美日韩精品一区二区在线视频| 欧美日韩国产免费一区二区三区| 无码喷潮a片无码高潮| 2020久久天天躁狠狠躁夜夜| 夜夜躁日日躁狠狠久久av| 国产精品久久久久久久久| 国产精品视频一区二区三区不卡| 亚洲国产精品一区二区成人片国内| 国产精品视频第一区二区三区| 国产精品色无码av在线观看| 国产成人无码午夜福利在线直播| 国产精品jizz视频| 国产精品特级露脸av毛片| 人人超人人超碰超国产97超碰| 1000部无遮挡拍拍拍免费视频观看| 人人妻人人澡人人爽国产一区| 亚洲一区无码中文字幕乱码| 免费无码成人av在线播放不卡| 午夜福利92国语| 国产 在线 | 日韩| 一区二区三区无码不卡无在线| www亚洲精品少妇裸乳一区二区| 亚洲欧洲无卡二区视頻| 日本成熟老妇乱| 亚洲日韩欧美一区二区三区| 国产亚洲日韩在线一区二区三区| 国产精品麻豆成人av网|