第一篇:環境統計學總結doc
總體:一個統計問題研究對象的全體,具有某種共同特性的元素集合個體:組成總體的每個基本單元的個體
樣本:從總體中按一定方法抽取部分具有代表性的個體所組成的群體
抽樣:按相等的時間間隔抽取樣值的過程
誤差:測量結果與被測量真值之差。
殘差:指實際觀察值與模型值的差異。
過失誤差:觀測中某種不應有錯誤而造成的所得數據與事實顯著不符的誤差。例如記錄誤差、讀數誤差、試劑誤差、樣品錯誤以及儀器出了毛病而未被發覺所帶來的錯誤。不管是何種原因造成過失誤差,只要明確所得測量值是上類性質,就應將該值作為異常值予以舍棄
偶然誤差:(也稱隨機誤差或或然誤差)觀測中因環境中不易察覺的隨機因素而導致的誤差。÷。在同樣條件下,雖經多次重復觀測。但觀測總是存在差異,這種差異就是偶然誤差,它們出現一般有確定的概率。隨著觀測次數的增多,偶然誤差的平均值逐步趨近于零
系統誤差:在一定條件下因某種原因引起有確定性規律的誤差。例如:試驗中因方法不夠完善而導致的誤差,或因環境有顯著改變而引起的誤差等。系統誤差分為固定系統誤差和有周期性變化的系統誤差。系統誤差數值常常是可估計的精密度:觀測某一定值時所得觀測值的離散程度。它常用標準差或變異系數來量度
準確度:在一定條件下度量觀測平均值與真值間一致性接近程度,它常用系統誤差來表示 連續變量:取值精度至少在理論是無限的。即在連續量的任意兩個取值之間可以插入無窮多個中間值。換言之,只要測定手段允許,一個連續量得任意兩個取值不可能相等。自然科學中遇到的大多數變量,如溫度,壓力,體積,重量,濃度,ph值,噪聲強度都是連續變量 離散變量:其特點在于其可能的取值僅限于如0、1、2、3、。。。這樣的正整數,即計數值。人口、植株和菌落等都是典型的離散變量
順序變量:在沒有高水平測量手段的情況下,只能借助肉眼觀察或類似方法對樣本進行考察,得到的結果是按大小順序排列的順序值(即秩),秩只有相對順序意義而絕無大小意義,二元變量:所觀察的實體對象僅僅具有兩個對立的屬性。通常用0和1來表示這種存在與否或兩種對立的狀態,故也稱0-1變量。例如人類性別,只有男女兩種對立狀態,則分別記為0與1
無序多元變量:指具有兩個以上狀態且每個狀態互為獨立而又無一定順序的屬性。如顏色、季節、巖石類型等,其若干取值只有相同和不同的區別而無任何與大小相關的順序變量 雙側概率(兩尾概率):把隨機變量x落在平均數μ加減不同倍數標準差σ區間之外的概率,記作α
單側概率(一尾概率):對應于雙側概率可以求得隨機變量x小于μ-kσ或大于μ+ kσ的概率,記作α/2
大小特征參數(位置特征參數:它是表示環境觀測集中趨勢的一類參數,常見的大小特征參數包括平均值、中位數和眾數
離散特征參數:所謂離散特征,是指個體的聚集或分散程度,或者說它們距離分布中心的遠近程度。可以表示離散特征的參數很多,常用的有平方和、方差、標準差、變異系數、幾何標準差、范圍等
分布特征參數:用于描述總體或樣本的分布特征,即偏鋒系數或分位數
類型變換:對環境研究的變量類型進行轉換,一般是高測量水平的變量向低測量水平進行變換,盡管這種變換會造出數據信息的損失,但在某些情況下,這種變換又是必需的 線性變換:指對觀測數據進行加減乘除的運算
分布變換:是指對觀測樣本的分布形態進行變換。最常見的是正態變換,它將非正態分布數據轉化成正態分布數據
相似系數:用于定量比較兩個變量或兩個樣本之間相似程度的指標。當兩個變量或兩個樣本完全不同時,其相似性為零,表征相似性的系數主要是內積系數,它包括離差系數、協方差系數與相關系數
相異系數:是相似系數的補數,其數值大小反映的是變量間或樣本間的差異程度。當兩個變量或兩個樣本完全一致時,其相異性為零。常用的相異系數是距離系數
區間估計:是從樣本統計量去估計、研究總體參數的可能取值范圍
點估計:是估計、研究總體參數的可能取值情況
置信水平:置信度的互補概率,1-α
顯著性水平:落在拒絕域的小概率,用α表示
原假設(零假設):是指對檢驗的直接對象作出的假設,記為H0.對立假設(備擇假設):如果檢驗結果拒絕原假設時必須接受的另一種可能假設稱為對立 H1:備擇假設,一旦否定原假設就接受它
雙側檢驗:假設檢驗的否定域分別位于檢驗統計量抽樣分布的兩個尾部
單側檢驗:否定域在檢驗統計量分布的一側
第一類錯誤:當原假設實際上是正確的,而依據某一樣本作出拒絕原假設的判斷,將正確的假設誤認為是錯誤的,(以真為假)
第二類錯誤:當原假設實際上是錯誤的,而依據某一樣本作出接受原假設的判斷,將錯誤的假設誤認為是正確的,(以假為真)
單因素方差分析:試驗中只有一個因素,比較因素各水平上指標值之間的差別
雙因素方差分析:試驗中有兩個因素變量,考慮兩個因素的變化對指標值的影響
小概率原理:把小概率事件在一次試驗中看成是實際不可能發生事件稱為小概率事件實際不可能性原理
方差:度量總體或樣本各變量間變異程度的參數或統計量
方差分析:以線性函數平方和為統計量的統計分析
統計量:描述樣本特性的量
相關系數:度量兩個隨機變量間關聯程度的量。相關系數的取值范圍為(-1,+1)。當相關系數小于0時,稱為負相關;大于0時,稱為正相關;等于0時,稱為零相關
線性回歸:在變量的函數關系中,X、Y之間存在線性函數關系
三大統計分布:卡方、T、F分布
根據變量的觀測水平可以將它們劃分為:定量變量(連續變量、離散變量、和順序變量)與定性變量即類型變量(二元變量和多元變量)
根據變量的取值能否由研究者加以控制可將其分為:隨機變量和固定變量
誤差按其產生來源分為:過失誤差,偶然誤差和系統誤差
系統誤差與偶然誤差之和,稱為:綜合誤差
模型一般分為:物理模型、語言模型和數學模型
響應指標的類型:正向指標、負向指標、區間指標
三種重要的概率分布:正態分布、二項分布、泊松分布
統計特征參數:總體特征參數與樣本特征參數
統計特征參數可按照說描述的總體或樣本特征類型分為:大小特征參數、離散特征參數和分布特征參數
總體分布形態的兩個重要特征是:偏斜度(左偏態,右偏態)與峰態(低峰態,尖峰態)剔除異常值的方法:概率剔除與非概率剔除
數據變換類型:類型變換、線性變換、分布變換
統計推斷包括:參數估計(點估計與區間估計)和假設檢驗
假設檢驗方法按是否依賴某些總體參數而分為:參數檢驗方法與非參數檢驗
總體大小特征的假設檢驗方法:正態U檢驗與t檢驗
檢驗臨界值的確定的條件:(1)概率水平:由顯著性水平α和單側、雙側來確定。(2)自由度:由樣本量確定。(3)概率分布表:由假設檢驗方法確定
多重比較常用的方法:最小顯著差數法和最小顯著極差法(q法和鄧肯新復極差法)相關關系按其形成原因分為:直接相關和間接相關
正態分布的特征:
(1)正態分布密度曲線是單峰、對稱的懸鐘形曲線,對稱軸為x=μ;
(2)f(x)在x=μ處達到極大,極大值f(μ)=;
(3)f(x)是非負函數,以x軸為漸近線,分布從-∞到+∞;
(4)曲線在x=μ±σ處各有一個拐點,即曲線在(-∞,μ-σ)和(μ+σ,+∞)區間上是
下凸的,在(μ-σ,μ+σ)區間內是上凸的;
(5)正態分布有兩個參數,即平均數μ和標準差σ。μ是位置參數,當σ恒定時,μ愈大,則曲線沿x軸愈向右移動;反之,μ愈小,曲線沿x軸愈向左移動。σ是變異度參數,當μ恒定時,σ愈大,表示x的取值越分散,曲線越“胖”; σ愈小,x的取值越集中在附近,曲線越“瘦”。
(6)分布密度曲線與橫軸所夾的面積為1。
三個重要的概率分布的關系
三個重要概率分布中,正態分布屬連續隨機變量的概率分布,二項分布、泊松分布屬離散型隨機變量的概率分布。
對于二項分布,在n→∞,p→0,且np=λ(較小常數)情況下,二項分布趨近于泊松分布。在這種場合,泊松分布中的參數λ用二項分布np代之。
2在n→∞,p→0.5 時,二項分布趨向于正態分布。在這種場合,正態分布中的μ、σ 用二
項分布的np、npq代之。在實際計算中,當p<0.1且n很大是,二項分布可由泊松分布近似,當 p>0.1且n很大時,二項分布可由正態分布近似。
對于泊松分布,當λ→∞時,泊松分布以正態分布為極限。在實際計算中,當λ>=20(也有
2人認為λ>=6)時,用泊松分布中的λ代替正態分布中的μ及σ,即可由后者對前者進行
近似計算。
異常值的的剔除原理
異常值是一個樣本中出現概率很小的觀測值,又稱離群值,即在相同條件下,因某種原因造成的顯著偏離樣本中值的個別數據。異常值的剔除原理是假設檢驗,它是建立在觀測值誤差服從隨機抽樣與正態分布(高斯誤差定律)的基礎下。即在選定的可靠性概率條件下,根據某些檢驗方法作出某個或某些觀測值是否屬于異常的判斷。可以主觀地確定這一最大允許錯誤的概率記為α,用以表示某觀測值并非異常,而檢驗結果將它判斷為異常的可能性,通常取α=0.05,這意味著如果檢驗結果認為某值時異常,該結論不正確的幾率不會大于5%。由此可見,研究者可以通過改變α。值來調整檢驗方法的嚴格程度。假如寧可錯誤地剔除非異常數據,也 不愿放過可能的異常值,那么應當選擇大一些的α值;反之,如果要求盡量不作錯誤剔除,那么可用較小的α值進行檢驗。
異常值的剔除程序:
首先將觀測值從小到大依次排列,將兩端的最小值x1及最大值xn作為第一輪的檢驗對象;第二步是根據樣本容量大小及其分布特征選擇相應的檢驗方法,并計算x1及xn的檢驗統計量;第三步是根據事先確定的檢驗水平α與樣本量n查驗相應的臨界值;第四步是將檢驗統計量值與臨界值進行比較,由此統計推斷出檢驗結果。如果x1被剔除,依次檢驗x2、x3,…,直到某值不為異常值時停止;如果xn被剔除,則依次檢驗xn-
1、xn-2,…,直到某值不為異常值時停止。
距離系數滿足的條件
(1)同一點的不可區分性。若A=B,則d(A,B)=0
(2)相異點的可區分性。若A≠B,則d(A,B)≠0
(3)對稱性。d(A,B)= d(B,A)
(4)三角不等式公理。d(A,B)≤d(A,C)+d(B,C)
假設檢驗的對象
假設檢驗師指對不完全了解的總體特征提出某種假設,然后根據樣本資料對所作假設進行檢驗與判斷。根據總體不同的 特征。假設檢驗可以分為以下四類:
(1)關于總體離散大小的假設檢驗;例如比較一個總體的均值是否等于或大于某一特定
值,比較兩個總體的大小是否有明顯差異,以及比較多個總體的大小是否一致。
(2)關于總體離散特征的假設檢驗;例如檢驗一個總體的方差是否在某特定值之下,或
者判斷兩個總體的方差是否一致。
(3)關于總體分布形式的假設檢驗;例如檢驗一個總體是否服從正態分布、對數正態分
布或某種特定的理論分布以及比較兩個總體的分布形式有沒有明顯區別。
(4)關于總體綜合特征的假設檢驗;這類檢驗是指不加區分地對總體各方面的特征進行
綜合比較,即比較兩個或多個總體是否在大小、分散程度及分布形式有沒有明顯區別。
(5)關于異常值的假設檢驗;事實上,異常值的剔除也是一種假設檢驗。即當懷疑某個
觀測值為異常值時,可首先假定該值不是異常值,然后用特定的方法按特定的準則,對接受還是拒絕這一假設作出判斷。
假設檢驗基本步驟
(1)用統計語言表達有關假定,即提出統計假設。
(2)確定顯著性水平,即允許犯第I類錯誤的概率為α。
(3)選擇適當的統計檢驗方法。
(4)根據樣本數據計算有關檢驗統計量
(5)根據檢驗量的抽樣分布、顯著性水平α以及自由度等從有關統計用表中查出檢驗臨
界值。
(6)比較檢驗統計量的計算結果與臨界值,決定是否拒絕檢驗的原假設。
假設檢驗方法選擇
參數檢驗是指在模型的建立及檢驗中借助了總體的某些參數,并針對這些參數規定了一些條件,又稱經典檢驗方法。參數方法對數據有較嚴格的要求,只能適用于定量變量中的連續變量與離散變量。其優點在于:(1)能夠充分利用連續數據與離散數據中的高信息含量,其檢驗功效(1-β)高于相應的非參數檢驗方法。(2)少數問題到目前為止尚無合適的非參數檢驗方法能夠解決,如因子的交互作用顯著性只能使用參數檢驗。
非參數檢驗在模型的建立和檢驗過程中,不涉及任何總體參數,故又稱無分布檢驗。與參數檢驗相比,非參數檢驗雖然對高測量水平數據信息利用不夠充分,但由于其模型條件簡單,具有以下優點:(1)不要求樣本服從各種假定。這在樣本量較小時以及當觀測值來自幾個有明顯差異的總體時尤為重要。此時參數檢驗所需要的各種假定往往難以滿足。(2)不受少數異常值的干擾,而異常值的剔除在樣本量較小時比較困難。(3)可以適合于各種類型的變量。(4)計算簡便。
正態檢驗與t檢驗的比較
正態檢驗的使用條件必須是樣本服從正態分布,而且還必須是大樣本量情形(n)100)。樣本量較小時,從正態分布總體中得到的樣本 從屬于學生t分布,這時應改用t檢驗而不是正態檢驗對總體均值進行比較。另一方面,可以將正態分布視為自由度為無窮大時的學生t分布特例,對大樣本量的數據,t檢驗方法仍然有效。
方差分析的基本假定
(1)可加性;即試驗處理效應、環境效應以及試驗誤差應該是“可加”的。方差分析所
依據的數學模型是線性可加模型,可加和性是方差分析的主要特性。當以樣本估計時,“可加性”可表示為:SST=SSr+SSe
2(2)正態性;即試驗誤差應是獨立的隨機變量,并服從正態分布(0,α),這是因為
多個樣本的F檢驗,是假定k個樣本是從k個正態總體中隨機抽取的,因而試驗誤差一定是隨機的,且服從正態分布。
(3)同質性;也稱“方差齊性”,是指試驗所有處理的誤差方差是同質的,即具有共同的誤差方差。這是因為方差分析師將各處理的誤差合并為一個共同的誤差方差,以作為顯著性檢驗共用的誤差項方差。
最小顯著差數法(LSD法):檢測程序:是在處理間的F檢測為顯著的前提下,計算出顯著水平為a的最小顯著差數LSDa;任何兩個處理平均數間的差數(xi-xj)若絕對值≥LSDa,則為在a水平上差異顯著;反之,則為在水平上差異不顯著。這種方法又稱為保護性最小顯著差數法。LSD法實質是t檢驗。
最小顯著極差法簡稱LSR法。其特點是把平均數差數看成是平均數的極差,根據極差范圍內所包含的處理數(稱為秩次距)K的不同而采用不同的檢驗尺度,以克服LSD法的不足。這些在顯著水平a上依秩次距K的不同而采用的不同的檢驗尺度叫最小顯著極差LSR。判斷估計量的優劣標準
最小二乘法與線性回歸系數: 線性回歸都可以通過最小二乘法求出其方程,可以計算出對于y=bx+a的直線。在研究兩個變量(x, y)之間的相互關系時,通常可以得到一系列成對的數據(x1, y1、x2, y2...xm , ym);將這些數據描繪在x-y直角坐標系中,若發現這些點在一條直線附近,可以令這條直線方程y=bx+a
第二篇:統計學總結
統計學(Statistics):應用統計學的原理與方法,研究數據的搜集、整理與分析的科學,對不確定性數據作出科學的推斷。
醫學統計學(Medical Statistics):應用統計學的原理與方法,研究醫學科研中有關數據的搜集、整理和分析的應用科學。
統計學方法的特點: 1.用數量反映質量
2.統計邏輯:用群體規律估算/推測個體 3.手段:常通過部分個體估計總體
同質和變異(考試重點)
? 同質(homogeneity):據研究目的所確定的所有研究對象的相同屬性。例子:身高、體重、年齡、容貌…… ? 變異(variation):同質研究單位中變量值間的差異,整個統計學甚至是整個科學研究存在的基礎。
總體、樣本和研究單位(考試重點)
? 總體(population):是根據研究目的確定的同質研究單位的全體。統計學人員習慣將其叫做同質研究單位某種變量值的集合,包括有限總體和無限總體。? 樣本(sample):是總體中抽取的一部分個體。包括隨機抽樣和非隨機樣本。? 樣本含量(sample size):樣本中包含的研究單位數。? 觀察單位(observed unit):也叫個體或研究單位,它是研究中的個體(individual),完全由研究目的確定。它可以是一個(群)人、一只動物和一個細胞。
變量、變量值和資料(考試重點)
? 變量(variable):按特定目的確定的研究單位的某種特征或屬性。
? 變量值(value of variable):變量的觀察或檢測結果,也叫變量的觀測值。? 資料(data):在特定目的指引下而確定的變量及其變量值。? 計量資料(measurement/quantitative/numerical data):其特征是能夠用數量衡量,通常具體計量單位。按照變量值是否連續又可分為連續型(continuous/interval)和離散型(discrete)兩類按特定目的確定的研究單位的某種特征或屬性(請舉例)。要特別注意比值資料,如細胞凋亡率。
? 計數資料(enumeration/qualitative/categorical/ nominal data):是將觀察單位按某種屬性或類別分組計數,分組匯總各組觀察單位數后而得到的資料。其變量值是定性的,表現為互不相容的屬性或類別。按變量值類別的多少又分為二分類和多分類兩種類型(舉例)。
? 等級資料(ordinal categorical/rank/semi-quantitative data):是將觀察單位按某種屬性的不同程度分成等級后分組計數,分組匯總各組觀察單位數后而得到的資料,其變量值具有半定量性質。(舉例,如血清反應強度、療效)
參數和統計量(考試重點)
? 參數(parameter):根據總體中所有個體值計算出來的特征量/指標,一般用希臘字母表示。? 統計量(statistic):根據樣本個體值計算出來的描述的特征量/指標,一般用拉丁字母表示。
? 總體參數一般是不知道的,統計工作的目的是:通過樣本統計量估計推測總體參數。
誤差、隨機誤差、系統誤差和非系統誤差(考試重點)? 誤差(error):泛指實際觀測值與真值之差,也即樣本指標/統計量與總體指標/參數之差。
? 按誤差產生的原因分為:系統誤差、非系統誤差和隨機誤差。
? 系統誤差(systematic error):由于儀器未校正、測量者感官的某種障礙、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值兩側,而是有方向性、系統性或周期性地偏離真值。
? 非系統誤差(nonsystematic error):由于研究者偶然 失誤而造成的誤差。例如:儀器失靈、抄錯數據、點錯小數點、寫錯單位等,亦稱過失誤差(gross error)? 測量值 = 真值 + 隨機誤差 + 非隨機誤差
? 隨機誤差:是一類不恒定的、隨機變化的誤差,由于多種目前尚無法控制的因素引起。如:在同一條件下對某一實驗進行多次重復,雖極力對其進行控制或消除系統誤差后,但實驗結果卻不盡相同。? 抽樣誤差(sampling error):由于抽樣所造成的樣本統計量與總體參數的差別。隨機抽樣誤差不可避免,具有統計規律性,主要由個體差異(變異)
頻率、概率和小概率事件(考試重點)
? 頻率(relative frequency): 一次隨機試驗有幾種可能結果,在重復進行試驗時,各種結果看來是偶然發生的,但當重復試驗次數相當多時,將顯現某種規律性。例如,投擲一枚硬幣,結果不外乎出現“正面”與“反面”兩種
? 概率(probability)概率是度量隨機事件發生可能性大小的一個數值。設在相同條件下,獨立地重復n次試驗,隨機事件A出現 f 次,f/n 則稱為隨機事件A出現的頻率。當 n 逐漸增大時,頻率 f/n 趨向于一個常數,則稱該常數為隨機事件A的概率,可記為 P(A),簡記為P。概率的取值范圍: 0≤ P(A)≤1。
? 頻率是就樣本而言的,而概率從總體的意義上說的,頻率是概率的估計值。試驗次數(樣本含量)越多(越大),估計就越可靠。
? 小概率事件: 統計分析中的很多結論都基于一定置信程度下的概率推斷,小概率是研究人員確定的統計判斷或決策標準,習慣上將概率小于0.05或0.01定為小概率事件。研究人員認為小概率事件在一次試驗中不可能發生,這即是統計決策必須付出的代價。
醫學統計工作的基本步驟 1.設計(design)
? 設計階段主要涉及實驗的三要素(對象對象、研究因素、實驗效應)、四原則(對照、隨機、重復和均衡)和設計方法。
? 包括專業設計和統計設計。根據研究對象的不同可將醫學科研設計分為:實驗設計、調查設計 和 臨床實驗設計。
2.收集資料(collection of data)(1)資料來源
? 第一手資料:統計報表(傳染病報表、職業病報表、醫院工作報表、死亡登記、疫情報告等);經常性工作記錄(衛生監督記錄、健康檢查記錄、病歷等);專題調查、實驗或臨床試驗。
? 第二手資料:已公布的資料,特別是官方出版物,以及其他各種類型的數據。
(2)對資料要求
? 完整:觀察單位及觀察指標應盡可能地完整 ? 準確:即真實、可靠。真實是統計學的靈魂 ? 及時:即時限性
3.整理資料(sorting data)
? 目的:通過對原始數據的條理化、系統化和數量化的處理,使得其能夠滿足統計分析的需要,特別是要滿足統計軟件的要求。因此,國外有些教材也把該階段稱作數據篩查(data screening)
? 評估數據質量,彌補缺失值或補做調查或實驗,確保數據準確、可信。
4.分析資料(analysis of data)(考試重點)
? 目的:揭示樣本數據中潛藏的內在聯系和規律,借以估計總體的特征,從而達到支持決策的目的。
? 包括統計描述(統計圖、表、統計指標)和統計推斷(假設檢驗和置信區間)。
資料的類型
? 定量資料: 可直接利用原始測量值進行分析,也可將其分為幾類,完全取決于研究目的。
? 無序資料: 二項分類資料(賦值進行量化)和多項分類資料(必須采用啞變量)舉行分析。
? 有序數據:可直接進行量化處理。
統計描述:采用合適的統計指標、統計圖和統計表來表達數據分布的特征和規律。極差(range)也稱全距,即最大值和最小值之差,記作R。(考試重點)
編制頻數表的步驟 1.求極差 2.確定組距(i)
3.寫組段(分為12個組段)組下限(L):每個組段的起點 組上限(U):每個組段的終點
4.分組段劃記并統計頻數
(1)對稱分布 :若各組段的頻數以頻數最多組段為中心左右兩側大體對稱,就認為該資料是對稱分布。
(2)偏態分布 :
? 右偏態分布也稱正偏態分布:右側的組段數多于左側的組段數,頻數向右側拖尾。(考試重點)
? 左偏態分布也稱負偏態分布:左側的組段數多于右側的組段數,頻數向左側拖尾。(考試重點)頻數表和頻數分布圖用途 1.描述數據分布類型
2.描述頻數分布的特征
3.便于發現一些特大或特小的可疑值; 4.便于進一步做統計分析和處理。
集中趨勢:遴選最合適的代表值。
離散趨勢:評判代表值對總體代表的程度。
集中趨勢的描述(考試重點)統計上使用平均數(average)這一指標體系來描述一組變量值的集中位置或平均水平。(考試重點)常用的平均數有:算術均數、幾何均數、中位數
? 算術均數:簡稱均數(mean)。可用于反映一組呈對稱分布的變量值在數量上的平均水平或者說是集中位置的特征值。(考試重點)適用于對稱分布,特別是正態分布或近似正態分布的資料。
? 幾何均數(geometric mean):可用于反映一組經對數轉換后呈對稱分布的變量值在數量上的平均水平。適用于成等比級數的資料,特別是對數正態分布資料。? 中位數(median):是將變量值從小到大排列,位次居于正中間的那個變量值。當數據個數為奇數時,取位次居中的變量值;當為數據個數為偶數時,取位次居中的兩個變量值的平均值。各種分布類 型的資料,特別是偏態分布資料和含有不確定數值的資料。
? 百分位數(percentile)是一種位置指標,用
來表示,讀作第X 百分位分數。
離散趨勢的描述(考試重點)
常用統計指標:極差、四分位數間距、方差、標準差和變異系數。
極差或全距(Range),用R表示:即一組變量值最大值與最小值之差。
四分位數間距,用QR表示:QR=p75-p25 下四分位數:QL=P25 上四分位數;QU=P75 方差(variance)也稱均方差(mean square deviation),反映一組數據的平均離散水平。
標準差:方差的開方
變異系數(coefficient of variation)記為,多用于觀察指標單位不同時的變異程度的比較;或均數相差較大時變異程度的比較。(考試重點)
正態分布的概念:如果隨機變量X的分布服從概率密度函數
?(X??)22?21f(X)?e?2?
???X???則稱服從正態分布,記作
?
N
(?, ?)μ為X的總體均數,?
2為總體方差。X
百分位數法:公式:雙側1-α參考范圍 P100α/2~ P100-100α/2 單側1-α參考范圍 >P100或
醫學參考值(reference value)是指包括絕大多數正常人的人體形態、機能和代謝產物等各種生理及生化指標常數,也稱正常值。由于存在個體差異,生物醫學數據并非常數而是在一定范圍內波動,故采用醫學參考值范圍(medical reference range)作為判定正常和異常的參考標準。
雙側 :即指標過高和過低都不正常,如:血清總膽固醇、血壓、體重等等。
單側: 即僅在指標值過低或過高才被認為不正常,如:血清轉氨酶僅過高異常、肺活量。
計算醫學參考值范圍的常用方法:
? 正態分布法(當資料服從正態分布)
? 百分位數法(當資料不服從正態分布)
抽樣誤差:由于存在個體差異,抽得樣本的均數不太可能恰好等于總體均數,因此通過樣本推斷總體會有誤差。這種由個體變異產生的、抽樣造成的樣本統計量(statistic)與總體參數(parameter)的差異,稱為抽樣誤差。(常考內容)
標準誤(standard error, SE):表示樣本統計量抽樣誤差大小的統計指標。均數標準誤:說明均數抽樣誤差的大小,總體計算公式
??X? n
?t 分布: 若某一隨機變量X服從總體均數為X??、總體標準差為?2N(?, ?),的正態分布則可通過u變換(?)將一般正態分布轉化為標準正態分布N(0,12),即u分布.t 分布特征
1.單峰分布,以0為中心,左右對稱; 2.自由度3.當?越小,則t值越分散,t分布的峰部越矮而尾部翹得越高;
X?逼近?, SX逼近?, t分布逼近u分布,故標準正態分布是t分布的特例
參數估計 :用樣本統計量推斷總體參數。總體均數估計:用樣本均數推推斷總體均數
點估計:就是用相應樣品統計量直接作為其總體參數的估計值。如用ˉX估計μ,S估計σ等。其方法雖簡單,但未考慮抽樣誤差的大小。
區間估計:是按預先給定的概率(1-α)所確定的包含位置總體參數的一個范圍。該范圍稱為參數的可信區間(confidence bound/confidence interval, CI);預先給定的概率1-α稱為可信度或置信度(confidence level),常取95﹪或99﹪,如果沒有特別說明,一般取雙側95﹪。
可信區間的兩個要素
(1)準確度:用可信度(1??)表示:即區間包含總體均數?的理論概率大小。它愈接近1愈好,如99%的可信區間比95%的可信區間要好。
(2)精確度:即區間的寬度。區間愈窄愈精確,如95%的可信區間比99%的可信區間要好。
假設檢驗的步驟
1.建立檢驗假設,確定檢驗水準
① ?=?0:即檢驗假設,常稱無效假設或零/原假設,用H0表示。
② ???0:即備擇假設,常稱對立假設,用H1表示。③ ?:即檢驗水準,也稱顯著性水準。?是預先規定的概率值,它確定了小概率事件的標準。在實際工作中常取?=0.05。2.計算檢驗統計量
應根據變量和資料類型、設計方案、統計推斷的目的、方法的適用條件等選擇檢驗統計量。3.確定P值
按照所選擇的統計方法計算P值。P值的含義是指從H0規定的總體中隨機抽樣,抽得等于及大于(或/和等于及小于)現有樣本獲得的檢驗統計量(如t、u)值的概率。
4.下結論
? 將上述計算所得概率P與檢驗水準?進行比較,判斷其是否為小概率事件,從而得出結論。一般來說,結論應包含統計結論和專業結論兩部分。統計結論只說明有無統計學意義,而不能說明專業上的差異大小。必須將二者結合起來,才能得出符合客觀實際的結論。
? 若P≤?,則結論為按所取的?檢驗水準,拒絕H0,接受H1,有統計學意義(統計結論),可認為……不等或不同(專業結論)。;
? 若P>?,則結論為按?檢驗水準,不拒絕H0,無統計學意義(統計結論),還不能認為……不等或不同(專業結論)。
t檢驗和u檢驗的應用條件
1.t檢驗應用條件
樣本含量n較小時(如n<60)(1)正態分布
(2)方差齊性
2.u 檢驗應用條件
樣本含量n較大,或n雖小但總體標準差已知(1)方差齊性(homogeneity of variance)總變異:全部測量值大小不同,這種變異稱為總變異。
離均差平方和:總變異的大小可以用離均差平方和(sum of squares of deviations from mean,SS)表示,即各測量值Xij與總均數差值的平方和,記為SS總。
組間變異:各處理組由于接受處理的水平不同,各組的樣本均數(i=1,2,…,g)也大小不等,這種變異稱為組間變異。其大小可用各組均數與總均數的離均差平方和表示,記為SS組間。
均方差,均方(mean square,MS)。
MS組間?MS組內?SS組間?組間SS組內?組內完全隨機設計:(completely random design)是采用完全隨機化的分組方法,將全部試驗對象分配到g個處理組(水平組),各組分別接受不同的處理,試驗結束后比較各組均數之間的差別有無統計學意義,推論處理因素的效應。
隨機區組設計(randomized block design)又稱為配伍組設計,是配對設計的擴展。具體做法是:先按影響試驗結果的非處理因素(如性別、體重、年齡、職業、病情、病程等)將受試對象配成區組(block),再分別將各區組內的受試對象隨機分配到各處理或對照組。
率:說明某現象發生的頻率或強度。常以百分率(%)、千分率(‰)、萬分率(1/萬)、十萬分率(1/10萬)等表示,計算公式為:某時期內發生某現象的觀察單位數率??比例基數 同期可能發生某現象的觀察單位總數
構成比:表示事物內部某一部分的個體數與該事物各部分個體數的總和之比,用來說明各構成部分在總體中所占的比重或分布。通常以100%為比例基數。
相對比簡稱比(ratio),是兩個有關指標之比,說明兩指標間的比例關系。兩個指標可以是性質相同,如不同時期發病數之比;也可以性質不同,通常以倍數或百分數(%)表示。
應用相對數的注意事項
1、計算相對數應有足夠數量即分母不宜太小。
2、不能以構成比代替率 3.正確計算合計率 4.注意資料的可比性
動態數列(dynamic series):是一系列按時間順序排列起來的統計指標(可以為絕對數,相對數或平均數),用以觀察和比較該事物在時間上的變化和發展趨勢。常用的動態數列分析指標有:絕對增長量、發展速度與增長速度、平均發展速度與平均增長速度。
二項分布(binomial distribution)是指在只會產生兩種可能結果如“陽性”或“陰性”之一的n次獨立重復試驗(常常稱為n重Bernoulli試驗)中,當每次試驗的“陽性”概率保持不變時,出現“陽性”的次數X=0,1,2,…,n的一種概率分布。
二項分布的適用條件
1.每次試驗只會發生兩種對立的可能結果之一,即分別發生兩種結果的概率之和
恒等于1;
2.每次試驗產生某種結果(如“陽性”)的概率π固定不變;
3.重復試驗是相互獨立的,即任何一次試驗結果的出現不會影響其它試驗結果出
現的概率。
Poisson分布(Poisson distribution)作為二項分布的一種極限情況,已發展成為描述小概率事件發生規律性的一種重要分布。Poisson分布是描述單位面積、體積、時間、人群等內稀有事件(或罕見事件)發生數的分布。
Poisson分布的適用條件
假定在規定的觀測單位內某事件(如“陽性”)平均發生次數為λ,而其樣本計數為X(X=0,1,2,?)。則在滿足下面三個條件時,有X~P(λ)。
1.普通性
在充分小的觀測單位上X的取值只能為1個,不能同時取多個值。2.平穩性
X的取值只與觀測單位的大小有關,而與觀測單位的位置無關。
3.獨立增量性
在某個觀測單位上X的取值與其他各觀測單位上X的取值無關。
卡方檢驗目的:推斷兩個總體率或構成比之間有無差別
多個總體率或構成比之間有無差別
多個樣本率的多重比較
兩個分類變量之間有無關聯性
頻數分布擬合優度的檢驗。檢驗統計量:X2 應用:計數資料
X2分布的一個基本性質是可加性
參數檢驗
如果總體分布為已知的數學形式,對其總體參數作假設檢驗。如: t 檢驗和 F 檢驗。
非參數檢驗:對總體分布不作嚴格假定,又稱任意分布檢驗(distribution-free test),它直接對總體分布作假設檢驗。
秩轉換的非參數檢驗應用范圍: 對于計量資料:
1.不滿足正態和方差齊性條件的小樣本資料;
2.分布不明的小樣本資料;
3.一端或二端是不確定數值(如<0.5、>5.0等)的資料(必選); 對于等級資料: 若選行×列表資料的 x2檢驗,只能推斷構成比差別,而選秩轉換的非參數檢驗,可推斷等級強度差別。
wilcoxon秩和檢驗,用于推斷兩個獨立樣本所來自的兩個總體分布是否有差別。
直線回歸
目的:研究應變量Y對自變量X的數量依存關系。
特點:統計關系。X值和Y的均數的關系,不同于一般數學上的X 和Y的函數關系。
回歸模型的前提條件:線性(linearity)獨立(independent)正態(normal)等方差(equal variance)
??a?bX(9?1)直線回歸方程的一般表達式為
Ya 為回歸直線在 Y 軸上的截距,b為回歸系數,即直線的斜率.殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離。
直線回歸方程的求法:原則:最小二乘法(least sum of squares),即可保證各實測點至直線的縱向距離的平方和最小.22SSlll2回決定系數(coefficient of determination)R??XYXX?XYSS總lYYlXXlYY
取值在0到1之間且無單位,其數值大小反映了回歸貢獻的相對程度,也就是在Y的總變異中回歸關系所能解釋的百分比。
(Y?Y)SSSS總=SS回+SS殘,總即?,為Y的離均差平方和,表示未考慮X與Y的回歸關
2系時Y的總變異。
直線相關(linear correlation)又稱簡單相關(simple correlation),用于雙變量正態分布(bivariate normal distribution)資料。目的:研究兩個變量X,Y數量上的依存(或相關)關系。特點:統計關系
相關系數(correlation coefficient)又稱Pearson積差相關系數,用來說明具有直線關系的兩變量間相關的密切程度與相關方向。
相關系數沒有單位,其值為-1≥ r≥ 1。r值為正表示正相關,r值為負表示負相關,r的絕對值等于1為完全相關,r=0為零相關。
(X?X)(Y?Y)l樣本相關系數的計算公式為
r??XY lXXlYY(X?X)2(Y?Y)2
秩相關適用條件:雙變量計量資料: ①資料不服從雙變量態分布; ②總體分布型未知,???一端或兩端是不確定數值(如<10歲,≥65歲)的資料;原始數據(一個或兩個變量值)用等級表示的資料。
曲線擬合: 當發現散點圖中應變量 Y 和自變量 X 間表現出非線性趨勢時,可以通過曲線擬合方法來刻畫兩變量間數量上的依存關系。
幾種曲線擬合:對數曲線、指數曲線、拋物線、S型曲線
統計表(statistical table)是表達統計分析結果中數據和統計指標的表格形式;
統計圖(statistical graph)是用點、線、面等各種幾何圖形來形象化表達統計數據。
制表的基本要求
(1)標題:概括表的主要內容,包括研究的時間、地點和研究內容,放在表的上方。
(2)標目:分別用橫標目和縱標目說明表格每行和每列數字的意義,注意標明指標的單位。(3)線條:至少用三條線,表格的頂線和底線將表格與文章的其它部分分隔開來,縱標目下橫線將標目的文字區與表格的數字區分隔開來。部分表格可再用橫線將合計分隔開,或用橫線將兩重縱標目分割開。其它豎線和斜線一概省去。
(4)數字:用阿拉伯數字表示。無數字用“—”表示,缺失數字用“?”表示,數值為0者記為“0”,不要留空項。數字按小數位對齊。(5)備注:表中數字區不要插入文字,也不列備注項。必須說明者標“*”號,在表下方說明。
常用統計圖
1.直條圖(bar chart)2.圓圖(pie chart)和百分比條圖(percent bar chart)3.線圖(line graph)4.直方圖(histogram)5.統計地圖(statistical map)6.其他特殊分析圖
箱式圖(box plot)莖葉圖(stem-leaf plot)誤差條圖(error bar chart)
線圖是用線段的升降來表示數值的變化,適合于描述某統計量隨另一連續性數值變量變化而變化的趨勢,最常用于描述統計量隨時間變化而變化的趨勢。
箱式圖(box plot)使用5個統計量反映原始數據的分布特征,即數據分布中心位置、分布、偏度、變異范圍和異常值。箱式圖的箱子兩端分別是上四分位數和下四分位數,中間橫線是中位數,兩端連線分別是除異常值外的最小值和最大值。另外標記可能的異常值。
多因素試驗資料的方差分析設計類型:析因設計 各因素各水平的全面組合 處理組合數 g = 各因素水平數之積。
正交試驗:非全面組合,g個處理組是各因素 各水平的部分組合,即析因設計 的部分實施。
嵌套試驗:非各處理因素各水平的全面組合,而是各因素按隸屬關系系統分組,各因素水平沒有交叉。
裂區設計:兩因素析因設計的特殊形式。
單獨效應 指其他因素的水平固定時,同一因素不同水平間的差別。主效應 指某一因素各水平間的平均差別/不考慮其他因素下的效應。
交互作用 當某因素的各個單獨效應隨另一因素變化而變化時,則稱這兩個因素間存在交互作用。
析因設計變異分解 SS總?SS處理?SS誤差 ?SSA?SSB?SSAB?SS誤差
重復測量資料
目的:推斷處理、時間、處理×時間作用于試驗對象的試驗指標的作用。
資料特征:處理因素 g(≥1)個水平,每個水平有n個試驗對象,共計 gn個試驗對象。時間因素 同一試驗對象在m(≥2)個時點獲得m個測量值,共計gnm個測量值。方法:方差分析
單組前后測量設計與配對設計的區別區別
區別點 配對設計 單組前后測量設計
N 兩實驗單位 可隨機分配
觀測時間 同期 兩時間點 N 試驗數據與差值關系 獨立
分析指標平均差值平均差值、相關回歸
推斷 組間差別 前后差別
logistic回歸 分析目的:作出以多個自變量(危險因素)估計應變量(結果因素)的logistic回歸方程。屬于概率型非線性回歸。
用途:研究某種疾病或現象發生和多個危險因素(或保護因子)的數量關系。
logistic回歸種類: 1.成組(非條件)logistic回歸方程。2.配對(條件)logistic回歸方程。
優勢比OR(odds ratio)流行病學衡量危險因素作用大小的比數比例指標。計算公式為:
P/(1?P 1)ORj?1 P0/(1?P0)
logistic回歸的應用及注意事項 1.流行病學危險因素分析 2.便于控制混雜因素效應 3.預測與判別
等級變量和無序分類變量的數量化 樣本含量的計算(經驗標準和科學計算)
模型擬合優度(偏差、顯著性檢驗、假決定系數、AIC、BIC和預測準確率)二分類logistic回歸、有序logistic回歸和多分類logistic回歸的選擇
第三篇:統計學復習總結
3.樣本:從總體中抽樣部分個體的過程稱為抽樣,所抽得的部分為樣本。(從樣本中隨機抽取的有代表性的一部分)
4.統計量:是統計理論中用來對數據進行分析、檢驗的變量。
5.頻率:是指單位時間內完成振動的次數,是描述振動物體往復運動頻繁程度的量。
6.概率:是描寫某一事件發生的可能性大小的一個量度。
8.系統誤差:在收集資料過程中,由于儀器初始狀態未調整到零、標準試劑未經校正、醫生掌握療效標準偏高或偏低等原因,可造成觀察結果傾向性的偏大或偏小。
9.隨機測量誤差:在收集原始資料過程中,即使儀器初始狀態及標準試劑以校正,但是由于各種偶然因素的影響也會造成同一對象多次測定的結果完全不一致。這種誤差往往沒有固定的傾向,有時高有時低。
12.標準誤:也稱標準誤差,即樣本均數的標準差,是描述均數抽樣分布的離散程度及衡量均數抽樣誤差大小的尺度。
13.標準差:是一種表示分散程度的統計觀念。
14.指標:指預期中打算達到的指數、規格、標準。
15.相對數:是兩個相關的絕對數之比,也可以是兩個統計指標之比。
16.率:表示在一定范圍內某現象的發生數與可能發生的總數之比,說明某現象出現的強度活頻率。
17.構成比:表示某事物內部各組成部分在整體中所占的比重,常以百分比表示。
18.相對比:是A、B兩個關聯指標之比,用以描述兩者的對比水平。19 統計學是一門用于觀察資料的應用科學它具有嚴密的科學邏輯無限的應用性和以高等數學為基礎的計算性它廣泛的涉及到自然科學人文科學和管理科學的各個領域
20醫學統計研究對象及特征同質性 大量性變異性平均數是描述一組同質的計量資料集中趨勢(平均水平)的指標 22 算術均數 是描述一組同質的計量資料集中趨勢(平均水平)的指標
23幾何均數是描述一組同質的呈對數整臺分布的計量資料變異系數的指標 1極差即最大值與最小值之差。四分位數間距2離均差平方和 方差 標準差 變異系數 3方差4標準差5變異系數 25參數估計包括點估計和區間估計搜集資料
一資料來源
1統計報表
2報告卡如報出生率換染率
3日常工作記錄如 住院病歷
4專題研究或實驗研究
5學術專題研究會討論會經驗交流會
6圖書資料
7國際互聯網
二資料要求
(一)三性及時性 正確性完整性
(二)四原則對照原則均衡原則隨機化原則重復原則
三 整理資料核對 2 分組按質量等級分組3 歸納 手工法 機械法 4 列表
1.什么叫醫學統計學?醫學統計學與統計學、衛生統計學、生物統計學有何聯系與區別?
醫學統計學:是統計學的重要應用領域,它運用概率論、數理統計的原理和方法,結合醫學實踐,闡述統計設計的基本原理和步驟,研究資料和信息收集、整理和分析,進行科學推斷的一門應用統計學。醫學統計學與生物統計學、衛生統計學是統計學原理和方法在互有聯系的不同學科領域的應用,三者間既有區別,又有交叉,故難以截然劃定界限。生物統計學應用于生物學研究,從生物范疇的角度來看,顯然比醫學統計學的范圍更廣,其原理和方法一般均可應用于醫學研究。醫學統計學和衛生統計學均應用于醫學研究,而前者側重于醫學的生物性方面,后者側重于公共衛生學的社會性方面。
2.標準差和標準誤有何區別和聯系?
區別:標準差與標準誤的意義、作用和使用范圍均不同。
(1)標準差一般用s 表示,是表示個體間變異大小的指標,反映了整個樣本對樣本平均數的離散程度,是數據精密度的衡量指標。
標準誤一般用sx 表示,反映樣本平均數對總體平均數的變異程度,從而反映抽樣誤差的大小,是量度結果精密度的指標。
(2)隨著樣本數(或測量次數)n 的增大, 標準差趨向某個穩定值,即樣本標準差s 越接近總體標準差σ。
標準誤則隨著樣本數(或測量次數)n 的增大逐漸減小,即樣本平均數越接近總體平均數μ;故在實驗中也經常采用適當增加樣本數(或測量次數)n 減小sx 的方法來減小實驗誤差,但樣本數太大意義也不大。
(3)標準差是最常用的統計量, 一般用于表示一組樣本變量的分散程度,當資料呈正態分布時,與均數結合可估計正常值范圍,計算變異系數等
標準誤一般用于統計推斷中,主要包括假設檢驗和參數估計,如樣本平均數的假設檢驗、參數的區間估計與點估計等。
聯系:標準差與標準誤盡管都是反映變異程度的指標。標準誤是標準差的1/ n;二者都是衡量樣本變量(觀測值)隨機性的指標,只是從不同角度來反映誤差;二者在統計推斷和誤差分析中都有重要的應用。
3.方差分析的基本思想是什么?
通過分析研究中不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。將總變異及自由度按其來源分解
4.常用相對數指標有哪些?它們在計算和意義上有何不同? 常用的有率、構成比和相對比,5.x2檢驗的適用范圍和各個公式的適用條件是什么?
6.簡述非參數統計方法的概念及適用范圍?
在對總體的分布不作假設或僅作非常一般性假設條件下的統計方法
稱為“非參數統計”。適用范圍:(1)待分析數據不滿足參數檢驗所要求的假定,因而無法應用參數檢驗。(2)僅由一些等級構成的數據,不能應用參數檢驗。(3)所提的問題中并不包含參數,也不能用參數檢驗。(4)當我們需要迅速得出結果時,也可以不用參數統計方法而用非參數統計方法來達到目的。
7.非參數統計方法有何優缺點?
優點 1等級資料2對資料沒有特殊要求總體為偏態總體分布未知計量資料(N《30)有過大或過小的數值 3總體方差不齊
缺點檢驗效率低容易犯第二類錯誤
8.相關與回歸的區別與聯系?
回歸分與相關分的聯系:研究在專業上有一定聯系的兩個變量之間是否存在直線關系以及如何求得直線回歸方程等問題,需進行直線相關和回歸分析。從研究的目的來說,若僅僅為了了解兩變量之間呈直線關系的密切程度和方向,宜選用線性相關分析;若僅僅為了建立由自變量推算因變量的直線回歸方程,宜選用直線回歸分析。從資料所具備的條件來說,作相關分析時要求兩變量都是隨機變量;作回歸分析時要求因變量是隨機變量,自變量可以是隨機的,也可以是一般變量。差別主要是:(1)在回歸分析中,y被稱為因變量,處在被解釋的特殊地位,而在相關分析中,x與y處于平等的地位,即研究x與y的密切程度和研究y與x的密切程度是一致的;(2)相關分析中,x與y都是隨機變量,而在回歸分析中,y是隨機變量,x可以是隨機變量,也可以是非隨機的,通常在回歸模型中,總是假定x是非隨機的;(3)相關分析的研究主要是兩個變量之間的密切程度,而回歸分析不僅可以揭示x對y的影響大小,還可以由回歸方程進行數量上的預測和控制。
9.直線相關與等級相關有何區別?
直線相關又稱為簡單相關,是探討服從正態分布的兩個隨機變量X和Y有無線性相關關系的一種統計分析方法。直線相關的性質可由散點圖直觀地說明。等級相關又稱秩相關,方法簡單,易學易用,適用范圍較廣;兩事物或現象間是否存在直線相關關系,也可用等級相關來檢驗。尤其適用于某些指標不便準確地測量,而只能以嚴重程度、成效大小、名次先后或綜合判斷等方式定出等級或次序的資統計工作的基本步驟 1 統計設計2資料搜集3資料整理4資料分析
第四篇:生物統計學總結
生物統計學學習心得
這學期要結束了,在老師的指導下,經過一學期對生物統計學的學習,我對生物統計學有了進一步的理解。下面是我學習這門課程的一些收獲和體會,還有對生物統計學簡單的總結。
1.收獲
生物統計學是在生物的基礎上進行數學統計分析,具有很強的邏輯性。在運用的過程中,公式較多,應用性強,需要多記多用,才能充分的發揮其功能。生物統計學的內容包括試驗設計、資料整理與描述、統計假設檢驗、方差分析等。這門課程,讓我學會了怎樣根據實際情況進行試驗設計(制定試驗方案、實施試驗方案、分析實驗結果);學會了怎樣從一堆無規則的數據中提取有用的信息,通過整理數據和分析,進行相應的假設從而得出結論。
2.體會
2.1生物統計學的作用
生物統計學為人們提供了數據整理和分析方法;提供了由樣本推斷總體的方法;判斷實驗效應的真實性和分析現象間的關系;提供了設計試驗的原則和方法。它是一種方法論,在生物領域有著不可或缺的地位。它為我們提供了解決實驗過程中各種疑難雜癥的方法,有了生物統計,再復雜的數據也不攻自破。
2.2怎樣學好生物統計學
當我剛接觸到生物統計學時,感覺它是一門很揪心的科目,部分理論非常抽象,學起來很困難。后來在老師的講解下慢慢的覺得,其實它也沒那么難。學習生物統計時不要老想去完全明白那些理論的每一個字,只要在老師的講述下理解了那些理論的含義,然后通過例題將這些理論帶到實踐中去,基本上就可以學會了。所以想要學好生物統計,就要先學會理解。最基本的就是熟悉概念,這樣在審題的時候就能立刻明白題目的主干意思,有利于進一步尋找解題方案。明白了題目意思后,搜索腦海中所學的試驗方法,選擇相應的試驗方案,就是什么類型的題目,對應什么類型的解題方案,這樣才能解決一道困難的題目。為了更深入的學習生物統計,除了要求平時上課仔細聽課,課后的作業也要認真完成,還要學會總結分類,這樣對書本的知識點就有一個全面的了解,鞏固了對生物統計學
內容的掌握。生物統計很重要,我們一定要學好。不管是對于生物這門學科,還是對于我們的生活,它都有很大的幫助。
3.總結
生物統計學是運用數理統計的原理和方法來分析和解釋生物界各種現象和試驗調查資料的一門科學,是現代生物學研究不可缺少的工具。
通過學習生物統計學,就個人而言,我收獲了很多。生物統計學是貫穿生物學科的一門重要工具,我們要充分認識到它的重要性,積極主動的學好生物統計,以便于以后的研究發展。同時,對于還有一年就畢業了的我們,專業知識儲備的還并不夠,所以我們應該養成每天學習的習慣,不斷的提高自己,并好好珍惜眼前學習的機會。
第五篇:統計學基礎總結
統計學基礎 第一章
1、政治算術學派最早的統計學源于17世紀英國。其創始人物是威廉·配第,代表作《政治算術》,另一創始人約翰~特朗特。政治算術學派被稱為“無統計學之名,有統計學之實”。
2、國勢學派又稱記述學派,產生于18世紀的德國。其主要代表人物是海爾曼·康令(H.Conrin2,1606—1681)和阿亨華爾(G.Achenwall,1714—1772)該學派在進行國勢比較分析中,偏重事物性質的解釋,而不注重數量對比和數量計算,但卻為統計學的發展奠定了經濟理論基礎。
3、數理統計學派創始人凱特勒,他被稱為“近代統計學之父”。
4、社會統計學派代表人厄恩斯特.。恩格爾和喬治。洪。梅爾
5、統計數據對所要研究的現象觀察、測量的結果。統計數據分為以下四種類型:定類數據——表現為類別,但不區分順序,是由定類尺度計量形成的。定序數據——表現為類別,但有順序,是由定序尺度計量形成的。定距數據——表現為數值,可進行加、減運算,是由定距尺度計量形成的。定比數據——表現為數值,可進行加、減、乘、除運算,是由定比尺度計量形成的。
6、統計學的特點:總體性、數量型、歸納性。
7、統計學的研究方法:大量觀察法、統計描述法、統計推斷法、統計模型法。
總體是客觀存在在某一相同性質基礎上結合的許多個別事物的整體。特征:大量性、同質性、變異性、相對性。其中反映總體單位特征為標志,可變的標志又稱變量。可變標志按其性質特征可分為品質標志和數量標志。標志具體取值稱為統計數據。
8、統計指標是反映同類社會經濟現象總體綜合數量特征的范疇及其具體數值。特性:數量性、綜合性、具體性。其所反映總體現象的數量特性的性質不同可分為數量指標和質量指標。數量指標是表明現象總體絕對數量的多少指標,反映了總體外延的廣度、規模大小、以及其發展成果多少的總和。質量指標總體內部數量關系和總體水平的指標,反應本身質量、現象的強度管理工作的質量等的統計指標,用來說明總體的質的屬性。第二章
1、調查方式:a、抽樣調查根據隨機的原則從總體中抽取部分實際數據進行調查,并運用概率估計方法,根據樣本數據推算總體相應的數量指標的一種統計分析方法。其特點:1】調查樣本是按隨機的原則抽取的。2】按照一定的置信度推斷總體。3】其中誤差可事先控制和計算的。b、普查:為了某種特定的目的而專門組織的一次性的全面調查。其特點:1】普查通常是一次性的或周期性的2】規定統一的普查期限和統一的標準時點3】普查的數據一般比較準確,規范化程度也較高。C、統計報表d、偶遇抽樣e、判斷抽樣
2、調查方法常見的有訪問法(又包含座談會、面談訪問、電話調查)、觀察法、實驗法。
3、調查設計其封閉式問題特點標準化程度高、回答方便、易于歸類和分析,有利于提高有效率。缺點自由度小可能無法反映出有目的、真實的想法。開放式問題與之相對。“杜威十進位分類法”有麥爾維。杜威所創。第三章
1、統計分組原則要遵循窮盡原則和互斥原則。窮盡原則就是總體中的每一個單位都有組可歸。互斥原則就是在特定的分組標志下,總體中的任何一個單位只能歸屬于某一組,而不能同時歸屬于幾個組。
2、累計頻數:依照各分組的頻數逐級累加起來。是向上累計頻數,也可以是向下累計頻數。向上累計頻數分布是先列出各組的上限,然后由標志值低的組向標志值高的組依次累計頻數。向下累計頻數分布是先列出各組的下限,然后由標志值高的組向標志值低的組依次累計頻數。
3、定距數據分組的方法:單項分組和組距分組。A、單項分組適用于離散型變量的數據,并且范圍不大的分組,按變量的大小順序排列的。B、組距分組就是一個數值區間,適用于連續性變量或變動范圍大的離散型變量的數據分組。a、組數和組距,組距分組每個組的最大值為組的上線,最小值為組的下線。其上下線的間距為組距,m=1+3.322lgN(N為總次數)組數與組距(i):i=R/m.。b、組距兩端的數值稱為組限,上限與下限之間的中點數值稱為組中值,開口組有上限無下限或有下限無上限的分組。閉口組既有上限由又下線。開口組組中值=下限+鄰組組距/2,下開口組組中值=上限-鄰組組距/2,組中值=(上限+下限)/2。
4、統計圖的結構:標題、坐標軸和網格線、圖標區和繪圖區、圖例。有餅圖與條形圖。分組數據用直方圖與折線圖來表達,未分組用莖葉圖。第四章
1、總量指標用來反映社會經濟現象在一定條件下的總規模、總水平或工作總量的統計指標,總量指標用絕對數表示。可分為a、時期指標和時點指標,時期指標:不同時期指標數值具有可加性,相加后表示較長時期現象總的發展水平;指標數值大小與包含的時期長短有直接聯系;指標數值是連續登記累計的結果。而時點指標的特點正好相反。(二者區別)b、計量單位不同又分實物指標(用實物單位計量的總量指標)、價值指標(用貸幣單位計量的總量指標)、勞動量指標(用勞動量單位計量的總量指標)。
2、a、動態相對指標=報告期指標/基期指標·100%b、計劃完成程度相對指標=實際完成數/計劃數·100%特點:分子分母不得互換,判斷計劃完成程度好壞,是指標而定。計劃指標是絕對數、相對數、平均數。
3、計算和使用相對指標的原則:遵循可比性原則、相對指標和絕對數綜合應用、選好對比的基數、各種相對指標需綜合使用。
4、平均指標的作用:反應總體分布的集中趨勢、利用平均指標便于對比分析、利用平均指標便分析現象之間的依存關系、平均指標是制定定額的依據、利用平均指標可做數量上的推算。
5、加權算術平均數=x1*f1+x2*f2+x3*f3+??xn*fn / f1+f2+f3+??.fn=∑xifi/∑fi。X為各組變量值,f為各組頻數。
6、調和平均數可分為簡單調和平均數與加權調和平均數。簡單調和平均數。
幾何平均數:指n個觀察值連乘積的n次方根G=n√(IIX),幾何平均數的對數等于變量值對數的算術平均數。眾數,若變量值不同,則無眾數。M0,來表示。
L——眾數所在組下限; U——眾數所在組上限——眾數所在組次數與其下限的鄰組次數之差——眾數所在組次數與其上限的鄰組次數之差; d——眾數所在組組距。Q。中位數:當變量值的項數N為奇數時,處于中間位置的變量值即為中位數;當N為偶數時,中位數則為處于中間位置的2個變量值的平均數。其中算術平均數、調和平均數、幾何平均數適用于定距數據,故又數值平均數。中位數適用于反映定序以及上層次數據,適用于定序數刻畫。眾數適用于所有,主要用于定類數據刻化。
7、標志變異指標測定方法:全距、平均差、標準差、標準差系數。全距:ω=XH-XL其中的ω為全距,XH為最大值,XL為最小值。平均差:a、簡單平均式=(∑|x-x'|)÷n ,加權平均數見課本p98.標準差:公式見課本P98標準差越大表明標志變動程度越大,因而平均數代表性越小,越小則反之。是非數據標準差:P101.第五章
1、時點數列中的指標數值與時點間隔的長短無直接聯系,指標數值是現象在一段時間內增減抵消的后果,故而時點數列不具有可加性。編制時間數列應遵循的原則:時間長短的可比性、總體范圍的可比性、經濟內容可比性、計算方法的一致性。
2、發展水平,既可作為總量會標,亦可是相對指標或平均指標。發展速度=報告期水平/基期水平
3、移動平均法
第六章
1、統計指數種類:數量指標指數與質量指標指數、.個體指數和總指數.動態指數和靜態指數、。定基指數和環比指數。數量指標指數反映現象總體的規模和水平的變動狀況,如產量指數,職工人數指數等。質量指標指數則反映現象總體內涵質量的變動,如商品物價指數,勞動生產率指數等。質量指數P155,。
2、平均指數以指數化因素的個體指數為基礎,通過對個體指數的加權平均而計算的一種總指數。它是編制總指數的又一種重要形式。平均指數與綜合指數不同:a、編制思路不同,其性質有不同,綜合指數 先綜合,后對比,平均指數 先對比,后平均。B、使用權數不同,綜合指數依同度量因素為權數,平均數一價值量指標為權數。C、對資料的要求不同。
3、消費價格指數,其居民消費價格指數變動外,亦可分為 貨幣購買力指數=1/居民消費價格指數 職工實際工資指數=職工名義工資指數/居民消費價格指數
通貨膨脹指數=報告期居民消費價格指數/基期居民消費價格指數 第七章
1、分層抽樣優點:a、即可對總體進行估計,又可對各層的子總體進行估計。b、按照自然區域分層,又可對行政區域進行分層。C、樣本分布在各個層內,從使樣本在總體中分布較均勻。d、可以提高精確度。遵循的原則:根據研究目的分層、遵循“層內同質,層間差異”。方法:等數分配分層抽樣、等比例分層抽樣、不等比例分層抽樣。
2、樣本均值、樣本方差、樣本比例都是隨機變量。
3、樣本均值的抽樣分布樣本均值的抽樣分布是所有的樣本均值形成的分布,即μ的概率分布。樣本均值的抽樣分布在形狀上卻是對稱的。隨著樣本量n的增大,不論原來的總體是否服從正態分布,樣本均值的抽樣分布都將趨于正態分布,其分布的數學期望為總體均值μ,方差為總體方差的1/n。這就是中心極限定理 第八章
1、抽樣推斷方法:參數估計和假設檢驗。抽樣推斷特點:根據樣本資料對總體熟數量的特征做出具有一定可靠性的估計與推斷、按隨機原則從總體中抽取樣本單位、必然會產生誤差。
2、參數估計:是根據從總體中抽取的樣本估計總體分布中包含的未知參數的方法。Θ表示總體參數。矩估計法英國統計學家皮爾遜,極大似然估計法由費雪提出。
3、樣本容量與置信水平成正比,在其他條件下不變的情況下,置信水平越大,所需的樣本容量就越大;樣本容量與總體方差成正比,總體的差異越大,所需的樣本容量就越大;樣本容量與邊際誤差的平方成反比。第九章
1、假設檢驗的依據:在一個已知的假設下,若某個事件發生概率很小,通常認為,該假設不成立。
2、兩類錯誤:把原假設真時拒絕原假設所犯的錯誤,即棄真的錯誤,稱為第一類錯誤;原假設假時沒有拒絕原假設所犯的錯誤,稱為第二類錯誤。
3、在二項分布中,當n很大時,np和n(1-p)都大于5時,可用正態來逼近。第十章
1、變量的關系分兩種:函數關系,變量之間保持著嚴格依存的關系,呈現一一對應的特征,例如圓面積與半徑;相關關系,變量之間保持著不確定的依存關系。相關關系特點:現象之間存在著數量上的依存關系、現象之間數量的關系不確定與不嚴格的依存關系。
2、相關關系的分類:按其程度分為完全不相關、不完全相關與不相關;按相關的方向分正相關和負相關;按研究的數量的多少分單相關、偏相關與復相關;按其形式分線性相關與非線性相關。
3、相關分析:用指標去表現現象之間相關關系的方向與密切程度。回歸分析:一種統計學上分析數據的方法,目的在于了解兩個或多個變量間是否相關、相關方向與強度,并建立數學模型以便觀察特定變量來預測研究者感興趣的變量。回歸有英國生物學家高爾頓提出的。
4、相關圖的判斷方法:P245。1.強正相關,即x增大,y顯著地隨之增大,.弱正相關,即x增大,y緩慢地增大 強負相關,即x增大,Y顯著地減小;弱負相關,即x增大,y緩慢減小;非線性相關(又稱曲線相關),即在某界限值之前x增大,y隨之增大或減小,在此界限之后X增大,y又隨之減小或增 ;不相關,即y不隨x的增減而變化
5、相關系數的計算P248.