第一篇:衛生統計學名詞解釋
1.總體:總體(population)是根據研究目的確定的同質的觀察單位的全體,更確切的說,是同質的所有觀察單位某種觀察值(變量值)的集合。總體可分為有限總體和無限總體。總體中的所有單位都能夠標識者為有限總體,反之為無限總體。
樣本:從總體中隨機抽取部分觀察單位,其測量結果的集合稱為樣本(sample)。樣本應具有代表性。所謂有代表性的樣本,是指用隨機抽樣方法獲得的樣本。
2.隨機抽樣:隨機抽樣(random sampling)是指按照隨機化的原則(總體中每一個觀察單位都有同等的機會被選入到樣本中),從總體中抽取部分觀察單位的過程。隨機抽樣是樣本具有代表性的保證。
3.變異:在自然狀態下,個體間測量結果的差異稱為變異(variation)。變異是生物醫學研究領域普遍存在的現象。嚴格的說,在自然狀態下,任何兩個患者或研究群體間都存在差異,其表現為各種生理測量值的參差不齊。
4.計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱為計量資料(measurement data)。計量資料亦稱定量資料、測量資料。.其變量值是定量的,表現為數值大小,一般有度量衡單位。如某一患者的身高(cm)、體重(kg)、紅細胞計數(1012/L)、脈搏(次/分)、血壓(KPa)等
計數資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數稱為計數資料(count data)。計數資料亦稱定性資料或分類資料。其觀察值是定性的,表現為互不相容的類別或屬性。如調查某地某時的男、女性人口數;治療一批患者,其治療效果為有效、無效的人數;調查一批少數民族居民的A、B、AB、O 四種血型的人數等。
等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數,稱為等級資料(ordinal data)。等級資料又稱有序變量。如患者的治療結果可分為治愈、好轉、有效、無效或死亡,各種結果既是分類結果,又有順序和等級差別,但這種差別卻不能準確測量;一批腎病患者尿蛋白含量的測定結果分為 +、++、+++等。
等級資料與計數資料不同:屬性分組有程度差別,各組按大小順序排列。
等級資料與計量資料不同:每個觀察單位未確切定量,故亦稱為半計量資料。
5.概率:概率(probability)又稱幾率,是度量某一隨機事件A發生可能性大小的一個數值,記為P(A),P(A)越大,說明A事件發生的可能性越大。0﹤P(A)﹤1。頻率:在相同的條件下,獨立重復做n 次試驗,事件A 出現了m 次,則比值m/n 稱為隨機事件A 在n 次試驗中出現的頻率(freqency)。當試驗重復很多次時P(A)= m/n。
2.概率是描述隨機事件發生可能性大小的數值,常用P表示。隨機事件概率的大小在0與1之間,P越接近1,表示某事件發生的可能性越大;P越接近0,表示某事件發生的可能性越小。習慣上將P≤0.05的事件,稱為小概率事件,表示在一次實驗或觀察中該事件發生的可能性很小,可視為不發生。6.隨機誤差:隨機誤差(random error)又稱偶然誤差,是指排除了系統誤差后尚存的差。它受多種因素的影響,使觀察值不按方向性和系統性而隨機的變化。誤差變量一般服從正態分布。隨機誤差可以通過統計處理來估計。
抽樣誤差(sampling error)是指樣本統計量與總體參數的差別。在總體確定的情況下,總體參數是固定的常數,統計量是在總體參數附近波動的隨機變量。
7.系統誤差:系統誤差(systematic error)是指由于儀器未校正、測量者感官的某種偏差、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值的兩側,而是有方向性、系統性或周期性地偏離真值。系統誤差可以通過實驗設計和完善技術措施來消除或使之減少。
8.隨機變量:隨機變量(random variable)是指取指不能事先確定的觀察結果。隨機量的具體內容雖然是各式各樣的,但共同的特點是不能用一個常數來表示,而且,理論上講,每個變量的取值服從特定的概率分布。
9.參數:參數(paramater)是指總體的統計指標,如總體均數、總體率等。總體參數是固定的常數。多數情況下,總體參數是不易知道的,但可通過隨機抽樣抽取有代表性的樣本,用算得的樣本統計量估計未知的總體參數。10.統計量:統計量(statistic)是指樣本的統計指標,如樣本均數、樣本率等。樣本統計量可用來估計總體參數。總體參數是固定的常數,統計量是在總體參數附近波動的隨機變量。
11.頻數表(frequency table)用來表示一批數據各觀察值或在不同取值區間的出現的頻繁程度(頻數)。對于離散數據,每一個觀察值即對應一個頻數,如某醫院某年度一日內死亡0,1,2?個病人的天數。對于散布區間很大的離散數據和連續型數據,數據散布區間由若干組段組成,每個組段對應一個頻數。
12.算術均數(arithmetic mean)描述一組數據在數量上的平均水平。總體均數用μ表示,樣本均數用X 表示。
13.幾何均數(geometric mean)用以描述對數正態分布或數據呈倍數變化資料的水平。記為G。
14.中位數(median)Md將一組觀察值由小到大排列,n 為奇數時取位次居中的變量值;為偶數時,取位次居中的兩個變量的平均值。反映一批觀察值在位次上的平均水平。
15.極差(range)亦稱全距,即最大值與最小值之差,用于資料的粗略分析,其計算簡便但穩定性較差。
16.百分位數(percentile)是將n 個觀察值從小到大依次排列,再把它們的位次依次轉化為百分位。百分位數的另一個重要用途是確定醫學參考值范圍。
17.四分位數間距(inter-quartile range)是由第3 四分位數和第1 四分位數相減計算而得,常與中位數一起使用,描述偏態分布資料的分布特征,較極差穩定。
18.方差(variance):方差表示一組數據的平均離散情況,由離均差的平方和除以樣本個數得到。
19.標準差(standard deviation)是方差的正平方根,使用的量綱與原量綱相同,適用于近似正態分布的資料,大樣本、小樣本均可,最為常用。
20.變異系數(coefficient of variation)用于觀察指標單位不同或均數相差較大時兩組資料變異程度的比較。用CV 表示。計算:標準差/均數*100%
21.統計推斷:通過樣本指標來說明總體特征,這種從樣本獲取有關總體信息的過程稱為統計推斷(statistical inference)。
22.抽樣誤差:由個體變異產生的,抽樣造成的樣本統計量與總體參數的差異,稱為抽樣誤差(sampling error)。
23.標準誤及X s :通常將樣本統計量的標準差稱為標準誤。許多樣本均數的標準差X s稱為均數的標準誤(standard error of mean,SEM),它反映了樣本均數間的離散程度,也反映了樣本均數與總體均數的差異,說明均數抽樣誤差的大小。
24.可信區間:按預先給定的概率確定的包含未知總體參數的可能范圍。該范圍稱為總體參數的可信區間(confidence interval,CI)。它的確切含義是:可信區間包含總體參數的可能性是1-α,而不是總體參數落在該范圍的可能性為1-α。
25.參數估計:指用樣本指標值(統計量)估計總體指標值(參數)。參數估計有兩種方法:點估計和區間估計。
26.假設檢驗中P 的含義:指從H0 規定的總體隨機抽得等于及大于(或等于及小于)現有樣本獲得的檢驗統計量值的概率。
27.I 型和II 型錯誤:I 型錯誤(type I error),指拒絕了實際上成立的H0,這類“棄真”的錯誤稱為I 型錯誤,其概率大小用α表示;II 型錯誤(type II error),指接受了實際上不成立的H0,這類“存偽”的誤稱為II 型錯誤,其概率大小用β表示。
28.檢驗效能:1-β稱為檢驗效能(power of test),它是指當兩總體確有差別,按規定的檢驗水準a 所能發現該差異的能力。
29.檢驗水準:是預先規定的,當假設檢驗結果拒絕H0,接受H1,下“有差別”的結論時犯錯誤的概率稱為檢驗水準(level of a test),記為α。
30..率(rate)又稱頻率指標,說明一定時期內某現象發生的頻率或強度。計算公式為:發生某現象的觀察單位數/可能發生某現象的觀察單位總數*100%,表示方式有:百分率(%)、千分率(?)等。
31.構成比(proportion)又稱構成指標,說明某一事物內部各組成部分所占的比重或分布。計算公式為:某一組成部分的觀察單位數/同一事物各組成部分的觀察單位總數*100%,表示方式有:百分數等。
32.比(ratio)又稱相對比,是A、B 兩個有關指標之比,說明A 是B 的若干倍或百分之幾。計算公式為:A/B,表示方式有:倍數或分數等。
33.非參數統計:針對某些資料的總體分布難以用某種函數式來表達,或者資料的總體分布的函數式是未知的,只知道總體分布是連續型的或離散型的,用于解決這類問題的一種不依賴總體分布的具體形式的統計分析方法。由于這類方法不受總體參數的限制,故稱非參數統計法(non-parametric statistics),或稱為不拘分布(distribution-free statistics)的統計分析方法,又稱為無分布型式假定(assumption free statistics)的統計分析方法。
34.參數統計:通常要求樣本來自總體分布型是已知的(如正態分布),在這種假設的基礎上,對總體參數(如總體均數)進行估計和檢驗,稱為參數統計(parametric statistics)
35.秩次:變量值按照從小到大順序所編的秩序號稱為秩次(rank)。36.秩和:各組秩次的合計稱為秩和(rank sum),是非參數檢驗的基本統計量。
37.直線回歸(linear regression)建立一個描述應變量依自變量變化而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸(simple regression)。
38.回歸系數(regression coefficient)即直線的斜率(slope),在直線回歸方程中用b 表示,b 的統計意義為X每增(減)一個單位時,Y平均改變b 個單位。
39.相關系數r:用以描述兩個隨機變量之間線性相關關系的密切程度與相關方向的統計指標。衛生統計學中的概念資料的類型、總體和樣本、參數和統計量、概率和頻率。
(一)資料的類型
1.定量資料亦稱計量資料,其變量值是定量的,表現為數值大小,一般有度量衡單位,如調查某年某地7歲女童的生長發育狀況,以人為觀察單位,女童的身高(cm)、體重(kg)、血紅蛋白(g/L)等均屬定量資料。
2.定性資料亦稱分類資料,其觀察值是定性的,表現為互不相容的類別或屬性,分為兩種情況:
(1)無序分類資料:包括:①二項分類。如調查吸毒者的HIV感染情況,結果分為陽性與陰性兩類,表現為互不相容的兩類屬性。②多項分類。如人類的AB0血型,以人為觀察單位,結果分為A型、B型、AB型與O型,表現為互不相容的多個類別。
(2)有序分類資料:各類之間有程度的差別,給人以“半定量”的概念,亦稱等級資料。如測定某人群某血清學反應,以人為觀察單位,結果可分“-”、“±”、“+”、“++”4級;又如觀察某藥治療十二指腸潰瘍的療效,以每個患者為觀察單位,治療效果分為痊愈、顯效、好轉、無效4級。
(二)總體和樣本
總體就是所有同質觀察單位某種觀察值(即變量值)的集合。樣本是總體中隨機抽取部分觀察單位的觀測值的集合。
(三)參數和統計量
總體的數值特征稱為參數,用希臘字母表示。根據樣本算得的某些數值特征稱為統計量,用英文字母表示。在抽樣研究中,由個體變異產生,隨機抽樣引起的樣本統計量與總體參數之間的差別稱為抽樣誤差。
(四)概率和頻率
概率是描述隨機事件發生可能性大小的數值,常用P表示。隨機事件概率的大小在0與1之間,P越接近1,表示某事件發生的可能性越大;P越接近0,表示某事件發生的可能性越小。習慣上將P≤0.05的事件,稱為小概率事件,表示在一次實驗或觀察中該事件發生的可能性很小,可視為不發生。
在現實中,隨機事件的概率往往是未知的,因此,當觀測單位足夠多時,常用樣本中事件的實際發生率來估計總體概率,這種實際發生率稱為頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現t次,則事件A出現的頻率為t/n.如治療200例患者,120名患者治愈,治愈率為60%,這就是一個頻率。當觀測單位較少時,用頻率估計概率是不可靠的。
第二篇:統計學名詞解釋
中位數:被研究對象各單位的標志值依其大小順序排列,位于標志值數列中間位置的標志值發展速度:兩個不同時期發展水平對比而計算的動態相對數/標志:是說明總體單位特征或屬性的名稱//統計指標;是指表明總體某種數量特征的概念及其數量表現//統計設計;在進行某項具體工作之前,根據統計對象的性質和統計研究的目的要求,對整個統計工作預先制定的實施方案和程序//專門調查:是指為了解決某個專門問題而單獨組織的調查//分配數列:是指在統計分組的基礎上把分配到各組的總體單位數按順序排列起來得到的數列//總量指標:是用來反映社會經濟現象在一定條件下的總規模、總水平或工作總量的統計指標//平均指標:是指代表同質總體各單位某一數量標志值一般水平的統計指標//隨機變量:指的是影響變量值變動的因素很多,作用不同,因而變量值變動無確定方向,有偶然性//統計指標體系:在統計上,由多種相互聯系、相互依存的統計指標結合而成的,具有特定功能的有機整體就稱統計指標體系//統計整理:是指根據統計研究任務的要求,對統計調查所取得的各項資料進行科學的分類、匯總,為統計分析提供準確、系統、條理得綜合資料的工作過程//變量:就是可以取不同的值得量,在社會經濟統計中,各種數量標志和全部統計指標都是標量//統計調查:按照統計設計的要求和統計研究的目的,運用科學的方法,搜集資料的統計活動過程//相對指標:用對比的方法來反映某些社會經濟現象總體內部的結構,比例,發展狀況以及彼此之間的聯系程度的綜合指標
移動平均法:是采用逐項遞項遞移的辦法計算出一系列擴大時距的序時平均數,并以這一系列序時平均數作為對應的時期的趨勢值//發展速度:是兩個不同時期發展水平對比而計算的動態相對數//增長速度:是各期增長量與基期水平之比,用以說明各期現象增長變化的相對程度//時點指標:是反應事物在某一時點上的狀況//總體變異性:是指總體所有單位至少有一個以上的可變品質標志或數量標志//同質性:單位在某些標志上有共同性//發展水平:是指動態數列中各項具體的指標數值//全面調查:就是對調查對象中全部單位進行的調查//數量標志:表明總體單位數量的方面特征的名稱//無限總體:總體所包括的單位數可以使無限的,叫無限總體//變量值:變量的數值表現稱為變量值//問卷調查:是以問題的形式系統的地記載所要調查內容與質詢問表,向調查對象搜集資料的調查方法
平均指標:是指同類社會經濟現象在一定時間、地點、條件下所達到的一般水平//回歸分析:是測定現象之間聯系的具體形式的統計分析方法//估計標準誤差:用來說明回歸方程推算結果的準確程度的統計分析指標,或者是反映回歸直線代表性大小的統計分析指標//置信度:總體參數落在置信區間內的概率保證程度////抽樣調查:是按照隨機原則從被研究總體中抽選一部分調查單位作為樣本進行調查的,并計算出樣本指標數值,而后用以推算總體指標數值的一種方法//頻數分布:在統計分組的基礎上,將總體中所有單位按組歸類整理,形成總體中各個單位在各組間的分布//抽樣推斷:是在抽樣調查的基礎上,利用樣本的實際資料計算樣本指標,并據以推算總體分布或總體參數的一種統計分析方法/
第三篇:衛生統計學總結
衛生統計學總結
王玉林 石河子大學醫學院預防醫學系
(一)簡答題
一.方差分析的基本思想是什么?
方差分析的基本思想就是把全部觀察值間的變異(總變異)按設計和需要分解成兩個或多個組成部分,然后將各部分的變異與隨機誤差進行比較,以判斷各部分的變異是否具有統計學意義,總自由度也分解成相應的幾個部分,再做分析。分解的每一部分代表不同的含義,其中至少有一部分代表各均數間的變異情況,另一部分代表誤差。
二.標準差和標準誤的區別與聯系?
標準差和標準誤都是變異指標,但它們之間有區別,也有聯系。
1.區別:①概念不同:標準差是描述觀察值(個體值)之間的變異程度;標準誤是描述樣本均
數的抽樣誤差;
②用途不同:標準差與均數結合估計參考值范圍,計算變異系數,計算標準誤等。
標準誤用于估計參數的可信區間,進行假設檢驗等。
③它們與樣本含量的關系不同:當樣本含量 n 足夠大時,標準差趨向穩定;而標
準誤隨n的增大而減小,甚至趨于0。
2.聯系:標準差,標準誤均為變異指標,當樣本含量不變時,標準誤與標準差成正比。
三.假設檢驗的原理是什么?
假設檢驗:統計學中的一種推論過程,通過樣本統計量得出的差異作為一般性結論,判斷總體參數之間是否存在差異。
假設檢驗的實質是對可置信性的評價,是對一個不確定問題的決策過程,其結果在一定概率上正確的,而不是全部。
1.兩類假設
對于任何一種研究而言,其結果無外乎有兩種可能,即是否符合我們預期。一般來說證偽一件事情比證實一件事容易,在行為科學的研究中,由于我們無法了解總體中除樣本以外的個體情況,因此嘗試拒絕虛無假設的方法優于證明備擇假設。備則假設:因變量的變化、差異確實是由于自變量的作用
往往是我們對研究結果的預期,用H1表示。
虛無假設:實際上什么也沒有發生,我們所預計的改變、差異、處理效果都不存在 觀察到的差異只是隨機誤差在起作用,用H0表示。2.小概率原理
小概率原理:小概率事件在一次試驗中幾乎是不可能發生的
至于什么就算小概率事件,那就是我們在計算前明確的決策標準,也就是顯著性水平α。在檢驗過程中,我們假設虛無假設是真實的,同時計算出觀測到的差異完全是由于隨機誤差所致的概率。之后將其與我們實現界定好的顯著性水平比較,從而考慮是否依據小概率原理來拒絕虛無假設。
3.兩類錯誤 第Ⅰ類錯誤:當虛無假設正確時,我們拒絕了它所犯的錯誤,也叫α錯誤 研究者得出了處理有效果的結論,而實際上并沒有效果,即所謂“無中生有” 第Ⅱ類錯誤:當虛無假設是錯誤的時候,我們沒有拒絕所犯的錯誤,也叫β錯誤 假設檢驗未能偵查到實際存在的處理效應,即所謂“失之交臂” 兩類檢驗的關系 ①α+β不一定等于1 ②在其他條件不變的情況下,α與β不可能同時減小或增大 4.檢驗的方向性
單側檢驗:強調某一方向的檢驗,顯著性的百分等級為α
雙側檢驗:只強調差異不強調方向性的檢驗,顯著性百分等級為α/2 對于同樣的顯著性標準,在某一方向上,單側檢驗的臨界區域要大于雙側檢驗,因此如果差異發生在該方向,單側檢驗犯β錯誤的概率較小,我們也說它的檢驗效力更高。5.假設檢驗的步驟
①根據問題要求,提出虛無假設和備擇假設 ②選擇適當的檢驗統計量 ③確定檢驗的方向性并規定顯著性水平④計算檢驗統計量的值 ⑤將統計量的值與臨界值對比做出決策
附:假設檢驗基本推斷原理:小概率事件在一次隨機試驗中不(大)可能發生。
假設檢驗基本邏輯:在零假設成立的情形下計算統計量和P值,把“不太可能出現的 假陽性”當做“不可能出現假陽性”,從而拒絕零假設。
四.直線相關與直線回歸的區別與聯系?
1.區別:①相關分析資料雙變量正態分布,回歸資料只要求Y為正態分布,X可是正態分布
資料,也可為一般變量。
②意義上,相關說明互相關系,回歸反應依存關系。2.聯系:①同一資料,r與b的正負號相同
②r與b的假設檢驗等價,同一資料tb=tr
③用回歸解釋相關R2=SS回/SS總
五.應用相對數時的注意事項?
1.理解相對數的含義不可望文生義 2.頻率型指標的解釋要緊扣總體與屬性 3.計算相對數時分母應有足夠數量 4.正確計算合計率 5.注意資料的可比性 6.樣本相對數的統計推斷
六.非參數檢驗的特點和適用范圍
1.特點:①對樣本所來自的總體分布形式沒有要求。
②收集資料方便,可用“等級”或“符號”來記錄觀察結果。
③多數非參數檢驗方法比較簡便,易于理解和掌握。
④缺點是損失信息量,適用于參數檢驗的資料用非參數檢驗會降低檢驗效能。2.適用范圍:①等級資料。②偏態分布資料。③方差不齊,且不能通過變量變換達到齊性。
④個體數據偏離過大,或一端或兩端無界的資料。⑤分布類型不明。⑥初步分析。七.卡方檢驗的用途?
1.單樣本分布的擬合優度;
2.比較兩個或多個獨立樣本頻率或獨立樣本頻率分布; 3.比較配對設計兩樣本和兩頻率分布。
八.均數比較的方法有哪些?
1.t檢驗
①單樣本資料的t檢驗:樣本均數與總體均屬比較的t檢驗,推斷樣本是否來自已知總體。
應用條件:計量資料,具有獨立性、正態性、方差齊性。
②兩獨立樣本資料的t檢驗:推斷兩樣本總體均數是否相等(或兩樣本是否來自同一總體)。
應用條件:計量資料,具有獨立性、正態性、方差齊性。
③配對設計資料的t檢驗:配對計量資料比較的t檢驗,差值均數的比較,包括異體配對和
自身配對。
應用條件:計量資料,具有獨立性、正態性、方差齊性。2.方差分析
①完全隨機設計資料的方差分析:多個樣本均數的比較。
應用條件:計量資料,具有獨立性、正態性、方差齊性。②隨機區組設計資料的方差分析:多個樣本均數的比較。
應用條件:計量資料,具有獨立性、正態性、方差齊性。
③析因設計資料的方差分析:分析個實驗因素的單獨效應、主效應和因素間的交互效應。
應用條件:計量資料,具有獨立性、正態性、方差齊性。
3.非參數檢驗
①單樣本資料的秩和檢驗:用于不滿足t檢驗條件的單樣本定量變量資料的比較,推斷樣本中位數與已知總體中位數是否相等。
應用條件:計量資料,不具有獨立性、正態性、方差齊性。
②配對設計資料的秩和檢驗:當差值d不滿足正態分布時使用,推斷兩個總體中位數是否相等,即兩種處理效應是否相同。
應用條件:計量資料,差值具有正態性。③兩獨立樣本比較的秩和檢驗:推斷連續型變量資料或有序變量資料的兩個獨立樣本代表的兩個總體分布是否有差別。
應用條件:兩樣本來自非正態總體或方差不齊。
④多組獨立樣本比較的秩和檢驗:推斷定量變量或有序分類變量的多個總體分布有無差別。
應用條件:多個獨立樣本對應總體不滿足正態性或方差齊性。⑤隨機區組設計的秩和檢驗:多個樣本均數的比較。
應用條件:多個獨立樣本對應總體不滿足正態性或方差齊性。
九.參考值范圍和可信區間的區別與聯系
1.從意義來看
95%參考值范圍是指同質總體內包括95%個體值的估計范圍,而總體均數95%可信區間是指按95%可信度估計的總體均數的所在范圍。2.從計算公式看
若指標服從正態分布,95%參考值范圍的公式是:
±1.96s。總體均數95%可信區間的公式是:。
前者用標準差,后者用標準誤。前者用1.96,后者用α為0.05,自由度為v的t界值。
十.頻率分布表(圖)的用途是什么?
1.揭示資料的分布類型
2.描述分布的集中趨勢和離散趨勢 3.便于發現某些特大和特小的可疑值 4.便于進一步計算指標和統計分析
(二)名詞解釋
1.醫學統計學(medical statistics)應用概率論和數理統計學原理結合醫學實際解決醫學科研中設計,資料收集、整理、分析的科學。
2.總體(population)是根據研究目的確定的同質研究對象的全體。3.樣本(sample)是指從研究總體中抽取的一部分有代表性的個體。
4.同質(homogeneity)是指同一總體中個體的性質、影響條件或背景相同或非常相近。5.變異(variation)是指同質的個體之間存在的差異。6.參數(parameter)是指反映總體特征的統計指標。
7.樣本統計量(statistic)由樣本觀察資料計算出來的反映樣本特征的兩稱為樣本統計量。8.頻率分布表(frequency distribution table)當變量值個數較多時,對各變量值出現的頻率列表即為頻率分布表,簡稱頻率表。
9.二項分布(binomial distribution)是指在只會產生兩種可能結果的n次獨立重復試驗中,當每次試驗的“陽性”概率保持不變時,出現“陽性”的次數X=0,1,2,3...,n的一種概率分布。
10.醫學參考值范圍(reference range)是指特定的“正常”人群的解剖、生理、生化指標及組織代謝產物含量等數據中大多數個體的取值所在的范圍。
11.抽樣誤差(sampling error)由于生物固有的個體變異的存在,從某一總體中隨機抽取一個樣本,所得樣本統計量與相應的總體參數往往是不同的,這種差異稱為抽樣誤差。
12.置信區間(confidence interval,CI)區間估計是將樣本統計量與標準誤結合起來,確定一個具有較大置信度的包含總體參數的范圍,該范圍稱為總體參數的置信區間。
13.統計推斷(statistical inference)由樣本信息對相應總體的特征進行推斷稱為統計推斷。14.假設檢驗(hypothesis testing)若對所估計的總體首先提出一個假設,然后通過樣本數據去推斷是否拒絕這一假設,稱為假設檢驗。
15.析因設計(factorial design)是將兩個或多個實驗因素的個水平進行全面組合的實驗,能夠分析個實驗因素的單獨效應、主效應和因素間的交互效應。
16.單獨效應(simple effect)是指其他因素水平固定時,同一因素不同水平的效應之差。17.主效應(main effect)是指某一因素單獨效應的平均值。
18.交互效應(interaction)是指兩個或多個因素間的效應互不獨立的情形。
19.參數檢驗(parametric test)凡是以特定的總體分布為前提,對未知的總體參數做推斷的假設檢驗方法統稱為參數檢驗。
20.非參數檢驗(nonparametric test)不以特定的總體分布為前提,也不針對決定總體分布的幾個參數做推斷,故又稱任意分布檢驗(distribution-free test)。
21.線性相關系數(linear correlation coefficient)是表示兩個隨機變量之間線性相關強度和方向的統計量。
22.回歸系數(regression coefficient)回歸分析中度量依變量對自變量的相依程度的指標,它反映當自變量每變化一個單位時,依變量所期望的變化量。(回歸系數βj表示在控制其他自變量時,自變量Xj變化一個單位所引起logit(π)的改變量)
23.決定系數(coefficient of determination)回歸平方和與總離均差平方和之比稱為決定系數。它反映了回歸貢獻的相對程度,即在因變量Y的總變異中回歸關系所能解釋的比例。24.生存分析(survival analysis)就是將終點事件的出現與否和達到終點所經歷的時間結合起來分析的一類統計分析方法。
第四篇:醫學統計學名詞解釋、簡答、問答
名詞解釋
1.總體:總體(population)是根據研究目的確定的同質的觀察單位的全體,更確切的說,是同質的所有觀察單位某種觀察值(變量值)的集合。總體可分為有限總體和無限總體。總體中的所有單位都能夠標識者為有限總體,反之為無限總體。樣本:從總體中隨機抽取部分觀察單位,其測量結果的集合稱為樣本(sample)。樣本應具有代表性。所謂有代表性的樣本,是指用隨機抽樣方法獲得的樣本。2.隨機抽樣:隨機抽樣(random sampling)是指按照隨機化的原則(總體中每一個觀察單位都有同等的機會被選入到樣本中),從總體中抽取部分觀察單位的過程。隨機抽樣是樣本具有代表性的保證。3.變異:在自然狀態下,個體間測量結果的差異稱為變異(variation)。變異是生物醫學研究領域普遍存在的現象。嚴格的說,在自然狀態下,任何兩個患者或研究群體間都存在差異,其表現為各種生理測量值的參差不齊。4.計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱為計量資料(measurement data)。計量資料亦稱定量資料、測量資料。.其變量值是定量的,表現為數值大小,一般有度量衡單位。如某一患者的身高(cm)、體重(kg)、紅細胞計數(1012/L)、脈搏(次/分)、血壓(KPa)等。計數資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數稱為計數資料(count data)。計數資料亦稱定性資料或分類資料。其觀察值是定性的,表現為互不相容的類別或屬性。如調查某地某時的男、女性人口數;治療一批患者,其治療效果為有效、無效的人數;調查一批少數民族居民的A、B、AB、O 四種血型的人數等。等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數,稱為等級資料(ordinal data)。等級資料又稱有序變量。如患者的治療結果可分為治愈、好轉、有效、無效或死亡,各種結果既是分類結果,又有順序和等級差別,但這種差別卻不能準確測量;一批腎病患者尿蛋白含量的測定結果分為 +、++、+++等。等級資料與計數資料不同:屬性分組有程度差別,各組按大小順序排列。等級資料與計量資料不同:每個觀察單位未確切定量,故亦稱為半計量資料。5.概率:概率(probability)又稱幾率,是度量某一隨機事件A發生可能性大小的一個數值,記為P(A),P(A)越大,說明A事件發生的可能性越大。0﹤P(A)﹤1。頻率:在相同的條件下,獨立重復做n 次試驗,事件A 出現了m 次,則比值m/n 稱為隨機事件A 在n 次試驗中出現的頻率(freqency)。當試驗重復很多次時P(A)= m/n。6.隨機誤差(random error)又稱偶然誤差,是指排除了系統誤差后尚存的差。它受多種因素的影響,使觀察值不按方向性和系統性而隨機的變化。誤差變量一般服從正態分布。隨機誤差可以通過統計處理來估計。抽樣誤差(sampling error)是指樣本統計量與總體參數的差別。在總體確定的情況下,總體參數是固定的常數,統計量是在總體參數附近波動的隨機變量。7.系統誤差:系統誤差(systematic error)是指由于儀器未校正、測量者感官的某種偏差、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值的兩側,而是有方向性、系統性或周期性地偏離真值。系統誤差可以通過實驗設計和完善技術措施來消除或使之減少。8.隨機變量:隨機變量(random variable)是指取指不能事先確定的觀察結果。隨機量的具體內容雖然是各式各樣的,但共同的特點是不能用一個常數來表示,而且,理論上講,每個變量的取值服從特定的概率分布9.參數:參數(paramater)是指總體的統計指標,如總體均數、總體率等。總體參數是固定的常數。多數情況下,總體參數是不易知道的,但可通過隨機抽樣抽取有代表性的樣本,用算得的樣本統計量估計未知的總體參數10.統計量:統計量(statistic)是指樣本的統計指標,如樣本均數、樣本率等。樣本統計量可用來估計總體參數。總體參數是固定的常數,統計量是在總體參數附近波動的隨機變量。11.頻數表(frequency table)用來表示一批數據各觀察值或在不同取值區間的出現的頻繁程度(頻數)。對于離散數據,每一個觀察值即對應一個頻數,如某醫院某一日內死亡0,1,2?個病人的天數。對于散布區間很大的離散數據和連續型數據,數據散布區間由若干組段組成,每個組段對應一個頻數。12.算術均數(arithmetic mean)描述一組數據在數量上的平均水平。總體均數用μ表示,樣本均數用X 表示。13.幾何均數(geometric mean)用以描述對數正態分布或數據呈倍數變化資料的水平。記為G。14.中位數(median)Md將一組觀察值由小到大排列,n 為奇數時取位次居中的變量值;為偶數時,取位次居中的兩個變量的平均值。反映一批觀察值在位次上的平均水平。15.極差(range)亦稱全距,即最大值與最小值之差,用于資料的粗略分析,其計算簡便但穩定性較差。16.百分位數(percentile)是將n 個觀察值從小到大依次排列,再把它們的位次依次轉化為百分位。百分位數的另一個重要用途是確定醫學參考值范圍。17.四分位數間距(inter-quartile range)是由第3 四分位數和第1 四分位數相減計算而得,常與中位數一起使用,描述偏態分布資料的分布特征,較極差穩定。18.方差(variance):方差表示一組數據的平均離散情況,由離均差的平方和除以樣本個數得到。19.標準差(standard deviation)是方差的正平方根,使用的量綱與原量綱相同,適用于近似正態分布的資料,大樣本、小樣本均可,最為常用。20.變異系數(coefficient of variation)用于觀察指標單位不同或均數相差較大時兩組資料變異程度的比較。用CV 表示。計算:標準差/均數*100% 21.統計推斷:通過樣本指標來說明總體特征,這種從樣本獲取有關總體信息的過程稱為統計推斷(statistical inference)。22.抽樣誤差:由個體變異產生的,抽樣造成的樣本統計量與總體參數的差異,稱為抽樣誤差(sampling error)。23.標準誤及X s :通常將樣本統計量的標準差稱為標準誤。許多樣本均數的標準差X s稱為均數的標準誤(standard error of mean,SEM),它反映了樣本均數間的離散程度,也反映了樣本均數與總體均數的差異,說明均數抽樣誤差的大小。24.可信區間:按預先給定的概率確定的包含未知總體參數的可能范圍。該范圍稱為總體參數的可信區間(confidence interval,CI)。它的確切含義是:可信區間包含總體參數的可能性是1-α,而不是總體參數落在該范圍的可能性為1-α。25.參數估計:指用樣本指標值(統計量)估計總體指標值(參數)。參數估計有兩種方法:點估計和區間估計。26.假設檢驗中P 的含義:指從H0 規定的總體隨機抽得等于及大于(或等于及小于)現有樣本獲得的檢驗統計量值的概率。27.I 型和II 型錯誤:I 型錯誤(type I error),指拒絕了實際上成立的H0,這類“棄真”的錯誤稱為I 型錯誤,其概率大小用α表示;II 型錯誤(type II error),指接受了實際上不成立的H0,這類“存偽”的誤稱為II 型錯誤,其概率大小用β表示。28.檢驗效能:1-β稱為檢驗效能(power of test),它是指當兩總體確有差別,按規定的檢驗水準a 所能發現該差異的能力。29.檢驗水準:是預先規定的,當假設檢驗結果拒絕H0,接受H1,下“有差別”的結論時犯錯誤的概率稱為檢驗水準(level of a test),記為α。30..率(rate)又稱頻率指標,說明一定時期內某現象發生的頻率或強度。計算公式為:發生某現象的觀察單位數/可能發生某現象的觀察單位總數*100%,表示方式有:百分率(%)、千分率(?)等。31.構成比(proportion)又稱構成指標,說明某一事物內部各組成部分所占的比重或分布。計算公式為:某一組 1
成部分的觀察單位數/同一事物各組成部分的觀察單位總數*100%,表示方式有:百分數等。32.比(ratio)又稱相對比,是A、B 兩個有關指標之比,說明A 是B 的若干倍或百分之幾。計算公式為:A/B,表示方式有:倍數或分數等。
33.非參數統計:針對某些資料的總體分布難以用某種函數式來表達,或者資料的總體分布的函數式是未知的,只知道總體分布是連續型的或離散型的,用于解決這類問題的一種不依賴總體分布的具體形式的統計分析方法。由于這類方法不受總體參數的限制,故稱非參數統計法(non-parametric statistics),或稱為不拘分布(distribution-free statistics)的統計分析方法,又稱為無分布型式假定(assumption free statistics)的統計分析方法。34.參數統計:通常要求樣本來自總體分布型是已知的(如正態分布),在這種假設的基礎上,對總體參數(如總體均數)進行估計和檢驗,稱為參數統計(parametric statistics)35.秩次:變量值按照從小到大順序所編的秩序號稱為秩次(rank)。
36.秩和:各組秩次的合計稱為秩和(rank sum),是非參數檢驗的基本統計量。37.直線回歸(linear regression)建立一個描述應變量依自變量變化而變化的直線方程,并要求各點與該直線縱向距離的平方和為最小。直線回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸(simple regression)。38.回歸系數(regression coefficient)即直線的斜率(slope),在直線回歸方程中用b 表示,b 的統計意義為X每增(減)一個單位時,Y平均改變b 個單位。
39.相關系數r:用以描述兩個隨機變量之間線性相關關系的密切程度與相關方向的統計指標。
簡答題
1.醫學統計工作的內容:1)實驗設計2)收集資料3)整理資料4)分析資料2.資料的類型:1)計量資料2)計數資料3)等級分組資料。3.抽樣包括四種特征:1)代表性2)隨機性3)可靠性4)可比性。4.頻數表的編制方法和應注意的問題:1)確定組數2)確定組距3)確定組限4)用手工編制劃計表.5.正態分布的幾個主要特征:1)正態分布以均值u為中心,左右對稱。2)正態分布中曲線下面積集中以均值u為中心的中心部分,越遠離中心曲線越接近X軸曲線下面積越小,超過一定范圍以外的面積可以忽略。3)正態分布曲線下的面積分布有一定的規律。4)正態分布完全由參數u和6決定,當6一定后u增大,曲線沿橫軸向右移動,反之u減小曲線沿橫軸向左移動。6.總體均數的估計方法有兩種:
1)點估計2)區間估計7.T分布的特點:分布曲線的形態變化與自由度V(V=N—1)有關,當自由度V逼近OO時,T分布趨向于標準正態分布。8.配對設計主要有三種情況:1)兩種同質受試對象分別接受兩種處理,如:把同窩同性別和體重相近的動物配成一對,或把同性別和年齡相近的相同病人配成一對。2)同一受試對象或同一樣本的兩個部分,分別接受兩種不同處理。3)自身對比,即將同一受試對象處理前后的結果進行比較。9.總體方差具有齊性時的兩獨立樣本T檢驗:兩獨立樣本T檢驗的檢驗統計量在H0:即=0的條件下為:。10.假設檢驗中的兩類錯誤:1)型錯誤:指拒絕了實際上成立的H0即”棄真”的錯誤,其概率用 表示。2)型錯誤:指接受了實際上不成立的H0即“存偽”的錯誤,其概率用 表示。11.相對數常用的種類有:率構成比 相對比12.相對數使用應注意的問題:1)不要把構成比與率相混淆。2)使用相對數時,分母不宜過小。3)要注意資料的可比性。4)要注意使用率的標準化。5)要考慮存在抽樣誤差。13.T分布圖形特征:1)單峰分布:以0為中心,左右對稱,類似于標準正態分布的單峰分布。2)T分布圖形不是一條曲線,而是一族曲線其形態變化與自由度大小有關,自由度越小,則SX越大。T值越分散,曲線的峰部越矮尾部越粗,則T分布曲線越低。3)自由度V越大,T分布越接近于正態分布。14.方差分析的三種變異:1)總變異
2)組間變異3)組內變異自由度V=N-1(例數)V=K-1(組數)V=N-K(例數-組數)15.標準化的意義:是為了在比較兩個不同人群的患病率發病率死亡率等資料時,消除其內部構成(如:年齡性別工齡病情長短等)的影響。16.常用疾病統計的指標:1)發病率:表示某一時期內某人群中患某病新病例的頻率。2)患病率:表示某一時點某人群中患某病的頻率。3)病死率:表示某期間內某病患者中因某病死亡的頻率。4)治愈率:表示接受治療的病人中治愈的頻率。17.X的適用條件:1)當N 40有理論頻數1 T 5時,須對X值進行連續性校正。2)若遇到總倒數N 40或有理論頻數T 1,即使采用校正公式計算的X值也會有偏差。因此,直接計算有利于拒絕H0的概率,以作出檢驗判斷的方法。18.非參數檢驗方法適用于:1)總體分布為偏態或分布形態未知的計量資料2)等級資料3)個別數據偏大或數據的某一端無確定數值4)各組離散程度相差懸殊,即各總體方差不齊。如:有一題需列出:不滿意 滿意 很滿意 非常滿意等,則選用非參數檢驗方法。19.非參數檢驗的優點為:適應性強缺點為:非參數檢驗方法犯第二類錯誤的可能性大于參數檢驗法,對于適合參數檢驗的資料最好還是用參數檢驗20.統計圖通常由五部分組成:1)標題2)圖域3)標目4)圖例5)刻度21.統計圖和統計表的作用:代替文字,以表或圖的形式進行了闡述。22.怎樣確定P值:
(1)當N 25時,可查T界值表,T越小P越小。當N 25時,無法查T界值表,可按近似正態分布用u檢驗(2)如果T值在查表界值內 0.05;如果T值在查表界值外 0.05.23.常用的統計圖有:直系圖 百分系圖 圓圖 直方圖 構成圖。
24.樣本均數的抽樣分布具有以下特點:1)各樣本均數未必等于總體均數2)樣本之間存在差異3)樣本均數的分布很有規律,圍繞著總體均數中間多兩邊少左右基本對稱,也服從對稱分布4)樣本均數變異較原變量的差異大大縮小。25.直方圖與直條圖區別:1)直方圖:適用于表示連續變量頻數分布情況。2)直條圖:適用于無連續關系,各自獨立的統計指標。26.圓圖與百分條圖:1)圓圖:是一種構成圖,適用于構成比資料,在圓圖中圓的總面積表示事物的全部,而圓內的各扇形面積用來表示全體中各部分所占的比。2)百分條圖:也是一種構成圖,用矩形條子的面積表示事物全部,而用其中各段表示各構成部分。27.方差分析的應用條件:各樣本相互獨立且均來自總體方差具有齊性的正態分布。問答題
1、標準正態分布(u分布)與t分布有何異同?
相同點:集中位置都為0,都是單峰分布,是對稱分布,標準正態分布是t分布的特例(自由度是無限大時)
不同點:t分布是一簇分布曲線,t 分布的曲線的形狀是隨自由度的變化而變化,標準正態分布的曲線的形狀不變,是固定不變的,因為它的形狀參數為1。
3、簡述直線回歸與直線相關的區別。
1資料要求上不同:直線回歸分析適用于應變量是服從正態分布的隨機變量,自變量是選定變量;直線相關分析適用于服從雙變量正態分布的資料。兩種系數的意義不同:回歸系數是表明兩個變量之間數量上的依存關系,回歸系數越大回歸直線越陡峭,表示應變
量隨自變量變化越快;相關系數是表明兩個變量之間相關的方向和緊密程度的,相關系數越大,兩個變量的關聯程度越大。
4、抽樣中要求每一個樣本應該具有哪三性?
從總體中抽取樣本,其樣本應具有“代表性”、“隨機性”和“可靠性”。
(1)代表性: 就是要求樣本中的每一個個體必須符合總體的規定。
(2)隨機性: 就是要保證總體中的每個個體均有相同的幾率被抽作樣本。
(3)可靠性: 即實驗的結果要具有可重復性,即由科研課題的樣本得出的結果所推測總體的結論有較大的可信度。由于個體之間存在差異, 只有觀察一定數量的個體方能體現出其客觀規律性。每個樣本的含量越多,可靠性會越大,但是例數增加,人力、物力都會發生困難,所以應以“足夠”為準。需要作“樣本例數估計”。
5、什么是兩個樣本之間的可比性?
可比性是指處理組(臨床設計中稱為治療組)與對照組之間,除處理因素不同外,其他可能影響實驗結果的因素要求基本齊同,也稱為齊同對比原則。
6、什么叫醫學統計學?醫學統計學與統計學、衛生統計學、生物統計學有何聯系與區別? 醫學統計學:是運用統計學原理和方法研究生物醫學資料的搜索、整理、分析和推斷的一門學科 統計學:是研究數據的收集、整理、分析與推斷的科學。衛生統計學:是把統計理論、方法應用于居民健康狀況研究、醫療衛生實踐、衛生事業管理和醫學科研的一門應用學科。生物統計學:是一門探討如何從不完整的信息中獲取科學可靠的結論從而進一步進行生物學實驗研究的設計,取樣,分析,資料整理與推論的科學。
7、醫學統計的資料主要來源于那些方面?有何要求?
醫學統計資料主要有實驗數據和現場調查資料、醫療衛生工作記錄、報表和報告卡等。實驗數據是指在試驗過程中活的的數據;現場調查資料主要來源于大規模的流行病調查獲取的資料;醫療衛生工作記錄有門診病歷卡、住院病歷卡、化驗報告等;報表有衛生工作基本情況年報表、傳染年(月、日)報表、疫情旬(年、月、日)報表等;報表卡有傳染病發病報告卡、出生報告卡、死亡報告卡等等。這些資料的手機過程中,必須進行質量抗旨,包括它的統一性、確切性、可重復性。這些原始數據的精讀和偏性應有明確的范圍。
8、醫學統計學的資料類型有哪些?
(1)計量資料:對每個觀察單位用定量的方法測定某項指標量的大小,所得的資料稱為計量資料(measurement data)。計量資料亦稱定量資料、測量資料。.其變量值是定量的,表現為數值大小,一般有度量衡單位。如某一患者的身高(cm)、12體重(kg)、紅細胞計數(10/L)、脈搏(次/分)、血壓(KPa)等。
(2)計數資料:將觀察單位按某種屬性或類別分組,所得的觀察單位數稱為計數資料(count data)。計數資料亦稱定性資料或分類資料。其觀察值是定性的,表現為互不相容的類別或屬性。如調查某地某時的男、女性人口數;治療一批患者,其治療效果為有效、無效的人數;調查一批少數民族居民的A、B、AB、O 四種血型的人數等。(3)等級資料:將觀察單位按測量結果的某種屬性的不同程度分組,所得各組的觀察單位數,稱為等級資料(ordinal data)。等級資料又稱有序變量。如患者的治療結果可分為治愈、好轉、有效、無效或死亡,各種結果既是分類結果,又有順序和等級差別,但這種差別卻不能準確測量;一批腎病患者尿蛋白含量的測定結果分為+、++、+++等。等級資料與計數資料不同:屬性分組有程度差別,各組按大小順序排列。等級資料與計量資料不同:每個觀察單位未確切定量,故亦稱為半計量資料。
9、常見的三類誤差是什么?應采取什么措施和方法加以控制?
常見的三類誤差是:(1)系統誤差:在收集資料過程中,由于儀器初始狀態未調整到零、標準試劑未經校正、醫生掌握療效標準偏高或偏低等原因,可造成觀察結果傾向性的偏大或偏小,這叫系統誤差。要盡量查明其原因,必須克服。
(2)隨機測量誤差:在收集原始資料過程中,即使儀器初始狀態及標準試劑已經校正,但是,由于各種偶然因素的影響也會造成同一對象多次測定的結果不完全一致。譬如,實驗操作員操作技術不穩定,不同實驗操作員之間的操作差異,電壓不穩及環境溫度差異等因素造成測量結果的誤差。對于這種誤差應采取相應的措施加以控制,至少應控制在一定的允許范圍內。一般可以用技術培訓、指定固定實驗操作員、加強責任感教育及購置一定精度的穩壓器、恒溫裝置等措施,從而達到控制的目的。(3)抽樣誤差:即使在消除了系統誤差,并把隨機測量誤差控制在允許范圍內,樣本均數(或其它統計量)與總體均數(或其它參數)之間仍可能有差異。這種差異是由抽樣引起的,故這種誤差叫做抽樣誤差,要用統計方法進行正確分析。
10、試述頻數表的要素及用途。
要素:組段,頻距。用途:① 描述資料的分布特征和分布類型。頻數分布有兩個重要特征:集中趨勢和離散趨勢。大部分觀察值向某一數值集中的趨勢稱為集中趨勢,常用平均數指標來表示,各觀察值之間大小參差不齊。頻數由中央位置向兩側逐漸減少,稱離散趨勢,是個體差異所致,可用一系列的變異指標來反映。② 便于進一步計算有關指標或進行統計分析。當數據較多且需手工計算時,常先編制頻數表,再進行統計計算。③ 發現特大、特小的可疑值。如果頻數表的一端或兩端出現連續幾個組段的頻數為零后,又出現少數幾個特大值或特小值,使人懷疑其是否準確,需進一步檢查和核對并做相應處理。④ 當樣本含量比較大時,可用各組段的平率作為概率的估計值。
11、描述單變量資料的統計指標分哪兩大類,分別是什么指標? 分類:①描述數據分布集中趨勢的指標:算術均數、幾何均數、中位數。②描述數據分布離散程度的指標:極差、四分位數間距、方差、標準差、變異系數。
12、試述平均數、標準差、變異系數的含義及用途?
13、標準正態分布曲線下面積有何分布規律?
所有的正態分布曲線,在υ左右的相同倍數的標準差范圍內的面積相同。并且,在υ±σ范圍內的面積約為68.3%;在υ±1.96σ范圍內的面積約為95%;在υ±2.58σ范圍內面積約為99%。
14、同一資料的標準差是否一定小于均數?
均數和標準差是兩類不同性質的統計指標.標準差用于描述數據的變異程度,變異程度大,則該值大,變異程度小,則該值小.標準差可大于均數,也可小于均數。
15、標準差與標準誤有何區別和聯系?
?區別:1.含義不同:⑴sx)之間的變異度大小,s越大,變量值(x)越分散;反之變量值越集中,均數的代表性越強。⑵標準誤是描述樣本均數之間的變異度大小,標準誤越大,樣本均數與總體均數間差異越大,抽樣誤差越大;反之,樣本均數越接近總體均數,抽樣誤差越小。2.與n的關系不同: n增大時,⑴sσ(恒定)。⑵標準誤減少并趨于0(不存在抽樣誤差)。3.用途不同: ⑴s:表示x的變異度大小,計算cv,估計正常值范圍,計算標準誤等 ⑵ :參數估計和假設檢驗。?聯系: 二者均為變異度指標,樣本均數的標準差即為標準誤,標準差與標準誤成正比。
16、簡述Ⅰ型錯誤和Ⅱ型錯誤的區別和聯系。
·區別:Ⅰ型錯誤(棄真):拒絕實際成立的H0,型錯誤的概率記為α。(1-a)即置信度:重復抽樣時,樣本區間包含總體參數(μ)的百分數。當p≤α而拒絕H0時,只能犯Ⅰ型錯誤,不可能犯Ⅱ型錯誤。
Ⅱ型錯誤(存偽):不拒絕實際不成立的H0,Ⅱ型錯誤的概率記為β。(1-β)即把握度(或檢驗效能:兩總體確有差別,被檢出有差別的能力。當p≥α而拒絕H0時,只能犯Ⅱ型錯誤,不可能犯Ⅰ型錯誤。
·聯系:對同一資料,α與β反方向變化,若要同時減小α與β,唯一的辦法是增加樣本含量。
17、可信區間與參考值范圍的不同點。
應注意:可信區間與參考值范圍的意義、計算公式和用途均不同。1.從意義和用途來看95%參考值范圍是指同質總體內包括95%個體值的估計范圍,而總體均數95%可信區間是指按95%可信度估計的總體均數的所在范圍。可信區間用于估計總體參數,總體參數只有一個。參考值范圍用于估計變量值的分布范圍,變量值可能很多甚至無限。2.從計算公式看:若指標服從正態分布,95%參考值范圍的公式是:±1.96s。總體均數95%可信區間的公式是:
。前者用標準差,后者用標準誤。前者用1.96,后者用α為0.05,自由度為v的t界值。
18、在統計推斷中,如何區別單側檢驗和雙側檢驗?
如果將拒絕性概率平分于理論抽樣分布的兩側,稱為雙側檢驗。例如選定顯著性水平α= 0.05,雙側檢驗就是將α概率所規定的拒絕區域平分為兩部分而置于概率分布的兩邊,每邊占有 =0.025。雙側檢驗只強調差異是否顯著而不強調方向性。如果將拒絕性概率置于理論抽樣分布的一側(左側或右側),稱為單側檢驗(右側檢驗或左側檢驗)。單側檢驗強調差異的方向性。在具體的假設檢驗中,選擇雙側檢驗或單側檢驗可分為以下三種情況: 第一種:H0:μ=μ0 :μ≠μ0雙側 第二種:H0:μ≥μ0 :μ<μ0單側(左側)第三種:H0:μ≤μ0 :μ>μ0單側(右側)
19、t檢驗、z檢驗的公式有那些類型,在應用上有何異同?
t檢驗:當樣本例數n較小時,要求樣本取自正態總體。t檢驗的類型:單樣本t檢驗,獨立t檢驗,配對t檢驗z檢驗:樣本例數較大,或n雖小而總體標準差已知。
20、假設檢驗和總體均數區間估計有何聯系?
假設檢驗:是對總體做出某種假定,然后根據樣本信息推斷總體是否成立的一類統計學方法總稱。假設檢驗有三個基本步驟:①建立假設和確定檢驗水準;②選擇檢驗方法和計算檢驗統計量;③確定P值和做出統計推斷結論。總體均數的估計:
1、點估計:樣本統計量直接作為總體指標的估計值。它未考慮抽樣誤差的大小。
2、區間估計:按預先給定的概率(1-α)確定的包含未知總體參數的可能范圍。
21、方差分析的基本思想是什么?
方差分析(analysis of variance,ANOVA)的基本思想就是根據資料的設計類型,即變異的不同來源將全部觀察值總的離均差平方和(sum of squares of deviations from mean,SS)和自由度分解為兩個或多個部分,除隨機誤差外,其余每個部分的變異可由某個因素的作用(或某幾個因素的交互作用)加以解釋,如各組均數的變異SS 組間可由處理因素的作用加以解釋。通過各變異來源的均方與誤差均方比值的大小,借助F 分布作出統計推斷,判斷各因素對各組均數有無影響。
22、t檢驗和F檢驗的使用條件和應用范圍有何異同?
t檢驗適用于兩個樣本均數的比較,F檢驗適用于多個樣本的比較。t檢驗的應用條件:要求各樣本來自相互獨立的正態總體且各總體方差齊。方差分析的應用條件(1)各樣本是相互獨立的隨機樣本,且來自正態分布總體。(2)各樣本的總體方差相等,即方差齊性。
23率的標準化的意義及基本思想。
當比較的兩組資料內部各小組率明顯不同,且各小組觀測例數的構成比也明顯不同時,直接比較兩個合計率是不合理的。因為期內部構成比不同,往往影響合計率的大小,需要統一的內部構成進行調整后計算標準化率,使其具有可比性,這種方法稱為率的標準化。率的標準化的基本思想:要比較兩個總率時,發現兩組資料的內部構成(如年齡、性別構成等)存在明顯不同,而且影響到了總率的結果,這時就不宜再直接比較總率,而應考慮采用標準化法。標準化法的基本思想,就是采用統一的標準(統一的內部構成)計算出消除內部構成不同影響后的標準化率(調整率),然后再進行比較。
24常用相對數指標有哪些?它們在計算和意義上有何不同?
率(強度相對數,頻率相對數)、構成比、相對比應用相對數時應注意的問題:⑴ 計算相對數的分母一般不宜過小。⑵ 分析時不能以構成比代替率。⑶ 不能用構成比的動態分析代替率的動態分析。⑷ 對觀察單位數不等的幾個率,不能直接相加求其總率。⑸ 在比較相對數時應注意可比性。⑹ 對樣本率(或構成比)的比較應隨機抽樣,并做假設檢驗。
25卡方檢驗的使用范圍和各個公式的適用條件是什么?
卡方檢驗用于:推斷兩個及兩個以上總體率或構成比是否有差別,兩個分類變量間有無相關關系,多個率的趨勢檢驗,以及兩個率的等效檢驗等。此外,也用于頻數分布的擬合優度檢驗。
對不同的設計類型的資料,檢驗的應用條件不同:(1)完全隨機設計兩樣本率的比較1)當n>40,且T≥5時,用非連續性校正值;若所得P≈α,則改用四格表的確切概率法。2)當n≥40,且有1≤T<5時,用連續性校正值。3)n<40,或有T<1時,不能用檢驗,應當用四格表的確切概率法。(2)配對設計四格表1)當b+c≥40,2)當b+c<40,需作連續性校正,(3)行列表資料1)不宜有1/5以上格子的理論頻數小于5,或有1個格子的理論頻數小于1;2)單向有序行列表,在比較各處理組的效應有無差別時,應該用秩和檢驗或Ridit檢驗;3)多個樣本率(或構成比)比較的檢驗時,結論為拒絕無效假設時,只能認為各總體率(或總體構成比)之間總的說來有差別,但不能說明它們彼此之間都有差別,或某兩者間有差別。若想進一步了解哪兩者的差別有統計學意義,可用分割法。26率的標準誤的意義和用途。
意義:由于抽樣的原因所造成的樣本率與總體率的不一致就是率的抽樣誤差。率的抽樣誤差的大小是用率的標準誤來表示。用途:①表示抽樣誤差的大小,說明樣本率的代表性、可靠性。②對總體率的可信區間進行估計
27、非參數統計方法的概念及適用范圍。
概念:樣本所來自的總體分布難以用某種函數式來表達,還有一些資料的總體分布的函數式是未知的,只知道總體分布是連續型的或離散型的,解決這類問題的一種不依賴總體分布的具體形式的統計方法。由于這類方法不受總體參數的限制,故稱非參數統計法,或稱為不拘分布的統計分析方法,又稱為無分布型式假定的統計分析方法。它檢驗的是分布,而不是參數。非參數統計不需對總體分布(總體參數)作出特殊假設。適用范圍:(1)等級資料。(2)偏態分布資料。當觀察資料呈偏態或極度偏態分布而又未作變量變換,或雖經變量變換仍未達到正態或近似正態分布時,宜用非參數檢驗。(3)各組離散程度相差懸殊,即方差明顯不齊,且不能變換達到齊性。(4)個別數據偏離過大,或資料為單側或雙側沒有上限或下限值。(5)分布類型不明。(6)初步分析。有些醫學資料由于統計工作量大,可采用非參數統計方法進行初步分析,挑選其中有意義者再進一步分析(包括參數統計內容)。(7)對于一些特殊情況,如從幾個總體所獲得的數據,往往難以對其原有總體分布作出估計,在這種情況下可用非參數統計方法。
28、非參數檢驗的優缺點。優點:①非參數統計方法要求的假定條件比較少,因而它的適用范圍比較廣泛。②多數非參數統計方法要求的運算比較簡單,可以迅速完成計算取得結果,因而比較節約時間。③大多數非參數統計方法在直觀上比較容易理解,不需要太多的數學基礎知識和統計學知識。④大多數非參數統計方法可用來分析如象由等級構成的數據資料,而對計量水準較低的數據資料,參數統計方法卻不適用。⑤當推論多達3個以上時,非參數統計方法尤具優越性。缺點:①由于方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。②對于大樣本,如不采用適當的近似,計算可能變得十分復雜。注意: 凡符合或經過變換后符合參數檢驗條件的資料,最好用參數檢驗。當資料不具備參數檢驗的條件時,非參數檢驗是一種有效的分析方法。
29、相關與回歸的聯系和區別。區別:
意義 :相關反映兩變量的相互關系,即在兩個變量中,任何一個的變化都會引起另一個的變化,是一種雙向變化的關系。回歸是反映兩個變量的依存關系,一個變量的改變會引起另一個變量的變化,是一種單向的關系。應用:研究兩個變量的相互關系用相關分析。研究兩個變量的依存關系用回歸分析。研究性質:相關是對兩個變量之間的關系進行描述,看兩個變量是否有關,關系是否密切,關系的性質是什么,是正相關還是負相關。回歸是對兩個變量做定量描述,研究兩個變量的數量關系,已知一個變量值可以預測出另一個變量值,可以得到定量結果。相關系數r與回歸系數b :r與b的絕對值反映的意義不同。r的絕對值越大,散點圖中的點越趨向于一條直線,表明兩變量的關系越密切,相關程度越高。b的絕對值越大,回歸直線越陡,說明當X變化一個單位時,Y的平均變化就越大。反之也是一樣。聯系:
2r與b值可相互換算;r與b正負號一致;r與b的假設檢驗等價;回歸可解釋相關。相關系數的平方r(又稱決定系數)是回
歸平方和與總的離均差平方和之比,故回歸平方和是引入相關變量后總平方和減少的部分。
30、直線相關、秩相關的區別與聯系。
區別:(1)資料要求不同:直線相關要求x、y是來自雙變量正態總體的隨機變量;秩相關適用于不服從雙變量正態分布或總體分布類型未知以及用等級表示的原始數據。(2)相關意義不同:直線相關表示兩變量的直線相關關系存在,秩相關表示兩變量的相關關系。聯系:相關系數的取值范圍相同;秩相關將原始數據進行秩變換,以秩次計算直線相關系數。
31、統計表及統計圖的制表原則和要求。
統計表:(1)統計表的制表原則1)應重點突出,即一張表一般只包括一個中心內容,內容較多時可以用多個表格表達不同指標和內容。2)統計表要層次清楚,即標目的安排及分組符合邏輯,便于分析比較。主謂分明,通常主語放在表的左邊,作為橫標目;謂語放在右邊,作為縱標目。由左向右讀,構成完整的一句話。但若統計表的主語項目少而謂語項目多或主語項目多而謂語只有一項,亦可將縱標目作主語、橫標目作謂語,閱讀時從上至下。3)統計表應簡單明了,一切文字、數字和線條都應盡量從簡。
(2)制表要求:統計表通常由標題、標目、線條、數字4部分組成。表中數字區不插入文字,也不列備注項。必須說明者標“*”號等,在表下方說明。1)標題:應高度概括表的主要內容,一般包括研究的時間、地點和研究內容,左側加表號,置于表的上方。2)標目:有橫標目和縱標目,分別說明表格每行和每列數字的意義。橫標目位于表頭的左側,代表研究的對象;縱標目位于表頭右側,表達研究對象的指標。注意標明指標的單位。3)線條:力求簡潔,多采用三條線,即頂線、底線、縱標目下橫線。部分表格可再用短橫線將“合計”分隔開,或用短橫線將兩重縱標目分割開。其它豎線和斜線一概省去。4)數字:用阿拉伯數字表示。同一指標小數點位數一致,位次對齊。表內不留空項,無數字用“—”表示,缺失數字用“”表示,數值為0者記為“0”。統計圖:①根據資料性質和分析目的正確選用適當的統計圖。②除圓圖外,一般用直角坐標系的第一象限的位置表示圖域(制圖空間),或者用長方形的框架表示。③
繪制圖形應注意準確、美觀,給人以清晰的印象。
32、常見的統計圖有哪幾種?它們的使用條件各是什么?
常用的統計圖有直條圖、直方圖、百分比條圖和圓圖、線圖、散點圖、統計地圖、箱式圖等。·直條圖:適用于比較、分析獨立的或離散變量的多個組或多個類別的統計指標。指標既可以是絕對數,也可以是相對數。·直方圖:主要應用于頻數分布資料,描述連續變量的頻數分布。百分比條圖和圓圖:表示事物內部各構成部分所占的比重,適合描述分類變量的各類別所占的構成比。其中,百分比條圖特別適合作多個構成比的比較。·線圖:適合于描述某統計量隨另一連續性數值變量的變化而變化的趨勢,常用于描述統計量隨時間變化而變化的趨勢。普通線圖描述的是絕對變化趨勢,半對數線圖描述的是相對變化趨勢,特別適宜作不同指標或相同指標不同組別的變化速度的比較。·散點圖:以直角坐標上點的密集程度和趨勢來表示兩個變量間的相關關系。·統計地圖:以不同的顏色和花紋表示統計量的值在地理分布上的變化,適宜描述研究指標的地理分布。·箱式圖:通過使用5個統計量(數據分布的中心位置、分布、偏度、變異范圍和異常值)來反映原始數據的分布特征。特別適合多組數據分布的比較。
33普通線圖和半對數線圖的主要區別是什么?
從形式上看,二者的不同點在于縱坐標的尺度不同,普通線圖的縱坐標為算術尺度,而半對數線圖的縱坐標為對數尺度。從用途上看,普通線圖描述的是統計量的絕對變化趨勢,半對數線圖描述的是相對變化趨勢,特別適宜作不同指標或相同指標不同組別的變化速度的比較。
34四種基本抽樣方法的概念、優缺點和應用條件是什么?
(1)單純隨機抽樣:是在總體中以完全隨機的方法抽取一部分觀察單位組成樣本,其整個抽樣過程,都體現了隨機化的原則。單純隨機抽樣的優點:簡單直觀,是最基本的概率抽樣方法,也是其他概率抽樣方法的基礎。單純隨機抽樣的缺點:當總體例數較多時,編號麻煩,實際工作中難以實施;樣本分散,組織困難。單純隨機抽樣方法多用于總體例數較少的情況。(2)系統抽樣:是將總體的觀察單位,按一定順序號平均分成n個部分,每一部分抽取第k號觀察單位組成樣本,這里的k是隨機確定的,其體現了系統抽樣中的隨機性。系統抽樣的優點是:1)易于理解,簡便易行;
2)容易得到一個按比例分配的樣本;3)一般情況下樣本的觀察單位在總體中分布均勻,其抽樣誤差小于單純隨機抽樣。系統抽樣的缺點是如果總體中觀察單位按順序有周期趨勢或單調遞增(減)趨勢時,采用系統抽樣可能產生明顯的系統誤差。系統抽樣方法多用于觀察單位具有現成且與試驗無關的自然編號,同時觀察單位在總體中分布均勻。(3)整群抽樣:是先將總體按照某種與主要研究指標無關的特征劃分為K個“群”,每個群包含若干觀察單位,然后再隨機抽取k個“群”,由抽取的各個群的全部觀察單位組成樣本。其隨機性主要體現在“群”的抽取過程。整群抽樣的優點是便于組織調查、易于質量控制和節省調查成本。整群抽樣的缺點是當樣本含量一定時,因為樣本觀察單位并非廣泛散布于總體中,整群抽樣的抽樣誤差一般大于單純隨機抽樣。整群抽樣較為常用,尤其當“群”間的個體變異較小時。
(4)分層抽樣:是先按對主要研究指標影響較大的某種特征,將總體分為若干類別(統計上稱之為“層”),再從每一層內隨機抽取一定數量的觀察單位,合起來組成樣本。其隨機性體現在層內的抽樣過程。分層抽樣的優點是:1)由于分層后增加了層內的同質性,觀察指標變異減小,各層的抽樣誤差減小。2)分層抽樣便于對不同層采用不同的抽樣方法。3)分層抽樣便于對各層獨立進行分析。分層抽樣的缺點是:層間變異較大,抽樣誤差較小;如果分層特征選擇不當,層內變異較大,層間變異較小,抽樣誤差仍然較大,分層抽樣就失去了意義。一般情況下,當樣本含量一定,幾種方法抽樣誤差大小的排序為:分層抽樣≤系統抽樣≤單純隨機抽樣≤整群抽樣。
35何謂調查研究和實驗研究?各自的特點是什么?
調查研究:是指研究者通過客觀地觀察、描述調查對象來搜集資料,未加任何的干預措施。實驗研究:是指研究者根據研究假設主動地對研究對象加以干預措施,并觀察總結其結果,回答研究假設所提出的問題。
36何謂實驗效應,對實驗效應指標的要求是什么?
實驗效應:指處理作用于實驗對象的反應,一般是通過某些觀察指標,定量或定性地反映實驗效應。選擇觀察指標的基本原則: 指標的選擇必須與研究目的密切關聯客觀性盡可能選擇客觀指標,避免一些籠統的、不確切的指標。準確性選用的指標應盡量精確。靈敏性和特異性 實驗效應指標應當同時兼顧其靈敏性和特異性,盡量使靈敏性和特異性都高。
37實驗研究中為什么要設立對照,常見的對照有幾種,各自有何特點?
設立對照組的目的是襯托處理因素的效應。對照原則:所設立的對照組必須與實驗組達到均衡可比。除干預措施外,組間其他影響結果的非處理因素等盡可能相同。對所研究疾病的易感度及發病機會相等。檢測和觀察方法及診斷標準必須一致。自身對照對照與實驗在同一受試者身上進行,如用藥前后作為對比。
空白對照對照組不施加任何處理因素。安慰劑對照主要目的是為了平衡對照組病人心理因素的影響。實驗對照(陽性對照)對照組不施加處理因素,但施加某種實驗因素。標準對照不設立專門的對照組,而是用現有標準值或正常值做對照。歷史對照
38實驗設計為什么要遵循重復原則,影響重復性的因素有哪些?
重復原則包含重現性和觀察單位數量兩方面的含義。可靠的實驗結果應能在相同的條件下重現;可靠的實驗結論也不能憑一次實驗或3~5例結果獲得,一定要有足夠量的觀察單位數。
第五篇:旅游統計學名詞解釋
1,旅游統計學,是應用統計理論與方法,對旅游經濟現象進行集中深入的研究而產生的一門分支統計學科。
2,總體,總體單位,總體,統計所要求的具有某種共同特征事物的全體,總體單位指組成總體的基本單位,即具有某種共同特征事物的基本單位。
3,標志,表明總體單位屬性或特征的名稱,按性質分,a品質標志,b數量標志,按變異性分a不變標志,b可變標志。
4,變異,標志在總體各單位之間存在具體表現的差異性,變異中,有屬性變異與數量變異。
5,變量,把數量變異的名稱稱為變量,按是否連續,分為連續變量離散變量。
6,指標,表明總體數量特征的社會經濟概念或范疇,1,特征2,可量性3,綜合性,7,指標分類,安表現形式分為,總體指標,相對指標,平均指標,安總體特征,數量指標,質量指標.8,總量指標,在一定時間地點條件下表明某種旅游經濟活動的總規模或總水平的指標。其表現形式為絕對數,按其所反映的時間狀況不同,分為時點指標與時期指標。
9,相對指標,將兩個性質相同或相互聯系的指標總值進行對比求得的比率或商數就構成相對指標。
表現形式,無名數與有名數
計算方法,結構相對數=總體部分數值/總體全部數值
10,環比發展速度,以報告期的前一期為基期的發展過程比較。11,定期發展速度,以定期為基期的反展過程比較。12,動態數列將某種旅游經濟現象指標,在不同時間讓其按先后順序排列得到的數列,又稱時間數列。
13學列平均數,動態數列各時期或時點發展水平的平均數,是根據動態數列計算而得,塌縮平均的是現象在不容時期發展水平的差異。
14,統計指數,綜合反映所研究社會經濟現象復雜總體數量變動狀況的相對數。
15,因素分析內容,a,相對數分析,b絕對數分析,16,普查,根據經濟旅游工作特定目的與任務而專門組織的一次全面調查。
17,統計分組概念,根據被研究對象總體的內在特征,與旅游統計學研究目的,將統計總體按一定標志劃分為若干相異的組成部分的一種方法。
18,逐級匯總,按照一定旅游管理機制,由上而下逐級匯總,上級統計資料的一種形式。
19,手工匯總,劃分法,過錄法,折疊法,卡片法。20,旅游換匯率,我國提供單位本國貨幣的旅游產品換取的外匯數量。
21,旅游對象物資源,指供旅游者參觀游覽娛樂修養的地區。條件,a具有旅游價值b經專家堅定,世人公認。C可進入性,d對國際旅游者須經政府批準開放。
22旅游交通,指旅游者利用某種手段途徑從一個地點到另一個地點的空間轉移過程,類型,水上陸地,空中。
23,交通統計,a車船數量構成,b車船變動量,c利用維修狀況。
24,統計報表制度,按照國家統一規定調查要求,和表格形式等,自下而上提供統計資料的一種報表制度。