第一篇:單變量統(tǒng)計分析方法總結(jié)(寫寫幫推薦)
單變量統(tǒng)計分析方法總結(jié)
一、計量資料
1.兩組獨立樣本比較
1.1資料符合正態(tài)分布,且兩組方差齊性,及獨立性,可直接采用t檢驗。1.2資料不符合正態(tài)分布
(1)數(shù)據(jù)轉(zhuǎn)換(如對數(shù)轉(zhuǎn)換等)→使之服從正態(tài)分布→轉(zhuǎn)換后的數(shù)據(jù)采用t檢驗;(2)直接采用非參數(shù)檢驗(如Wilcoxon檢驗)。1.3資料方差不齊
(1)t’檢驗(前提是資料滿足正態(tài)性);(2)采用非參數(shù)檢驗(如Wilcoxon檢驗)。2.兩組配對樣本的比較
2.1 兩組差值服從正態(tài)分布,采用配對t檢驗。
2.2 兩組差值不服從正態(tài)分布,采用wilcoxon的符號配對秩和檢驗。3.多組完全隨機樣本比較
3.1資料符合正態(tài)分布,且各組方差齊性,直接采用完全隨機的方差分析。
如檢驗結(jié)果為有統(tǒng)計學(xué)意義,則進(jìn)一步作兩兩比較,兩兩比較的方法有LSD檢驗,SNK法,Bonferroni法,tukey法,Scheffe法等。3.2資料不符合正態(tài)分布,或各組方差不齊
(1)數(shù)據(jù)轉(zhuǎn)換(如對數(shù)轉(zhuǎn)換等)→使之服從正態(tài)分布或方差齊性→轉(zhuǎn)換后數(shù)據(jù)采用F檢驗;(2)直接采用非參數(shù)檢驗(如Kruscal-Wallis法)。
如果檢驗結(jié)果為有統(tǒng)計學(xué)意義,則進(jìn)一步作兩兩比較,一般采用Bonferroni法校正P值,然 后用兩組的Wilcoxon檢驗,或秩變換方法。4.多組隨機區(qū)組樣本比較
4.1資料符合正態(tài)分布,且各組方差齊性,直接采用隨機區(qū)組的方差分析。
如果檢驗結(jié)果為有統(tǒng)計學(xué)意義,則進(jìn)一步作兩兩比較,兩兩比較的方法有LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。
4.2資料不符合正態(tài)分布,或各組方差不齊,則采用非參數(shù)檢驗的Fridman檢驗法。如果檢驗結(jié)果為有統(tǒng)計學(xué)意義,則進(jìn)一步作兩兩比較,一般采用Bonferroni法校正P值,然 后用符號配對的Wilcoxon檢驗。★需要注意的問題:
(1)一般來說,如果是大樣本,比如各組例數(shù)大于50,可以不作正態(tài)性檢驗,直接采用t檢驗或方差分析。因為統(tǒng)計學(xué)上有中心極限定理,假定大樣本是服從正態(tài)分布的。
(2)當(dāng)進(jìn)行多組比較時,最容易犯的錯誤是僅比較其中的兩組,而不顧其他組,這樣作容易增大α。正確的做法應(yīng)該是,先作總的各組間的比較,如果總的來說差別有統(tǒng)計學(xué)意義,然后才能作其中任意兩組的比較,這些兩兩比較有特定的統(tǒng)計方法,如上面提到的LSD檢驗,Bonferroni法,tukey法,Scheffe法,SNK法等。**絕不能對其中的兩組直接采用t檢驗,這樣即使得出結(jié)果也未必正確**
二、分類資料
1.四格表資料
?2檢驗。
1.2 n≥40,且至少一個理論數(shù)1≤T<5,則用校正的?2檢驗。1.1 n≥40,且所有理論數(shù)T>5,則用普通的Pearson 1.3 n<40,或有理論數(shù)T<1,則用Fisher’s確切概率法檢驗。2.R×C表資料的統(tǒng)計分析
2.1 列變量和行變量均為無序分類變量,則(1)n≥40,且理論數(shù)1≤T<5的格子數(shù)目占總格子數(shù)目<20%,則用普通的Pearson
?2檢驗。
(2)超過理論數(shù)1≤T<5的格子數(shù)目占總格子數(shù)目20%,可采用似然比卡方檢驗或Fisher’s確切概率法檢驗(總例數(shù)不應(yīng)太大,因為這種算法計算機也要算半天才能出結(jié)果)。2.2 需要統(tǒng)計分析變量為等級資料變量,另一變量為分組變量,采用非參數(shù)檢驗。兩組的Wilcoxon秩和檢驗,或多組的 Kruskal-Wallis檢驗。如果總的來說有差別,還可進(jìn) 一步作兩兩比較,以說明是否任意兩組之間的差別都有統(tǒng)計學(xué)意義。
2.3 列變量和行變量均為等級資料變量,如果要做兩變量之間的相關(guān)性,可采用Spearson 相關(guān)分析。
3.配對分類資料的統(tǒng)計分析 則用McNemar配對?檢驗。
第二篇:統(tǒng)計分析方法學(xué)習(xí)總結(jié)
統(tǒng)計分析方法學(xué)習(xí)總結(jié)
S201505158 陳丹妮
一、統(tǒng)計的描述
一般采用以下幾種圖形描述數(shù)據(jù):
直方圖:表示幾個變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”; 盒形圖:比直方圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖);
莖葉圖:既展示了數(shù)據(jù)的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字;
散點圖:描述的數(shù)據(jù)有兩對連續(xù)變量; 定型變量的圖:定性變量(或?qū)傩宰兞浚诸愖兞浚┎荒茳c出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例,如:餅圖、條形圖。
二、匯總統(tǒng)計量
表示位置的匯總統(tǒng)計量:均值(mean):樣本值的算術(shù)平均值;中位數(shù)(median):中間大小的數(shù)(一半樣本點小于中位數(shù));(第一或第三)(下、上)四分位數(shù)(點)(first quantile, third quantile)(分別有1/4或3/4的數(shù)目小于它們);k-百分位數(shù)(k-percentile);a分位數(shù)(a centile): k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它;眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)。
表示尺度的匯總統(tǒng)計量:極差(range):極端值之差;四分位間距(四分位極差)(interquantile range)四分位數(shù)之差;標(biāo)準(zhǔn)差(standard deviation)方差平方根;方差(variance)各點到均值距離平方的平均。
三、相關(guān)的分布
相關(guān)的分布包括:離散分布、連續(xù)分布、抽樣分布:我們能夠利用樣本統(tǒng)計量中的(描述樣本的)信息, 比如樣本均值和樣本標(biāo)準(zhǔn)差中的信息,來對(描述總體的)總體參數(shù)(比如總體均值和總體標(biāo)準(zhǔn)差)進(jìn)行推斷(估計、檢驗等)。
大數(shù)定律:闡述大量隨機變量的平均結(jié)果具有穩(wěn)定性的一系列定律的總稱。其中又分為獨立同分布大數(shù)定律(提供了用樣本平均數(shù)估計總體平均數(shù)的理論依據(jù))和貝努力大數(shù)定律(提供了頻率代替概率的理論依據(jù))。
中心極限定理:闡述大量隨機變量之和的極限分布是正態(tài)分布的一系列定理的總稱。獨立同分布中心極限定理(不論總體服從何種分布,只要它的數(shù)學(xué)期望和方差存在,從中抽取容量為n的樣本,當(dāng)n充分大時,則這個樣本的總和或平均數(shù)是服從正態(tài)分布的隨機變量)和德莫佛-拉普拉斯中心極限定理(提供了用正態(tài)分布近似計算二項分布概率的方法)。均值的假設(shè)檢驗包括對于正態(tài)總體均值的檢驗、對于比例的檢驗
四、各種分析方法
1.列聯(lián)表分析
列聯(lián)表變量中每個都有兩個或更多的可能取值,稱為水平,比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。二維的列聯(lián)表又稱為交叉表(cross table)。列聯(lián)表可以有
很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。
2.方差分析
方差分析(analysis of variance,ANOVA)是分析各個自變量對因變量影響的一種方法。這里的自變量就是定性變量的因子及可能出現(xiàn)的稱為協(xié)變量(covariate)的定量變量。分析結(jié)果是由一個方差分析表表示的。原理為:把因變量的值隨著自變量的不同取值而得到的變化進(jìn)行分解,使得每一個自變量都有一份貢獻(xiàn),最后剩下無法用已知的原因解釋的則看成隨機誤差的貢獻(xiàn)。然后用各自變量的貢獻(xiàn)和隨機誤差的貢獻(xiàn)進(jìn)行比較(F檢驗),以判斷該自變量的不同水平是否對因變量的變化有顯著貢獻(xiàn)。輸出就是F-值和檢驗的一些p-值。
3.相關(guān)和回歸分析
發(fā)現(xiàn)變量之間的統(tǒng)計關(guān)系,并且用此規(guī)律來幫助我們進(jìn)行決策才是統(tǒng)計實踐的最終目的。一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。
假如用Y表示感興趣的變量,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關(guān)系的過程就叫做回歸(regression)。
一旦建立了回歸模型,除了對變量的關(guān)系有了進(jìn)一步的定量理解之外,還可以利用該模型(函數(shù))通過自變量對因變量做預(yù)測(prediction)。這里所說的預(yù)測,是用已知的自變量的值通過模型對未知的因變量值進(jìn)行估計;它并不一定涉及時間先后。
4.主成分分析和因子分析
主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復(fù)雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個步驟可以使結(jié)果更好。對于計算機,因子分析并不費事。從輸出的結(jié)果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。
5.聚類分析
物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。對一個數(shù)據(jù),既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。當(dāng)然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)
本身的規(guī)律來分類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數(shù)學(xué)上是無區(qū)別的。
k-均值聚類(k-means cluster,也叫快速聚類,quick cluster)卻要求先說好要分多少類。然后,根據(jù)和這三個點的距離遠(yuǎn)近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會分到同一類中呢。另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchical cluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠(yuǎn)。
6.判別分析
在聚類分析中,人們一般事先并不知道應(yīng)該分成幾類及哪幾類,全根據(jù)數(shù)據(jù)確定。在判別分析中,至少有一個已經(jīng)明確知道類別的“訓(xùn)練樣本”,并利用該樣本來建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了。訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能用于判別的預(yù)測變量。這是最重要的。當(dāng)然,在應(yīng)用中,選擇余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗證。判別分析是為了正確地分類,但同時也要注意使用盡可能少的預(yù)測變量來達(dá)到這個目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的。
7.典型相關(guān)分析
由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。目的:研究多個變量之間的相關(guān)性。方法:利用主成分思想,可以把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān).即找一組系數(shù)(向量)l和m, 使新變量U=l`X(1)和V=m`X(2)有最大可能的相關(guān)關(guān)系。
8.對應(yīng)分析
在因子分析中,或者只對變量(列中的變量)進(jìn)行分析,或者只對樣品(觀測值或行中的變量)進(jìn)行分析;而且利用載荷圖來描述各個變量之間的接近程度。典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;對應(yīng)分析方法被普遍認(rèn)為是探索性數(shù)據(jù)分析的內(nèi)容,處理列聯(lián)表的問題僅僅是對應(yīng)分析的一個特例。一般地,對應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時所處理的數(shù)據(jù)形式。在對應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對。如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應(yīng)分析的數(shù)學(xué)方法來研究行變量各個水平和列變量各個水平之間的關(guān)系。
9.時間序列分析
人們對統(tǒng)計數(shù)據(jù)往往可以根據(jù)其特點從兩個方面來切入,以簡化分析過程。一個是研究所謂橫截面(cross section)數(shù)據(jù),也就是對大體上同時,或者和時間無關(guān)的不同對象的觀測值組成的數(shù)據(jù)。另一個稱為時間序列(time series),也就是由對象在不同時間的觀測值形成的數(shù)據(jù)。時間序列分析也是一種回歸。回歸分析的目的是建立因變量和自變量之間關(guān)系的模型;并且可以用自變量來對因變量進(jìn)行預(yù)測。通常線性回歸分析因變量的觀測值假定是互相獨立并且有同樣分布。而時間序列的最大特點是觀測值并不獨立。時間序列的一個目的是用變量過去的觀測值來預(yù)測同一變量的未來值。也就是說,時間序列的因變量為變量未來的可能值,而用來預(yù)測的自變量中就包含該變量的一系列歷史觀測值。當(dāng)然時間序列的自變量也可能包含隨著時間度量的獨立變量。一個時間序列可能有趨勢、季節(jié)、循環(huán)這三個成分中的某些或全部再加上隨機成分。因此,如果要想對一個時間序列本身進(jìn)行較深入的研究,把序列的這些成分分解出來、或者把它們過慮掉則會有很大的幫助。如果要進(jìn)行預(yù)測,則最好把模型中的與這些成分有關(guān)的參數(shù)估計出來。
如果我們不僅僅滿足于分解現(xiàn)有的時間序列,而且想要對未來進(jìn)行預(yù)測,就需要建立模型。首先,這里介紹比較簡單的指數(shù)平滑(exponential smoothing)。指數(shù)平滑只能用于純粹時間序列的情況,而不能用于含有獨立變量時間序列的因果關(guān)系的研究。指數(shù)平滑的原理為:當(dāng)利用過去觀測值的加權(quán)平均來預(yù)測未來的觀測值時(這個過程稱為平滑),離得越近的觀測值要給以更多的權(quán)。而“指數(shù)”意味著:按照已有觀測值“老”的程度,其上的權(quán)數(shù)按指數(shù)速度遞減。
第三篇:兩個多重相關(guān)變量組的統(tǒng)計分析
兩個多重相關(guān)變量組的統(tǒng)計分析
摘 要
本文介紹兩組相關(guān)變量問的典型相關(guān)與典型冗余分析的統(tǒng)計分析方法,以及在SAS軟件包中如何實現(xiàn),文中給出了一個典型的例子。關(guān)鍵詞:統(tǒng)計分析;典型相關(guān);典型冗余分析
在實際問題中,經(jīng)常遇到需要研究兩組變量間的相關(guān)關(guān)系,而且每組變量中間常常存在多重相關(guān)性。比如工廠生產(chǎn)的產(chǎn)品質(zhì)量指標(biāo)與原材料、工藝指標(biāo)間的相關(guān)關(guān)系;體育科研中運動員的體力測試指標(biāo)與運動能力指標(biāo)間的相關(guān)關(guān)系;經(jīng)濟領(lǐng)域中投資性變量與國民收入變量間的相關(guān)關(guān)系;教育學(xué)中學(xué)生高考各科成績與高二年級各主科成績間的相關(guān)關(guān)系;醫(yī)學(xué)研究中患某種疾病病人的各種癥狀程度與用科學(xué)方法檢查的一些指標(biāo)間的相關(guān)關(guān)系等等。
研究兩個變量組之間相關(guān)關(guān)系的常用方法是多元統(tǒng)計中的典型相關(guān)分析(參考[2]和 [3])。如果進(jìn)一步研究這兩組多重相關(guān)變量間的相互依賴關(guān)系,即考慮多對多的回歸建模問題,除了最小二乘準(zhǔn)則下的多對多回歸分析、雙重篩選逐步回歸分析,以及提取自變量成分的主成分回歸等方法外,還有近年發(fā)展起來的偏最小二乘(PLS)回歸方法。關(guān)于多對多回歸建模問題,我們將另文介紹。本文介紹典型相關(guān)與典型冗余分析,它是偏最小二乘回歸的理論基礎(chǔ)。
一 典型相關(guān)分析的基本思想與解法
第一組變量記為X=(X1?Xp)?,第二組變量記為Y=(Y1?Yq)?(不妨設(shè)p≤q)。典型相關(guān)分析借助于主成分分析提取成分的思想,從第一組變量X提取典型成分V(V是X1,?,Xp的線性組合);再從第二組變量Y提取典型成分W(W是Y1,?,Yq的線性組合),并要求V和W 的相關(guān)程度達(dá)到最大。這時V和W 的相關(guān)程度可以大致反映兩組變量X和Y的相關(guān)關(guān)系。
?X???11 ?12????記p+q維隨機向量Z=??的協(xié)差陣∑=?其中∑11一是X的協(xié)差陣,??,?21 ?22Y????∑22:是Y的協(xié)差陣,∑l2=∑21是X,Y的協(xié)差陣。我們用X和Y的線性組合 V=a?X和W=b?Y之問的相關(guān)來研究X和Y之間的相關(guān)。我們希望找到a和b,使ρ(V,W)最大。由相關(guān)系數(shù)的定義,ρ(V,W)=
Cov(V,W)Var(v)Var(w)
分析上式將發(fā)現(xiàn):在使得V,W的相關(guān)達(dá)最大的同時,V和W的方差將達(dá)最小,這說明按此準(zhǔn)則得到的典型成分V和W,對原變量組X和Y的代表性最差,它們無法更多地反映原變量組的變異信息。另方面因V,W任意線性組合的相關(guān)系數(shù)與 V,W 的相關(guān)系數(shù)相等,即使得相關(guān)系數(shù)最大的V=a?X和W=b?X并不唯一。故在典型相關(guān)分析解法中附加了約束條件:
Var(U)= a?∑11a = 1 Var(V)= b?∑22b = 1。
問題化為在約束條件Var(U)=1,Var(V)=1下,求a和b,使得ρ(U,V)= a?∑l2b達(dá)最大。
?X?定義l 設(shè)X=(X1?Xp)?,Y=(Y1?Yq)?,p+q維隨機向量??Y??的均值向量為
??O,協(xié)差陣∑>O(不妨設(shè)p≤q)。如果存在a1 =(al1,?,alp)和b1 =(b1l,?,b1q)使得
ρ1=ρ(a?1X,b? lY)=
Var(,X)?1,Var(,Y)?1max????(??X,??Y)
則稱a?X ,b? Y是X,Y的第一對典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為第一個典型相關(guān)系數(shù)。
如果存在ak?(ak1,?akp)?和bk?(bk1,?akq)?使得
①a?kX , b? kY和前面 k-1對典型變量都不關(guān);
②Var(a?kX)= l,Var(b? kY)= 1;
③a?kX與b? kY的相關(guān)系數(shù) ?k最大,則稱a?kX , b? kY是X,Y的第k對典型相關(guān)變量,它們之間的相關(guān)系數(shù)?k稱為第k個典型相關(guān)系數(shù)(k?2,?,p)。
已知p+q維總體Z的n次中心化觀測數(shù)據(jù)陣為:
?x11x12?x1p?x21x22?x2p??Z????n(p?q)??xn1xn2?xnpy11?yn1y12??yn2y21y22y1q??y2q??????X???n?p??ynq???Y? n?q?若假定Z~Np?q(0,?),則協(xié)差陣∑的最大似然估計為
11?X?XS?Z?Z??nn??Y?XX?Y???S11S12????? ????YY??S21S22?下面我們將從樣本協(xié)差陣S出發(fā),來討論兩組變量問的相關(guān)關(guān)系。
令T?S11?1/2SS12?1/222為p×q陣,則p×q陣和q×q陣T?T?的非零特征根相同,且非零特征根均為正的。若rk(T)=rk(S12)=r≤p(因p≤q),非零特征根依次為 ?1≥?2≥?≥?T >O(且λi>O,i=1,?,r)。記r階對角陣D=diag(λi,?,λr)。利用p×q陣T的奇異值分解定理(參考[4])有 222T?(a,?,a)D(?,?,?)
1r12p?qr?r其中口ai(i=l,?,r)為TT?對應(yīng)于?i2的單位正交特征向量;?i(i=1,?,r)為TT?對應(yīng)于?i2的單位正交特征向量,且ai與?i滿足關(guān)系式:?i???ai??1/2??S11?i?,容易驗證與滿足:biai(i?1,?r)??1/2?S22?i??bi???1?iT??i。令
1?1/2??ai???bi??S11?1/2?i(i?1,?r)
i1iS22?i則Vi?ai?X,Wi?bi?Y為X,Y的第i對樣本典型相關(guān)變量,?i為第i個樣本典型相關(guān)系數(shù)。
二 典型相關(guān)系數(shù)的顯著性檢驗
總體z的兩組變量X=(X1?Xp)?和Y=(Y1?Yq)?如果不相關(guān),即Cov(X,Y)= ∑12=0,以上有關(guān)兩組變量典型相關(guān)的討論就毫無意義.故在討論兩組變量間的相關(guān)關(guān)系之前,應(yīng)首先對假設(shè)H0:∑l2=0作統(tǒng)計檢驗,它等價于檢驗H0:ρl=0。
設(shè)總體Z~Np?q(0,?),用似然比方法可導(dǎo)出檢驗H0:∑l2=0的似然比統(tǒng)計量Λ,利用矩陣行列式及其分塊行列式的關(guān)系,可得出
??SS11||S222?Ip?S11S12S22S21??(1??1)
i?1?1?1p其中p+q階方陣s是∑的最大似然估計量,Sy分別是∑ij(i,j=1,2)的最大似然估計?i2(i?1,?,p)是T?T?的特征值。
統(tǒng)計量Λ的精確分布已由Hotelting(1936年)等人給出,但表達(dá)式很復(fù)雜。由Λ統(tǒng)計量 出發(fā)可導(dǎo)出檢驗H0的近似檢驗方法,如 Willksλ統(tǒng)計量,Pillai的跡,Hotettintg-Lawley跡和Roy的極大根等(參閱[2])。
當(dāng)否定H0時,表明X,Y相關(guān),進(jìn)而可得出至少第一個典型相關(guān)系數(shù)ρ1≠0。相應(yīng)的第一 對典型相關(guān)變量V1,W1可能已經(jīng)提取了兩組變量相關(guān)關(guān)系的絕大部分信息。兩組變量余下的部分可認(rèn)為不相關(guān),這時ρ1≈(i=2,?,p)。故在否定H0后,有必要檢驗H0:?i?(i?2,?,p)即第i個及以后的所有典型相關(guān)系數(shù)均為0。利用似然比方法可導(dǎo)出檢驗H0的似然比統(tǒng)計量,并給出該統(tǒng)計量的近似分布。從i=2開始逐個檢驗,直到某個i0,使H0相容時為止。這時說明第i0個及以后的所有典型相關(guān)系數(shù)均為0。假定經(jīng)檢驗,前m個典型相關(guān)系數(shù)顯著地不等于0(m≤p)。
(t)(t)(t)三 典型結(jié)構(gòu)與典型冗余分析
1.典型結(jié)構(gòu)
求出典型變量后,進(jìn)一步可以來計算原始變量與典型變量之問的相關(guān)系數(shù)陣——典型結(jié) 構(gòu)。
記A=(al,a2,?,ar)為P×r矩陣,B=(bl,b2,?,br)為q×r矩陣,典型隨機向量V?(V1,?,Vr)?(a?1X,?a?rX)??A?X;W?(W1,?Wr)??(b?1y,?b?rY)??B?Y;隨機向量Z的??11 ?12??S11S12??S?協(xié)差陣為∑=?>0,隨機向量的協(xié)差陣為?S21S22?是∑的最大似然??21 ?22?????然估計。則
Cov(X,V)=Cov(X,A?X)=∑11A,Cov(X,W)=Cov(X,B?Y)=∑12B,Cov(Y,V)=Gov(Y,A?X)= ∑12A,Cov(Y,W)=Coy(X,B?Y)=∑22B。
用Sij代替以上公式中的∑ij(i,j=1,2),即可計算出原始變量與典型變量之間的協(xié)差陣。由協(xié)差陣還可以計算原始變量與典型變量之間的相關(guān)系數(shù)陣。若假定原始變量均為標(biāo)準(zhǔn)化變量,則以上計算得到的原始變量與典型變量的協(xié)方差陣就是相關(guān)系數(shù)陣。
若計算這四個相關(guān)系數(shù)陣中各列(或各行)相關(guān)系數(shù)的平方和,還將得出下面一些有關(guān)的概念。2.幾個概念 類似于主成分分析,把Vk看成是由第一組標(biāo)準(zhǔn)化變量X提取的成分,Wk看成是由第二組標(biāo)準(zhǔn)化變量Y提取的成分,由相關(guān)陣R(X,V)=S11A=[r(Xj,Vk)](p,r)和R(Y,W)=S11B=[r(Xj,Vk)](q,r)分別計算第k列的平方和。記
1p21p2Rd(X,Vk)??r(Xj,Vk),Rd(Y,Wk)??r(Yj,Vk)(k?1,?,r)
pj?1qj?1并稱Rd(X,Vk))(或Rd(Y,Wk))為第k個典型變量 Vk(或Wk)解釋本組變量X(或Y)總變差的百分比。記
1mp21mq2Rd(X;V1,?,Vm)???r(Xj,Vk),Rd(Y;W1,?,Wm)???r(Xj,Vk)
pk?1j?1qk?1j?1并稱Rd(X;V1,?,Vm)(或Rd(Y;W1,?,Wm))為前m(m≤r)個典型變量V1,?,Vm(W1,?,Wm)解釋本組變量X(或Y)總變差的累計百分比。
在典型相關(guān)分析中,從兩組變量分別提取的兩個典型成分首先要求相關(guān)程度最大,同時也希望每個典型成分解釋各組變差的百分比也盡可能的大。百分比的多少反映由每組變量提取的用于典型相關(guān)分析的變差的多少。
類似于主成分分析,還可以引入前m個典型變量對本組第j個變量Xi(或Yj,)的貢獻(xiàn)等概念(參考[1])。3.典型冗余分析
我們進(jìn)一步來討論典型變量解釋另一組變量總變差百分比的問題。在典型相關(guān)分析中,因所提取的每對典型成分保證其相關(guān)程度達(dá)最大,故每個典型成分不僅解釋了本組變量韻信息,還解釋了另一組變量的信息。典型相關(guān)系數(shù)越大,典型成分解釋對方變量組變差的信息也將越多。
類似可以定義Rd(X;Vk))(或Rd(Y;Wk))為Wk(或Vk)解釋另一組總變差的百分比。以下給出利用典型變量解釋本組變差的百分比來計算解釋另一組變差百分比的公式:
Rd(X;Vk)?1p?rj?1p2(Xj,Vk)??2,?,r)kRd(X;Vk)(k?12,Rd(Y;Vk)?1q?rj?1p(Xj,Vk)??2,?,r)kRd(Y;Wk)(k?1事實上,由典型變量的系數(shù)ak與bk之間的關(guān)系: ak?1?kS11S12bk??kak?S11S12bk??kS11ak?S11S11S12bk?S12bk以及典型?1?1?1變量與原始變量(假定已標(biāo)準(zhǔn)化)的相關(guān)陣即得:r(Xj,Wk)= λk(Xj;Vk),故有Rd(X;Wk)=?2kRd(X;Vk),類似可證明另一式。
Rd(X;Wk)表示第一組中典型變量解釋的變差被第二組中典型變量重復(fù)解釋的百分比,簡稱為第一組典型變量的冗余測度;Rd(X;Vk)表示第二組中典型變量解釋的變差被第一組中典型變量重復(fù)解釋的百分比,簡稱為第二組典型變量的冗余測度。
冗余測度的大小表示這對典型變量能夠?qū)α硪唤M變差相互解釋的程度大小。它將為進(jìn)一步討論多對多建模提供一些有用信息。
四 應(yīng)用例子一康復(fù)俱樂20名成員測試數(shù)據(jù)的典型相關(guān)分析
康復(fù)俱樂部對20名中年人測量了三個生理指標(biāo):WEIGHT(體重),WAIST(腰圍),PULSE(脈膊)和三個訓(xùn)練指標(biāo):CHINS(拉單杠次數(shù)),SITUPS(仰臥起坐次數(shù)),JUMPS(跳高)(數(shù)據(jù)見以下數(shù)據(jù)行)。試分析生理指標(biāo)和訓(xùn)練指標(biāo)這二組變量間的相關(guān)性。
解 使用SAS/STAT軟件中的CANCORR過程來完成典型相關(guān)分析。首先把測試數(shù)據(jù)生成SAS數(shù)據(jù)集,SAS程序如下:
data da20x6;input weight waist pulse chins situps jumps@@;label wight =’體重’ waist=’腰圍’ pulse=’脈搏’ chins=’單杠’
situps=’仰臥起坐’ jumps=’跳高’;
cards;191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=’生理指標(biāo)’wname=’訓(xùn)練指標(biāo)’;var weight waist pulse;with chins situps jumps;run;DATA步創(chuàng)建康復(fù)俱樂部測試數(shù)據(jù)的SAS數(shù)據(jù)集(名為DA20X6),它有20個觀測,6個變量。
CANCORR過程用于對輸入數(shù)據(jù)集DA20X6做典型相關(guān)分析。選項ALL要求輸出所有可選擇的計算結(jié)果;VNAIVIE=給出VAR語句中變量組的標(biāo)簽為生理指標(biāo) ;WNAIVIE=對WITH語句給出的第二組變量規(guī)定標(biāo)簽為訓(xùn)練指標(biāo)。VAR語句列出第一組變量的名字,WITH列出第二組變量的名字。部分計算結(jié)果見輸出1至輸出5。
輸出1 均值、標(biāo)準(zhǔn)差和兩組變量問的相關(guān)系數(shù)
— 輸出1列出6個變量的均值和標(biāo)準(zhǔn)差及生理指標(biāo)和訓(xùn)練指標(biāo)之間的相數(shù)。理指標(biāo)和訓(xùn)練指標(biāo)之間的相關(guān)性是中等的,其中WAIST和SITUPS 相關(guān)系數(shù)最大為-0.6456。
輸出2 典型相關(guān)分析系數(shù)及顯著性檢驗
— 輸出2給出典型相關(guān)分析的一般結(jié)果。第一典型相關(guān)系數(shù)為07956,它比生理指標(biāo)和訓(xùn)練指標(biāo)兩組間的任一個相關(guān)系數(shù)都大 檢驗總體中所有典型相關(guān)均為O的零假設(shè)時顯著性概率為0.0635(即Pr>F的值),故在α=0.10的顯著水平下,否定所有典型相關(guān)為0的假設(shè)。也就是至少有一個典型相關(guān)是顯著的。從后面的檢驗結(jié)果可知,只有第一典型相關(guān)系數(shù)是顯著不等于0的。因此,兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究第一對典型相關(guān)變量的相關(guān)性。
輸出3 標(biāo)準(zhǔn)化后典型變量的系數(shù)
— 輸出結(jié)果中還給出原始變量和標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù)。因六個變量沒有用相同單位測量,我們來分析標(biāo)準(zhǔn)化后的系數(shù)(見輸出3)。來自生理指標(biāo)的第一典型變量V1為(右上角帶“*”的變量表示標(biāo)準(zhǔn)化變量): V1=-0.7754WEIGHT* + 1.5793WAIST*1054SITUPS* + O.7164JUMPS*
它在SITUPS*上的系數(shù)最大 這一對典型變量主要是反映腰圍(WAIST*)和仰臥起坐(SITUPS)的負(fù)相關(guān)關(guān)系。
輸出4 典型結(jié)構(gòu)—原始變量和典型變量的相關(guān)系數(shù)陣
—由輸出4可看出來自生理指標(biāo)的第一典型變量v1與腰圍(WAIST)的相關(guān)系數(shù)為0.92,V與體重(WEIGHT)的相關(guān)為0.6206,它們都是正的。但典型變量V1在體重上的系數(shù)為負(fù)的(-0.7754),即體重在V1的系數(shù)和它與V1的相關(guān)反號。來自訓(xùn)練指標(biāo)的第一典型變量Wl與三個訓(xùn)練指標(biāo)的相關(guān)都是負(fù)值,其中跳高(JUMPS)在W1的系數(shù)(0.7164)和它與Wl的相關(guān)(-0.1622)也是反號。因此,體重和跳高在這兩組變量中是一個校正(或抑制)變量。
一個變量同典型變量的相關(guān)與在典型變量上的系數(shù)符號相反似乎是矛盾的。下面以體重為例來說明這一現(xiàn)象,我們知道肥胖性同腰圍和體重之間的關(guān)系很密切的。一般說來,有理由認(rèn)為胖的人比瘦的人仰臥起坐的次數(shù)少。假定這組樣本中沒有身高非常高的人,因此體重和腰圍之間的相關(guān)(0.8702)是很強的。· 腰圍大的人傾向于比腰圍小的人胖。因此腰圍與仰臥起坐為負(fù)相關(guān)(-0.6456)。· 體重大的人傾向于比體重小的人胖。于是體重與仰臥起坐為負(fù)相關(guān)(-0.4931)。
考慮用多元回歸方法由WAIST*(腰圍)和WEIGHT*(體重)來預(yù)測SITUPS*(仰臥起坐),得到的回歸式為:SITUPS* =0.2833 WEIGHT* – 0.8921 WAIST*,回歸式中WEIGHT* 系數(shù)的符號為正似乎不合理,關(guān)于系數(shù)的符號可解釋如下:
· 若固定體重的值,腰圍大的人傾向于較強壯和較胖,故而仰臥起坐次數(shù)少,于是腰圍的多元回歸系數(shù)(-0.8921)應(yīng)是負(fù)的。
· 若固定腰圍的值,體重大的人傾向于比較高和比較瘦,故而仰臥起坐次數(shù)多;因此體重的多元回歸系數(shù)(0.2833)應(yīng)為正的。這里體重與仰臥起坐的相關(guān)同體重的回歸系數(shù)符號相反。
因此,第一典型相關(guān)一般解釋為以體重(WEIGHT)和跳高(JUMPS)作為校正(或抑制)變量來強化腰圍(WAIST)和抑臥起坐(SITUPS)之間的負(fù)相關(guān)關(guān)系。
輸出5 CANCORR過程產(chǎn)生的典型冗余分析結(jié)果
—輸出5給出典型冗余分析的結(jié)果。我們來分析標(biāo)準(zhǔn)化的方差,第一典型變量vl可以解釋45.08%組內(nèi)變差,并解釋25.84%的另一組(訓(xùn)練指標(biāo))的變差;而典型變量wl可以解釋40.81%組內(nèi)變差,并解釋28.54%的另一組(生理指標(biāo))的變差??梢姷谝粚Φ湫妥兞縑1和Wl都不能很好地全面地預(yù)測另一組變量。第二和第三對典型變量實際上都沒有給出什么信息,三個典型變量解釋另一組總變差的累計百分比分別為0.2969和0.2767。
輸出5中第4張表格給出訓(xùn)練指標(biāo)組中各個變量被生理指標(biāo)變量組提取的前M個(M=1,2,3)典型變量V1,?,VM解釋變差的累計百分比(即多重相關(guān)的平方和:?r2(Y1,Vk)),可以看出只有CHINS(O.3351)和SITUPS(0.4233)可被對k?1M方變量組的第一典型變量Vl預(yù)測,Vl對JUMPS(O.0167)幾乎沒有預(yù)測能力。從第3張表格類似可得出,而來自訓(xùn)練指標(biāo)的第一典型變量Wl對WAIST(O.5421)有相當(dāng)好的預(yù)測能力,對WEIGHT(0.2438)較差,而對PULSE(0.0701)幾乎沒有預(yù)測能力。
[參考文獻(xiàn)]
[ 1]王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國肪工業(yè)出版社,2000. [2]高惠璇等.SAs系統(tǒng)SAS/STAT軟件使用手冊[M].北京:中國統(tǒng)計出版社,1998.[3] 高惠璇.實用統(tǒng)計方法與SAS系統(tǒng)[M]北京:北京大學(xué)出版社,2001. [4] 高惠璇.統(tǒng)計計算[M]北京:北京大學(xué)出版社,1995. [5]王學(xué)民.應(yīng)用多元分析[M]上海:上海財經(jīng)大學(xué)出版社,1999
第四篇:數(shù)據(jù)統(tǒng)計分析方法
數(shù)據(jù)統(tǒng)計分析方法
排列圖:
排列圖是由兩個縱坐標(biāo),一個橫坐標(biāo),若干個按高低順序依次排列的長方形和一條累計百分比折線所組 的,為尋找主要問題或主要原因所使用的圖。
排列圖有以下優(yōu)點:直觀,明了--全世界品質(zhì)管理界通用用數(shù)據(jù)說明問題--說服力強用途廣泛: 品質(zhì)管理 / 人員管理 / 治安管理排列圖的作圖步驟收集數(shù)據(jù)(某時間)作缺陷項目統(tǒng)計表繪制排列圖畫橫坐標(biāo)(標(biāo)出項目的等分刻度)畫左縱坐標(biāo)(表示頻數(shù))畫直方圖形(按每項的頻數(shù)畫)畫右縱坐標(biāo)(表示累計百分比)定點表數(shù)。
因果圖何謂因果圖:
對于結(jié)果(特性)與原因(要因)間或所期望之效果(特性)與對策的關(guān)系,以箭頭連接,詳細(xì)分析原因或?qū)Σ叩囊环N圖形稱為因果圖。因果圖為日本品管權(quán)威學(xué)者石川馨博士于1952年所發(fā)明,故又稱為石川圖,又因其形狀似魚骨,故也可稱其為魚骨圖,或特性要因圖作因果圖的原則采取由原因到結(jié)果的格式通常從‘人,機,料,法,環(huán)’這五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三個層次:主干線、支干線、分支線盡可能把所有的原因全部找出來列上對少數(shù)的主要原因標(biāo)上特殊的標(biāo)志寫上繪制的日期、作者、有關(guān)說明等作因果圖應(yīng)注意的事項問題(結(jié)果)應(yīng)單
一、具體,表述規(guī)范最后細(xì)分出來的因應(yīng)是具體的,以便采取措施;在尋找和分析原因時,要集思廣益,力求準(zhǔn)確和無遺漏可召開諸葛亮?xí)捎妙^腦風(fēng)暴法層次要清,因果關(guān)系不可顛倒原因歸類正確作因果圖應(yīng)注意的事項畫法按從左至右的貫例執(zhí)行--規(guī)范化在作因果圖前,可先從排列圖中找出主要問題,然后針對主要問題,召集相關(guān)人員進(jìn)行討論,力求盡可能找出產(chǎn)生問題的原因,通過分析,確立主要原因。因果圖在今后可不斷進(jìn)行修改,逐漸完善,反復(fù)使用。
直方圖:
是通過對數(shù)據(jù)的加工整理,從而分析和掌握品質(zhì)數(shù)據(jù)的分布狀況和估算工序不合格率的一種方法。直方圖的作法作直方圖的三大步驟作頻數(shù)表畫直方圖進(jìn)行有關(guān)計算作直方圖的步驟(例3)1.搜集數(shù)據(jù)作直方圖的步驟計算極差(Range),上表中最大值Xmax=48;最小值Xmin=1;R=Xmax-Xmin=48-1=47適當(dāng)分組(k)在本例中,取k=10確定組距(h)組距用字母 h 表示:h=R/k=47/10=4.7, Y約等于5。確定各組界限--組的邊界值單位取最小測量單位的一半。作直方圖的步驟本例第一組的下限為:第一組的上限值為下界限值加上組距第二組的下界值為上界限值,第一組的上界值加上組距就是第二組上界限值,照此類推,定出各組的邊界。編制頻數(shù)分布表
分層法
分層的目的是把雜亂無章和錯綜復(fù)雜的數(shù)據(jù),按照不同的目的、性質(zhì)、來源等加以分類整理,使之系統(tǒng)化、條理化,能更確切地反映數(shù)據(jù)所代表的客觀事實,便于查明產(chǎn)品質(zhì)量波動的實質(zhì)性原因和變化規(guī)律,以便抓住主要矛盾,找到主要影響因素,從而對癥下藥,采取相應(yīng)的措施。
分層的原則是使同一層內(nèi)的數(shù)據(jù)波動盡可能小、而層與層之間的差別盡可能大。
為了達(dá)到目的,通常按操作者、機器設(shè)備、材料、工藝方法、測量手段、環(huán)境條件和時間等標(biāo)志對數(shù)據(jù)進(jìn)行分層。
調(diào)查表
調(diào)查表也叫檢查表或核對表,它是一種為了便于搜集數(shù)據(jù)而使用簡單記號并予統(tǒng)計整理,并作進(jìn)一步分析或作為核對、檢查之用而事先設(shè)計的一種表格或圖表
控制圖
控制圖是一種帶有控制界限的反映過程質(zhì)量的記錄圖形,圖的縱軸代表産品質(zhì)量特性值(或由質(zhì)量特性值獲得的某種統(tǒng)計量);橫軸代表按時間順序(自左至右)抽取的各個樣本號;圖內(nèi)有中心線(記爲(wèi)CL)、上控制界限(記爲(wèi)UCL)和下控制界限(記爲(wèi)LCL)三條線(見下圖)
第五篇:實習(xí)九 數(shù)值變量資料的統(tǒng)計分析
(二)應(yīng)用題
1.某市100名7歲男童的坐高
(2)計算均數(shù)=66.65(cm)
(3)計算標(biāo)準(zhǔn)差=2.06(cm)
2.用玫瑰花結(jié)形成試驗檢查13名流行性出血熱患者的抗體滴度,結(jié)果如下,求平均滴度。G=lg-1(lg20+lg20+...+lg40)13
=lg-11.95=89.00