第一篇:統(tǒng)計(jì)分析方法學(xué)習(xí)總結(jié)
統(tǒng)計(jì)分析方法學(xué)習(xí)總結(jié)
S201505158 陳丹妮
一、統(tǒng)計(jì)的描述
一般采用以下幾種圖形描述數(shù)據(jù):
直方圖:表示幾個(gè)變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”; 盒形圖:比直方圖簡(jiǎn)單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖);
莖葉圖:既展示了數(shù)據(jù)的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字;
散點(diǎn)圖:描述的數(shù)據(jù)有兩對(duì)連續(xù)變量; 定型變量的圖:定性變量(或?qū)傩宰兞浚诸愖兞浚┎荒茳c(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例,如:餅圖、條形圖。
二、匯總統(tǒng)計(jì)量
表示位置的匯總統(tǒng)計(jì)量:均值(mean):樣本值的算術(shù)平均值;中位數(shù)(median):中間大小的數(shù)(一半樣本點(diǎn)小于中位數(shù));(第一或第三)(下、上)四分位數(shù)(點(diǎn))(first quantile, third quantile)(分別有1/4或3/4的數(shù)目小于它們);k-百分位數(shù)(k-percentile);a分位數(shù)(a centile): k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它;眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)。
表示尺度的匯總統(tǒng)計(jì)量:極差(range):極端值之差;四分位間距(四分位極差)(interquantile range)四分位數(shù)之差;標(biāo)準(zhǔn)差(standard deviation)方差平方根;方差(variance)各點(diǎn)到均值距離平方的平均。
三、相關(guān)的分布
相關(guān)的分布包括:離散分布、連續(xù)分布、抽樣分布:我們能夠利用樣本統(tǒng)計(jì)量中的(描述樣本的)信息, 比如樣本均值和樣本標(biāo)準(zhǔn)差中的信息,來對(duì)(描述總體的)總體參數(shù)(比如總體均值和總體標(biāo)準(zhǔn)差)進(jìn)行推斷(估計(jì)、檢驗(yàn)等)。
大數(shù)定律:闡述大量隨機(jī)變量的平均結(jié)果具有穩(wěn)定性的一系列定律的總稱。其中又分為獨(dú)立同分布大數(shù)定律(提供了用樣本平均數(shù)估計(jì)總體平均數(shù)的理論依據(jù))和貝努力大數(shù)定律(提供了頻率代替概率的理論依據(jù))。
中心極限定理:闡述大量隨機(jī)變量之和的極限分布是正態(tài)分布的一系列定理的總稱。獨(dú)立同分布中心極限定理(不論總體服從何種分布,只要它的數(shù)學(xué)期望和方差存在,從中抽取容量為n的樣本,當(dāng)n充分大時(shí),則這個(gè)樣本的總和或平均數(shù)是服從正態(tài)分布的隨機(jī)變量)和德莫佛-拉普拉斯中心極限定理(提供了用正態(tài)分布近似計(jì)算二項(xiàng)分布概率的方法)。均值的假設(shè)檢驗(yàn)包括對(duì)于正態(tài)總體均值的檢驗(yàn)、對(duì)于比例的檢驗(yàn)
四、各種分析方法
1.列聯(lián)表分析
列聯(lián)表變量中每個(gè)都有兩個(gè)或更多的可能取值,稱為水平,比如收入有三個(gè)水平,觀點(diǎn)有兩個(gè)水平,性別有兩個(gè)水平等。列聯(lián)表的中間各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。二維的列聯(lián)表又稱為交叉表(cross table)。列聯(lián)表可以有
很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個(gè)列聯(lián)表的變量都是定性變量;但列聯(lián)表也會(huì)帶有定量變量作為協(xié)變量。
2.方差分析
方差分析(analysis of variance,ANOVA)是分析各個(gè)自變量對(duì)因變量影響的一種方法。這里的自變量就是定性變量的因子及可能出現(xiàn)的稱為協(xié)變量(covariate)的定量變量。分析結(jié)果是由一個(gè)方差分析表表示的。原理為:把因變量的值隨著自變量的不同取值而得到的變化進(jìn)行分解,使得每一個(gè)自變量都有一份貢獻(xiàn),最后剩下無法用已知的原因解釋的則看成隨機(jī)誤差的貢獻(xiàn)。然后用各自變量的貢獻(xiàn)和隨機(jī)誤差的貢獻(xiàn)進(jìn)行比較(F檢驗(yàn)),以判斷該自變量的不同水平是否對(duì)因變量的變化有顯著貢獻(xiàn)。輸出就是F-值和檢驗(yàn)的一些p-值。
3.相關(guān)和回歸分析
發(fā)現(xiàn)變量之間的統(tǒng)計(jì)關(guān)系,并且用此規(guī)律來幫助我們進(jìn)行決策才是統(tǒng)計(jì)實(shí)踐的最終目的。一般來說,統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。
假如用Y表示感興趣的變量,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個(gè)函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關(guān)系的過程就叫做回歸(regression)。
一旦建立了回歸模型,除了對(duì)變量的關(guān)系有了進(jìn)一步的定量理解之外,還可以利用該模型(函數(shù))通過自變量對(duì)因變量做預(yù)測(cè)(prediction)。這里所說的預(yù)測(cè),是用已知的自變量的值通過模型對(duì)未知的因變量值進(jìn)行估計(jì);它并不一定涉及時(shí)間先后。
4.主成分分析和因子分析
主成分分析從原理上是尋找橢球的所有主軸。原先有幾個(gè)變量,就有幾個(gè)主成分。而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個(gè)步驟可以使結(jié)果更好。對(duì)于計(jì)算機(jī),因子分析并不費(fèi)事。從輸出的結(jié)果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。
5.聚類分析
物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國(guó)的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來分類。對(duì)一個(gè)數(shù)據(jù),既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。當(dāng)然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)
本身的規(guī)律來分類。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。它們?cè)跀?shù)學(xué)上是無區(qū)別的。
k-均值聚類(k-means cluster,也叫快速聚類,quick cluster)卻要求先說好要分多少類。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中呢。另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchical cluster)。開始時(shí),有多少點(diǎn)就是多少類。它第一步先把最近的兩類(點(diǎn))合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠(yuǎn)。
6.判別分析
在聚類分析中,人們一般事先并不知道應(yīng)該分成幾類及哪幾類,全根據(jù)數(shù)據(jù)確定。在判別分析中,至少有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,并利用該樣本來建立判別準(zhǔn)則,并通過預(yù)測(cè)變量來為未知類別的觀測(cè)值進(jìn)行判別了。訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能用于判別的預(yù)測(cè)變量。這是最重要的。當(dāng)然,在應(yīng)用中,選擇余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗(yàn)證。判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果作解釋。在計(jì)算中需要看關(guān)于各個(gè)類的有關(guān)變量的均值是否顯著不同的。
7.典型相關(guān)分析
由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個(gè)由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。目的:研究多個(gè)變量之間的相關(guān)性。方法:利用主成分思想,可以把多個(gè)變量與多個(gè)變量之間的相關(guān)化為兩個(gè)變量之間的相關(guān).即找一組系數(shù)(向量)l和m, 使新變量U=l`X(1)和V=m`X(2)有最大可能的相關(guān)關(guān)系。
8.對(duì)應(yīng)分析
在因子分析中,或者只對(duì)變量(列中的變量)進(jìn)行分析,或者只對(duì)樣品(觀測(cè)值或行中的變量)進(jìn)行分析;而且利用載荷圖來描述各個(gè)變量之間的接近程度。典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;對(duì)應(yīng)分析方法被普遍認(rèn)為是探索性數(shù)據(jù)分析的內(nèi)容,處理列聯(lián)表的問題僅僅是對(duì)應(yīng)分析的一個(gè)特例。一般地,對(duì)應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時(shí)所處理的數(shù)據(jù)形式。在對(duì)應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對(duì)。如果對(duì)每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點(diǎn)圖。由于這兩個(gè)圖所表示的載荷可以配對(duì),于是就可以把這兩個(gè)因子載荷的兩個(gè)散點(diǎn)圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對(duì)應(yīng)分析的數(shù)學(xué)方法來研究行變量各個(gè)水平和列變量各個(gè)水平之間的關(guān)系。
9.時(shí)間序列分析
人們對(duì)統(tǒng)計(jì)數(shù)據(jù)往往可以根據(jù)其特點(diǎn)從兩個(gè)方面來切入,以簡(jiǎn)化分析過程。一個(gè)是研究所謂橫截面(cross section)數(shù)據(jù),也就是對(duì)大體上同時(shí),或者和時(shí)間無關(guān)的不同對(duì)象的觀測(cè)值組成的數(shù)據(jù)。另一個(gè)稱為時(shí)間序列(time series),也就是由對(duì)象在不同時(shí)間的觀測(cè)值形成的數(shù)據(jù)。時(shí)間序列分析也是一種回歸。回歸分析的目的是建立因變量和自變量之間關(guān)系的模型;并且可以用自變量來對(duì)因變量進(jìn)行預(yù)測(cè)。通常線性回歸分析因變量的觀測(cè)值假定是互相獨(dú)立并且有同樣分布。而時(shí)間序列的最大特點(diǎn)是觀測(cè)值并不獨(dú)立。時(shí)間序列的一個(gè)目的是用變量過去的觀測(cè)值來預(yù)測(cè)同一變量的未來值。也就是說,時(shí)間序列的因變量為變量未來的可能值,而用來預(yù)測(cè)的自變量中就包含該變量的一系列歷史觀測(cè)值。當(dāng)然時(shí)間序列的自變量也可能包含隨著時(shí)間度量的獨(dú)立變量。一個(gè)時(shí)間序列可能有趨勢(shì)、季節(jié)、循環(huán)這三個(gè)成分中的某些或全部再加上隨機(jī)成分。因此,如果要想對(duì)一個(gè)時(shí)間序列本身進(jìn)行較深入的研究,把序列的這些成分分解出來、或者把它們過慮掉則會(huì)有很大的幫助。如果要進(jìn)行預(yù)測(cè),則最好把模型中的與這些成分有關(guān)的參數(shù)估計(jì)出來。
如果我們不僅僅滿足于分解現(xiàn)有的時(shí)間序列,而且想要對(duì)未來進(jìn)行預(yù)測(cè),就需要建立模型。首先,這里介紹比較簡(jiǎn)單的指數(shù)平滑(exponential smoothing)。指數(shù)平滑只能用于純粹時(shí)間序列的情況,而不能用于含有獨(dú)立變量時(shí)間序列的因果關(guān)系的研究。指數(shù)平滑的原理為:當(dāng)利用過去觀測(cè)值的加權(quán)平均來預(yù)測(cè)未來的觀測(cè)值時(shí)(這個(gè)過程稱為平滑),離得越近的觀測(cè)值要給以更多的權(quán)。而“指數(shù)”意味著:按照已有觀測(cè)值“老”的程度,其上的權(quán)數(shù)按指數(shù)速度遞減。
第二篇:統(tǒng)計(jì)分析學(xué)習(xí)總結(jié)
經(jīng)過四周的課程主要學(xué)習(xí)了以下幾種分析方法: 1.方差分析
方差分析(Analysis of Variance,簡(jiǎn)稱ANOVA),又稱“變異數(shù)分析”或“F檢 驗(yàn)”,是R.A.Fisher發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測(cè)變量的方差入手,研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量。
作用:一個(gè)復(fù)雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對(duì)該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進(jìn)行分解的一種技術(shù)。對(duì)變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個(gè)很重要的思想。
經(jīng)過方差分析若拒絕了檢驗(yàn)假設(shè),只能說明多個(gè)樣本總體均值不相等或不全相等。若要得到各組均值間更詳細(xì)的信息,應(yīng)在方差分析的基礎(chǔ)上進(jìn)行多個(gè)樣本均值的兩兩比較。
(1)多個(gè)樣本均值間兩兩比較
多個(gè)樣本均值間兩兩比較常用q檢驗(yàn)的方法,即Newman-kueuls法,其基本步驟為:建立檢驗(yàn)假設(shè)-->樣本均值排序-->計(jì)算q值-->查q界值表判斷結(jié)果。
(2)多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組均值間兩兩比較
多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組均值間兩兩比較,若目的是減小第II類錯(cuò)誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯(cuò)誤,最好選用新復(fù)極差法,前者查t界值表,后者查q'界值表。折疊
分析方法
根據(jù)資料設(shè)計(jì)類型的不同,有以下兩種方差分析的方法:
1、對(duì)成組設(shè)計(jì)的多個(gè)樣本均值比較,應(yīng)采用完全隨機(jī)設(shè)計(jì)的方差分析,即單因素方差分析。
2、對(duì)隨機(jī)區(qū)組設(shè)計(jì)的多個(gè)樣本均值比較,應(yīng)采用配伍組設(shè)計(jì)的方差分析,即兩因素方差分析。折疊兩類方差分析的異同
兩類方差分析的基本步驟相同,只是變異的分解方式不同,對(duì)成組設(shè)計(jì)的資料,總變異分解為組內(nèi)變異和組間變異(隨機(jī)誤差),即:SS總=SS組間+SS組內(nèi),而對(duì)配伍組設(shè)計(jì)的資料,總變異除了分解為處理組變異和隨機(jī)誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。折疊基本步驟
整個(gè)方差分析的基本步驟如下:
1、建立檢驗(yàn)假設(shè); H0:多個(gè)樣本總體均值相等;
H1:多個(gè)樣本總體均值不相等或不全等。檢驗(yàn)水準(zhǔn)為0.05。
2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值;
3、確定P值并作出推斷結(jié)果。
2.回歸分析法定義
所謂回歸分析法,是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式(稱回歸方程式)。回歸分析法不能用于分析與評(píng)價(jià)工程項(xiàng)目風(fēng)險(xiǎn)。
分類
回歸分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個(gè)自變量時(shí),叫做一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí),叫做多元回歸分析。根據(jù)自變量的個(gè)數(shù),可以是一元回歸,也可以是多元回歸。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)
表達(dá)式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。根據(jù)所研究問題的性質(zhì),可以是線性回歸,也可以是非線性回歸。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數(shù)學(xué)手段化為線性回歸問題處理。回歸分析法預(yù)測(cè)是利用回歸分析方法,根據(jù)一個(gè)或一組自變量的變動(dòng)情況預(yù)測(cè)與其有相關(guān)關(guān)系的某隨機(jī)變量的未來值。進(jìn)行回歸分析需要建立描述變量間相關(guān)關(guān)系的回歸方程。
應(yīng)用
社會(huì)經(jīng)濟(jì)現(xiàn)象之間的相關(guān)關(guān)系往往難以用確定性的函數(shù)關(guān)系來描述,它們大多是隨機(jī)性的,要通過統(tǒng)計(jì)觀察才能找出其中規(guī)律。回歸分析是利用統(tǒng)計(jì)學(xué)原理描述隨機(jī)變量間相關(guān)關(guān)系的一種重要方法。
在物流的計(jì)算中,回歸分析法的公式如下: y=a+bx b=∑xy-n·∑x∑y/[∑x²-n·(∑x)²];a=∑y-b·∑x/n
3.主成分分析和因子分析
principal component analysis(PCA)主成分分析法是一種數(shù)學(xué)變換的方法, 它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變 量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個(gè)變量就有I個(gè)主成分。
其中Li為p維正交化向量(Li*Li=1),Zi之間互不相關(guān)且按照方差由大到小排列,則稱Zi為X的第I個(gè)主成分。設(shè)X的協(xié)方差矩陣為Σ,則Σ必為半正定對(duì)稱矩陣,求特征值λi(按從大到小排序)及其特征向量,可以證明,λi所對(duì)應(yīng)的正交化特征向量,即為第I個(gè)主成分Zi所對(duì)應(yīng)的系數(shù)向量Li,而Zi的方差貢獻(xiàn)率定義為λi/Σλj,通常要求提取的主成分的數(shù)量k滿足Σλk/Σλj>0.85。
主成分分析主要是一種探索性的技術(shù),在分析者進(jìn)行多元數(shù)據(jù)分析之前,用他來分析數(shù)據(jù),讓自己對(duì)數(shù)據(jù)有一個(gè)大致的了解,這是非常有必要的。主成分分析一般很少單獨(dú)使用:a、了解數(shù)據(jù)。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當(dāng)變量很多,個(gè)案數(shù)不多,直接使用判別分析可能無解,這時(shí)候可以使用主成分對(duì)變量簡(jiǎn)化(reduce dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數(shù)),還可以用來處理共線性。
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變量的線性組合。
2、主成分分析的重點(diǎn)在于解釋各變量的總方差,而因子分析則把重點(diǎn)放在解釋各變量之間的協(xié)方差。
3、主成分分析中不需要有假設(shè)(assumptions),因子分析則需要一些假設(shè)。因子分析的假設(shè)包括:各個(gè)共同因子之間不相關(guān),特殊因子(specific factor)之間也不相關(guān),共同因子和特殊因子之間也不相關(guān)。
4、主成分分析中,當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值是唯一的時(shí)候,主成分一般是獨(dú)特的;而因子分析中因子不是獨(dú)特的,可以旋轉(zhuǎn)得到不同的因子。
5、在因子分析中,因子個(gè)數(shù)需要分析者指定(spss根據(jù)一定的條件自動(dòng)設(shè)定,只要是特征值大于1的因子進(jìn)入分析),而指定的因子數(shù)量不同而結(jié)果不同。在主成分分析中,成分的數(shù)量是一定的,一般有幾個(gè)變量就有幾個(gè)主成分。和主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢(shì)。大致說來,當(dāng)需要尋找潛在的因子,并對(duì)這些因子進(jìn)行解釋的時(shí)候,更加傾向于使用因子分析,并且借助旋轉(zhuǎn)技術(shù)幫助更好解釋。而如果想把現(xiàn)有的變量變成少數(shù)幾個(gè)新的變量(新的變量幾乎帶有原來所有變量的信息)來進(jìn)入后續(xù)的分析,則可以使用主成分分析。當(dāng)然,這種情況也可以使用因子得分做到。所以這種區(qū)分不是絕對(duì)的。
在算法上,主成分分析和因子分析很類似,不過在因子分析中所采用的協(xié)方差矩陣的對(duì)角元素不再是變量的方差,而是和變量對(duì)應(yīng)的共同度(變量方差中被各因子所解釋的部分)。4.聚類分析
依據(jù)研究對(duì)象(樣品或指標(biāo))的特征,對(duì)其進(jìn)行分類的方法,減少研究對(duì)象的數(shù)目。各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質(zhì)相近事物歸入一類。各指標(biāo)之間具有一定的相關(guān)關(guān)系。聚類分析(cluster analysis)是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組(clusters)的統(tǒng)計(jì)分析技術(shù)。聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)變量類型:定類變量、定量(離散和連續(xù))變量 聚類方法
1,層次聚類(Hierarchical Clustering)合并法、分解法、樹狀圖 2.非層次聚類 劃分聚類、譜聚類 分析步驟:
定義問題與選擇分類變量;聚類方法;確定群組數(shù)目;聚類結(jié)果評(píng)估;結(jié)果的描述、解釋
5典型相關(guān)分析和對(duì)應(yīng)分析
典型相關(guān)分析(canonical correlation analysis)就是利用綜合變量對(duì)之間的相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性的多元統(tǒng)計(jì)分析方法。它的基本原理是:為了從總體上把握兩組指標(biāo)之間的相關(guān)關(guān)系,分別在兩組變量中提取有代表性的兩個(gè)綜合變量U1和V1(分別為兩個(gè)變量組中各變量的線性組合),利用這兩個(gè)綜合變量之間的相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性。
對(duì)應(yīng)分析(Correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計(jì)分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。主要應(yīng)用在市場(chǎng)細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計(jì)算機(jī)工程等領(lǐng)域中。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。6.判別分析和時(shí)間序列分析 判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計(jì)分析方法。其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。當(dāng)?shù)玫揭粋€(gè)新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。時(shí)間序列分析(Time series analysis)是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法。該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問題。它包括一般統(tǒng)計(jì)分析(如自相關(guān)分析,譜分析等),統(tǒng)計(jì)模型的建立與推斷,以及關(guān)于時(shí)間序列的最優(yōu)預(yù)測(cè)、控制與濾波等內(nèi)容。經(jīng)典的統(tǒng)計(jì)分析都假定數(shù)據(jù)序列具有獨(dú)立性,而時(shí)間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。后者實(shí)際上是對(duì)離散指標(biāo)的隨機(jī)過程的統(tǒng)計(jì)分析,所以又可看作是隨機(jī)過程統(tǒng)計(jì)的一個(gè)組成部分。例如,記錄了某地區(qū)第一個(gè)月,第二個(gè)月,??,第N個(gè)月的降雨量,利用時(shí)間序列分析方法,可以對(duì)未來各月的雨量進(jìn)行預(yù)報(bào)。
第三篇:數(shù)據(jù)統(tǒng)計(jì)分析方法
數(shù)據(jù)統(tǒng)計(jì)分析方法
排列圖:
排列圖是由兩個(gè)縱坐標(biāo),一個(gè)橫坐標(biāo),若干個(gè)按高低順序依次排列的長(zhǎng)方形和一條累計(jì)百分比折線所組 的,為尋找主要問題或主要原因所使用的圖。
排列圖有以下優(yōu)點(diǎn):直觀,明了--全世界品質(zhì)管理界通用用數(shù)據(jù)說明問題--說服力強(qiáng)用途廣泛: 品質(zhì)管理 / 人員管理 / 治安管理排列圖的作圖步驟收集數(shù)據(jù)(某時(shí)間)作缺陷項(xiàng)目統(tǒng)計(jì)表繪制排列圖畫橫坐標(biāo)(標(biāo)出項(xiàng)目的等分刻度)畫左縱坐標(biāo)(表示頻數(shù))畫直方圖形(按每項(xiàng)的頻數(shù)畫)畫右縱坐標(biāo)(表示累計(jì)百分比)定點(diǎn)表數(shù)。
因果圖何謂因果圖:
對(duì)于結(jié)果(特性)與原因(要因)間或所期望之效果(特性)與對(duì)策的關(guān)系,以箭頭連接,詳細(xì)分析原因或?qū)Σ叩囊环N圖形稱為因果圖。因果圖為日本品管權(quán)威學(xué)者石川馨博士于1952年所發(fā)明,故又稱為石川圖,又因其形狀似魚骨,故也可稱其為魚骨圖,或特性要因圖作因果圖的原則采取由原因到結(jié)果的格式通常從‘人,機(jī),料,法,環(huán)’這五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三個(gè)層次:主干線、支干線、分支線盡可能把所有的原因全部找出來列上對(duì)少數(shù)的主要原因標(biāo)上特殊的標(biāo)志寫上繪制的日期、作者、有關(guān)說明等作因果圖應(yīng)注意的事項(xiàng)問題(結(jié)果)應(yīng)單
一、具體,表述規(guī)范最后細(xì)分出來的因應(yīng)是具體的,以便采取措施;在尋找和分析原因時(shí),要集思廣益,力求準(zhǔn)確和無遺漏可召開諸葛亮?xí)捎妙^腦風(fēng)暴法層次要清,因果關(guān)系不可顛倒原因歸類正確作因果圖應(yīng)注意的事項(xiàng)畫法按從左至右的貫例執(zhí)行--規(guī)范化在作因果圖前,可先從排列圖中找出主要問題,然后針對(duì)主要問題,召集相關(guān)人員進(jìn)行討論,力求盡可能找出產(chǎn)生問題的原因,通過分析,確立主要原因。因果圖在今后可不斷進(jìn)行修改,逐漸完善,反復(fù)使用。
直方圖:
是通過對(duì)數(shù)據(jù)的加工整理,從而分析和掌握品質(zhì)數(shù)據(jù)的分布狀況和估算工序不合格率的一種方法。直方圖的作法作直方圖的三大步驟作頻數(shù)表畫直方圖進(jìn)行有關(guān)計(jì)算作直方圖的步驟(例3)1.搜集數(shù)據(jù)作直方圖的步驟計(jì)算極差(Range),上表中最大值Xmax=48;最小值Xmin=1;R=Xmax-Xmin=48-1=47適當(dāng)分組(k)在本例中,取k=10確定組距(h)組距用字母 h 表示:h=R/k=47/10=4.7, Y約等于5。確定各組界限--組的邊界值單位取最小測(cè)量單位的一半。作直方圖的步驟本例第一組的下限為:第一組的上限值為下界限值加上組距第二組的下界值為上界限值,第一組的上界值加上組距就是第二組上界限值,照此類推,定出各組的邊界。編制頻數(shù)分布表
分層法
分層的目的是把雜亂無章和錯(cuò)綜復(fù)雜的數(shù)據(jù),按照不同的目的、性質(zhì)、來源等加以分類整理,使之系統(tǒng)化、條理化,能更確切地反映數(shù)據(jù)所代表的客觀事實(shí),便于查明產(chǎn)品質(zhì)量波動(dòng)的實(shí)質(zhì)性原因和變化規(guī)律,以便抓住主要矛盾,找到主要影響因素,從而對(duì)癥下藥,采取相應(yīng)的措施。
分層的原則是使同一層內(nèi)的數(shù)據(jù)波動(dòng)盡可能小、而層與層之間的差別盡可能大。
為了達(dá)到目的,通常按操作者、機(jī)器設(shè)備、材料、工藝方法、測(cè)量手段、環(huán)境條件和時(shí)間等標(biāo)志對(duì)數(shù)據(jù)進(jìn)行分層。
調(diào)查表
調(diào)查表也叫檢查表或核對(duì)表,它是一種為了便于搜集數(shù)據(jù)而使用簡(jiǎn)單記號(hào)并予統(tǒng)計(jì)整理,并作進(jìn)一步分析或作為核對(duì)、檢查之用而事先設(shè)計(jì)的一種表格或圖表
控制圖
控制圖是一種帶有控制界限的反映過程質(zhì)量的記錄圖形,圖的縱軸代表産品質(zhì)量特性值(或由質(zhì)量特性值獲得的某種統(tǒng)計(jì)量);橫軸代表按時(shí)間順序(自左至右)抽取的各個(gè)樣本號(hào);圖內(nèi)有中心線(記爲(wèi)CL)、上控制界限(記爲(wèi)UCL)和下控制界限(記爲(wèi)LCL)三條線(見下圖)
第四篇:大數(shù)據(jù)的統(tǒng)計(jì)分析方法
統(tǒng)計(jì)分析方法有哪幾種?下面天互數(shù)據(jù)將詳細(xì)闡述,并介紹一些常用的統(tǒng)計(jì)分析軟件。
一、指標(biāo)對(duì)比分析法指標(biāo)對(duì)比分析法
統(tǒng)計(jì)分析的八種方法
一、指標(biāo)對(duì)比分析法指標(biāo)對(duì)比分析法,又稱比較分析法,是統(tǒng)計(jì)分析中最常用的方法。是通過有關(guān)的指標(biāo)對(duì)比來反映事物數(shù)量上差異和變化的方法,有比較才能鑒別。
指標(biāo)分析對(duì)比分析方法可分為靜態(tài)比較和動(dòng)態(tài)比較分析。靜態(tài)比較是同一時(shí)間條件下不同總體指標(biāo)比較,如不同部門、不同地區(qū)、不同國(guó)家的比較,也叫橫向比較;動(dòng)態(tài)比較是同一總體條件不同時(shí)期指標(biāo)數(shù)值的比較,也叫縱向比較。
二、分組分析法指標(biāo)對(duì)比分析法
分組分析法指標(biāo)對(duì)比分析法對(duì)比,但組成統(tǒng)計(jì)總體的各單位具有多種特征,這就使得在同一總體范圍內(nèi)的各單位之間產(chǎn)生了許多差別,統(tǒng)計(jì)分析不僅要對(duì)總體數(shù)量特征和數(shù)量關(guān)系進(jìn)行分析,還要深入總體的內(nèi)部進(jìn)行分組分析。分組分析法就是根據(jù)統(tǒng)計(jì)分析的目的要求,把所研究的總體按照一個(gè)或者幾個(gè)標(biāo)志劃分為若干個(gè)部分,加以整理,進(jìn)行觀察、分析,以揭示其內(nèi)在的聯(lián)系和規(guī)律性。
統(tǒng)計(jì)分組法的關(guān)鍵問題在于正確選擇分組標(biāo)值和劃分各組界限。
三、時(shí)間數(shù)列及動(dòng)態(tài)分析法
時(shí)間數(shù)列。是將同一指標(biāo)在時(shí)間上變化和發(fā)展的一系列數(shù)值,按時(shí)間先后順序排列,就形成時(shí)間數(shù)列,又稱動(dòng)態(tài)數(shù)列。它能反映社會(huì)經(jīng)濟(jì)現(xiàn)象的發(fā)展變動(dòng)情況,通過時(shí)間數(shù)列的編制和分析,可以找出動(dòng)態(tài)變化規(guī)律,為預(yù)測(cè)未來的發(fā)展趨勢(shì)提供依據(jù)。時(shí)間數(shù)列可分為絕對(duì)數(shù)時(shí)間數(shù)列、相對(duì)數(shù)時(shí)間數(shù)列、平均數(shù)時(shí)間數(shù)列。
時(shí)間數(shù)列速度指標(biāo)。根據(jù)絕對(duì)數(shù)時(shí)間數(shù)列可以計(jì)算的速度指標(biāo):有發(fā)展速度、增長(zhǎng)速度、平均發(fā)展速度、平均增長(zhǎng)速度。
動(dòng)態(tài)分析法。在統(tǒng)計(jì)分析中,如果只有孤立的一個(gè)時(shí)期指標(biāo)值,是很難作出判斷的。如果編制了時(shí)間數(shù)列,就可以進(jìn)行動(dòng)態(tài)分析,反映其發(fā)展水平和速度的變化規(guī)律。
四、指數(shù)分析法
指數(shù)是指反映社會(huì)經(jīng)濟(jì)現(xiàn)象變動(dòng)情況的相對(duì)數(shù)。有廣義和狹義之分。根據(jù)指數(shù)所研究的范圍不同可以有個(gè)體指數(shù)、類指數(shù)與總指數(shù)之分。
指數(shù)的作用:一是可以綜合反映復(fù)雜的社會(huì)經(jīng)濟(jì)現(xiàn)象的總體數(shù)量變動(dòng)的方向和程度;二是可以分析某種社會(huì)經(jīng)濟(jì)現(xiàn)象的總變動(dòng)受各因素變動(dòng)影響的程度,這是一種因素分析法。操作方法是:通過指數(shù)體系中的數(shù)量關(guān)系,假定其他因素不變,來觀察某一因素的變動(dòng)對(duì)總變動(dòng)的影響。
用指數(shù)進(jìn)行因素分析。因素分析就是將研究對(duì)象分解為各個(gè)因素,把研究對(duì)象的總體看成是各因素變動(dòng)共同的結(jié)果,通過對(duì)各個(gè)因素的分析,對(duì)研究對(duì)象總變動(dòng)中各項(xiàng)因素的影響程度進(jìn)行測(cè)定。因素分析按其所研究的對(duì)象的統(tǒng)計(jì)指標(biāo)不同可分為對(duì)總量指標(biāo)的變動(dòng)的因素分析,對(duì)平均指標(biāo)變動(dòng)的因素分析。
五、平衡分析法
平衡分析是研究社會(huì)經(jīng)濟(jì)現(xiàn)象數(shù)量變化對(duì)等關(guān)系的一種方法。它把對(duì)立統(tǒng)一的雙方按其構(gòu)成要素一一排列起來,給人以整體的概念,以便于全局來觀察它們之間的平衡關(guān)系。平衡關(guān)系廣泛存在于經(jīng)濟(jì)生活中,大至全國(guó)宏觀經(jīng)濟(jì)運(yùn)行,小至個(gè)人經(jīng)濟(jì)收支。平衡分析的作用:一是從數(shù)量對(duì)等關(guān)系上反映社會(huì)經(jīng)濟(jì)現(xiàn)象的平衡狀況,分析各種比例關(guān)系相適應(yīng)狀況;二是揭示不平衡的因素和發(fā)展?jié)摿Γ蝗抢闷胶怅P(guān)系可以從各項(xiàng)已知指標(biāo)中推算未知的個(gè)別指標(biāo)。
六、綜合評(píng)價(jià)分析
社會(huì)經(jīng)濟(jì)分析現(xiàn)象往往是錯(cuò)綜復(fù)雜的,社會(huì)經(jīng)濟(jì)運(yùn)行狀況是多種因素綜合作用的結(jié)果,而且各個(gè)因素的變動(dòng)方向和變動(dòng)程度是不同的。如對(duì)宏觀經(jīng)濟(jì)運(yùn)行的評(píng)價(jià),涉及生活、分配、流通、消費(fèi)各個(gè)方面;對(duì)企業(yè)經(jīng)濟(jì)效益的評(píng)價(jià),涉及人、財(cái)、物合理利用和市場(chǎng)銷售狀況。如果只用單一指標(biāo),就難以作出恰當(dāng)?shù)脑u(píng)價(jià)。
進(jìn)行綜合評(píng)價(jià)包括四個(gè)步驟:
1.確定評(píng)價(jià)指標(biāo)體系,這是綜合評(píng)價(jià)的基礎(chǔ)和依據(jù)。要注意指標(biāo)體系的全面性和系統(tǒng)性。
2.搜集數(shù)據(jù),并對(duì)不同計(jì)量單位的指標(biāo)數(shù)值進(jìn)行同度量處理。可采用相對(duì)化處理、函數(shù)化處理、標(biāo)準(zhǔn)化處理等方法。
3.確定各指標(biāo)的權(quán)數(shù),以保證評(píng)價(jià)的科學(xué)性。根據(jù)各個(gè)指標(biāo)所處的地位和對(duì)總體影響程度不同,需要對(duì)不同指標(biāo)賦予不同的權(quán)數(shù)。
4.對(duì)指標(biāo)進(jìn)行匯總,計(jì)算綜合分值,并據(jù)此作出綜合評(píng)價(jià)。
七、景氣分析
經(jīng)濟(jì)波動(dòng)是客觀存在的,是任何國(guó)家都難以完全避免的。如何避免大的經(jīng)濟(jì)波動(dòng),保持經(jīng)濟(jì)的穩(wěn)定發(fā)展,一直是各國(guó)政府和經(jīng)濟(jì)之專家在宏觀調(diào)控和決策中面臨的重要課題,景氣分析正是適應(yīng)這一要求而產(chǎn)生和發(fā)展的。景氣分析是一種綜合評(píng)價(jià)分析,可分為宏觀經(jīng)濟(jì)景氣分析和企業(yè)景氣調(diào)查分析。
宏觀經(jīng)濟(jì)景氣分析。是國(guó)家統(tǒng)計(jì)局20世紀(jì)80年代后期開始著手建立監(jiān)測(cè)指標(biāo)體系和評(píng)價(jià)方法,經(jīng)過十多年時(shí)間和不斷完善,已形成制度,定期提供景氣分析報(bào)告,對(duì)宏觀經(jīng)濟(jì)運(yùn)行狀態(tài)起到晴雨表和報(bào)警器的作用,便于國(guó)務(wù)院和有關(guān)部門及時(shí)采取宏觀調(diào)控措施。以經(jīng)常性的小調(diào)整,防止經(jīng)濟(jì)的大起大落。
企業(yè)景氣調(diào)查分析。是全國(guó)的大中型各類企業(yè)中,采取抽樣調(diào)查的方法,通過問卷的形式,讓企業(yè)負(fù)責(zé)人回答有關(guān)情況判斷和預(yù)期。內(nèi)容分為兩類:一是對(duì)宏觀經(jīng)濟(jì)總體的判斷和預(yù)期;一是對(duì)企業(yè)經(jīng)營(yíng)狀況的判斷和預(yù)期,如產(chǎn)品訂單、原材料購(gòu)進(jìn)、價(jià)格、存貨、就業(yè)、市場(chǎng)需求、固定資產(chǎn)投資等。
八、預(yù)測(cè)分析
宏觀經(jīng)濟(jì)決策和微觀經(jīng)濟(jì)決策,不僅需要了解經(jīng)濟(jì)運(yùn)行中已經(jīng)發(fā)生了的實(shí)際情況,而且更需要預(yù)見未來將發(fā)生的情況。根據(jù)已知的過去和現(xiàn)在推測(cè)未來,就是預(yù)測(cè)分析。
統(tǒng)計(jì)預(yù)測(cè)屬于定量預(yù)測(cè),是以數(shù)據(jù)分析為主,在預(yù)測(cè)中結(jié)合定性分析。統(tǒng)計(jì)預(yù)測(cè)的方法大致可分為兩類:一類是主要根據(jù)指標(biāo)時(shí)間數(shù)列自身變化與時(shí)間的依存關(guān)系進(jìn)行預(yù)測(cè),屬于時(shí)間數(shù)列分析;另一類是根據(jù)指標(biāo)之間相互影響的因果關(guān)系進(jìn)行預(yù)測(cè),屬于回歸分析。
預(yù)測(cè)分析的方法有回歸分析法、滑動(dòng)平均法、指數(shù)平滑法、周期(季節(jié))變化分析和隨機(jī)變化分析等。比較復(fù)雜的預(yù)測(cè)分析需要建立計(jì)量經(jīng)濟(jì)模型,求解模型中的參數(shù)又有許多方法。
第五篇:應(yīng)用統(tǒng)計(jì)分析課程學(xué)習(xí)總結(jié)
應(yīng)用統(tǒng)計(jì)分析課程學(xué)習(xí)總結(jié)
在學(xué)期開始時(shí),老師就語重心長(zhǎng)的告訴我們:一定要好好聽?wèi)?yīng)用統(tǒng)計(jì)分析的課,那個(gè)SPSS軟件非常有用,以后寫論文肯定要用到!盡管心里也是一再暗示自己要好好學(xué),但是因?yàn)槠渌颍瑢W(xué)習(xí)的效果并沒有預(yù)期中的那么理想,課程結(jié)束后依舊是模模糊糊,好多知識(shí)還真的是一知半解。通過回顧課程內(nèi)容,閱讀老師發(fā)來的SPSS電子書,我簡(jiǎn)略總結(jié)一下自己這學(xué)期所學(xué)到的基本內(nèi)容。
SPSS社會(huì)科學(xué)統(tǒng)計(jì)軟件是世界著名的統(tǒng)計(jì)分析軟件之一,SPSS作為數(shù)據(jù)統(tǒng)計(jì)分析的重要工具,其操作是屬于技術(shù)方面的,關(guān)鍵在于數(shù)據(jù)的收集描述和分析以及后期數(shù)據(jù)處理時(shí)的假設(shè)檢驗(yàn)方法的選擇。通俗一點(diǎn)說,使用SPSS可以從一堆看似雜亂無章的數(shù)字中找到聯(lián)系,發(fā)現(xiàn)數(shù)據(jù)之間的影響關(guān)系。這就是SPSS的神奇之處,這也就是我們作為研究生在實(shí)證研究時(shí)使用SPSS的目的和用途。
描述性統(tǒng)計(jì)是進(jìn)行其他統(tǒng)計(jì)分析的基礎(chǔ)和前提。利用這些基本統(tǒng)計(jì)方法,可以對(duì)要分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,同時(shí)也為更深入的分析提供了依據(jù)。在商業(yè)分析中,通常需要進(jìn)行組與組之間平均水平的比較。t檢驗(yàn)方法,就是主要用來進(jìn)行兩個(gè)樣本間的比較。t檢驗(yàn)的基本原理是:首先假設(shè)零假設(shè)H0成立,即樣本間不存在顯著差異,然后利用現(xiàn)有樣本根據(jù)t 分布求得t值,并據(jù)此得到相應(yīng)的概率值p,若p≤ɑ,則拒絕原假設(shè),認(rèn)為兩樣本間存在顯著差異。SPSS中“Analyze”菜單中的“Compare Means”可用于均值檢驗(yàn),其子菜單中的“One-sample t test”用于單一樣本t檢驗(yàn);“Independent-samples t test”用于兩獨(dú)立樣本t檢驗(yàn);“Baired-samples t test”用于兩配對(duì)樣本t檢驗(yàn)。方差分析用于兩個(gè)及兩個(gè)以上樣本均值差異的顯著性檢驗(yàn)。方差分析的基本思想是:通過分析研究中不同變量的變異對(duì)總變異的貢獻(xiàn)大小,確定控制變量對(duì)研究變量影響力的大小。通過方差分析,分析不同水平的控制變量是否對(duì)結(jié)果產(chǎn)生了顯著影響。如果控制變量的不同水平能夠?qū)Y(jié)果產(chǎn)生顯著影響,那么它和隨機(jī)變量共同作用,必將使結(jié)果有顯著變化。單因素方差分析所解決的是一個(gè)因素下的多個(gè)不同水平之間的相關(guān)問題;多因素方差分析的控制變量在兩個(gè)或兩個(gè)以上,其主要用于分析多個(gè)控制變量的作用、多個(gè)控制變量的交互作用以及其他隨機(jī)變量是否對(duì)結(jié)果產(chǎn)生了顯著影響;協(xié)方差分析將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對(duì)觀察變量的影響,從而更準(zhǔn)確地對(duì)控制因素進(jìn)行評(píng)價(jià)。單因素方差分析主要用“Analysis”的“Compare Means”菜單下的“One—Way ANOVA”子菜單實(shí)現(xiàn);多因素方差分析和協(xié)方差分析都是在“Analysis”下“General Linear Model”菜單下的“Univariate”子菜單實(shí)現(xiàn)的。相關(guān)分析即是用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)來衡量事物之間,以及變量之間線性相關(guān)程度的強(qiáng)弱。相關(guān)分析的方法很多,包括簡(jiǎn)單相關(guān)分析、偏相關(guān)分析和距離相關(guān)分析。簡(jiǎn)單相關(guān)分析包括定距變量的相關(guān)分析和定序變量的相關(guān)分析。前者通過計(jì)算定距變量間的相關(guān)系數(shù)來判斷兩個(gè)或兩個(gè)以上定距變量之間的相關(guān)程度。后者則采用非參數(shù)檢驗(yàn)的方法利用等級(jí)相關(guān)系數(shù)來衡量定序變量之間的相關(guān)程度;偏相關(guān)分析是指在排除了第三者影響的前提下,衡量?jī)蓚€(gè)變量之間的相關(guān)程度,當(dāng)然第三者與這兩個(gè)變量之間要有一定的聯(lián)系;距離相關(guān)分析是對(duì)觀測(cè)變量之間差異度或相似程度進(jìn)行的測(cè)量。回歸分析是研究變量與變量之間聯(lián)系的最為廣泛的模型。在實(shí)際中,根據(jù)變量的個(gè)數(shù)、類型,以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計(jì)、時(shí)間序列的曲線估計(jì)、含虛擬自變量的回歸分析和邏輯回歸分析等。一元線性回歸只涉及一個(gè)自變量的回歸問題;多元線性回歸用于解決兩個(gè)或兩個(gè)以上自變量對(duì)一個(gè)因變量的數(shù)量變化關(guān)系問題;非線性回歸主要解決在非線性相關(guān)條件下,自變量對(duì)因變量的數(shù)量變化關(guān)系;時(shí)間序列的曲線回歸用于研究因變量與時(shí)間之間的變化關(guān)系;當(dāng)遇到非數(shù)量型變量時(shí),通過引入虛擬變量來構(gòu)造含虛擬變量的回歸模型;Logistic回歸分析是對(duì)定性變量進(jìn)行的回歸分析。SPSS中“Analyze”/“Regression”菜單可用于回歸統(tǒng)計(jì)分析。其中,一元線性回歸、多元線性回歸和含虛擬變量的回歸分析可由“Linear”子菜單完成;非線性回歸分析、曲線估計(jì)和時(shí)間序列的曲線估計(jì)可由“Curve Estimation”子菜單完成;邏輯回歸分析可由“Binary Logistic”子菜單完成。
結(jié)構(gòu)方程模型又稱協(xié)方差結(jié)構(gòu)模型,它主要是在心理、行為、教育、和社會(huì)科學(xué)等學(xué)科的實(shí)際應(yīng)用中發(fā)展起來的一個(gè)研究方向。結(jié)構(gòu)方程模型是驗(yàn)證性因子分析和因果模型的結(jié)合體,所包含的因子模型又稱為測(cè)量模型,其中的方程成為測(cè)量方程,描述了潛變量與觀察變量之間的關(guān)系,所包含的因果模型又稱為潛變量模型,也稱為結(jié)構(gòu)模型,描述了潛變量之間的關(guān)系。結(jié)構(gòu)方程模型具有諸多好處,可以同時(shí)處理多個(gè)因變量,容許自變量和因變量含測(cè)量誤差,同時(shí)估計(jì)因子結(jié)構(gòu)和因子關(guān)系,容許更大彈性的測(cè)量模型,估計(jì)整個(gè)模型的擬合程度。
以上是對(duì)每一部分內(nèi)容的簡(jiǎn)要概述,其中更深層的內(nèi)容仍需要更深刻的理解。課程雖然結(jié)束了,但是對(duì)SPSS的學(xué)習(xí)不能停止,因?yàn)樽约哼€不能獨(dú)自熟練的操作這個(gè)軟件,還不能依靠這個(gè)軟件為自己的論文或科研做出一些成果。SPSS是極其實(shí)用的,學(xué)習(xí)不能止步!很是希望能夠把SPSS的應(yīng)用熟練操作,并且能把它變?yōu)樽约旱囊环N技能,使自己在今后的工作與學(xué)習(xí)中,可以輕松運(yùn)用。