第一篇:對SPSS,AMOS的總結分析
對SPSS,AMOS的總結分析
作者:spssman 來源:【整理】 發布時間:2009-5-5 瀏覽:
訪問者:
58.23.96.242 摘要提示:SPSS是探索性統計分析軟件,AMOS是驗證性統計分析軟件。做探索性因素分析時用SPSS,探索性因素分析完成后,為了驗證所得到的因子結構是否合理,就需要進行驗證性因
素分析,這就用的了AMOS。
近段時間以來,我對SPSS11.0 SPSS16.0 AMOS16.0進行了較為系統的理論和技能的學習,可以說受益匪淺。咨將學習過程中的體會總結之,如下:
一.對SPSS而言,可以說是一個十分強大的統計工具,里面的任何一個菜單都可以完成諸多任務。如果想掌握整個SPSS操作功能的話,可以說難度很大。當然都學下來也沒有必要,我們只要掌握所需要用到的即可。對于心理學和社會學而言,主要學習下面的操作:(1)參數檢驗:單樣本、兩獨立樣本、配對樣本(2)方差分析:單因素、多因素、協方差分析(3)非參數檢驗:X2、二項式分布、K—S檢驗(4)相關分析和線性回歸分析(5)聚類分析(6)因子分析(7)信度分析。以上的內容是我們經常用到的,尤其是相關分析和線性回歸分析。
當然我主要學習的是SPSS中的探索性因素分析。所謂探索性因素分析其實就是嘗試找出某事物中最能代表其本質的因素。因素可以是一個,兩個或者多個。因素的個數可以人為規定也可以由系統自動生成,軟件會自動將相似的題目數劃到同一因素下。但是不管是人為決定因素的個數還是系統自動生成,其最大的目的就是為了盡可能找到特征根值大于1的因素數以及找到方差的最大貢獻率,一般而言大于50%就認為不錯了。(1)首先我要講到的是探索性因素分析中對正交旋轉和斜交旋轉選擇的問題。在這個問題上,各家的看法也不太一致。比較有代表性的是李茂能一般會采用斜交中的Promax法,其解釋是為了簡化結構,使項目與因素間達到較高的因素負荷;而張文彤則主張采用正交旋轉法,其解釋是斜交旋轉的結果太容易受研究者主觀意愿的左右,故一般采用正交旋轉。我想正交相對斜交而言,前者能夠最大的保持因子的不相關性,這點很重要。從我所看過的碩士論文中,用正交的相對來說比較多,所以建議還是采用正交旋轉會更好一些。(2)其次,就是對正交旋轉下最大變異法(Varimax)和極大相等法(Equanmax)的選擇。前者的特點是能夠導致第一個因素的負荷量過大,而后者則是平均分配幾個因子的負荷量,當然這也要考慮你的研究目的了。不過從使用的頻次和哈師大崔洪弟老師的建議還是采用Varimax法的居多。(3)最后一點我要提的就是在編制問卷過程中試題的刪減標準,以下幾點是我總結的,錯誤之處希望大家給予指正:①理論上的語義分析。②鑒別度和難度的判斷,一般而言要大于0.3。③項目與總分的相關,應大于0.3.④項目的負荷量。視樣本大小而定,一般大于0.4.⑤一般橫跨兩個因素或空白的項目也要刪除,這一點我是在李茂能的書上看到的。
二、對AMOS16.0的使用。初學AMOS給人耳目一新的感覺,尤其是相對LISREL枯燥的編程而言,AMOS的主動操作更是增大了使用者的便捷性和趣味性。AMOS是線性結構方程的一種,其操作方法也就是驗證性因子分析,其涵義即為對理論模型和現實數據擬合程度的一種再分析。其版本經歷了AMOS4.0 AMOS6.0 AMOS9.0和AMOS16.0,目前我使用的便是當前最新的版本。(1)首先做驗證性因素分析重要的就是前期模型的假設,即構建顯變量和潛變量之間的關系。將可能的關系羅列出來,并在模型中予以表示。(2)關于擬合指標的選擇。結合李茂能、侯杰泰和所見到的論文,用到的比較多的擬合指標如下:X2/df、RMR RMSEA GFI AGFI AIC CAIC NFI TLI(NNFI)和CFI。其中X2/df一般在1~3左右波動,越小越好。RMR RMSEA均小于0.05,模型擬合的較好;GFI AGFI NFI TLI(NNFI)和CFI均大于0.9,模型擬合的比較好。(3)關于問卷編制中試題的刪減標準,以下幾點是我自己總結而得,錯誤之處希望大家給予指正:①在標準化下,看其因子中的負荷。若小于0.3則考慮刪除,同時也要參考下MI值。②若MI值中兩誤差的指數很高的話,找到兩誤差對應的題目原題,看一下相關,若相關高,則刪除其中一題,這是崔老師在課上講到的,原文出處我沒有找到。③以上過程不斷的重復,修正和刪除,直至模型擬合的的較好。注意一點就是理論上一定要通,不能僅僅根據數據數值而定。(4)最后我要提的就是在SEM中對中介變量和調節變量的檢驗。由于國內相關研究并不多,但是AMOS卻是一個極好利用的工具。我想隨著統計工具的普及,對三變量中介和調節關系的研究也會逐漸多起來。
以上只是簡要敘述了SPSS,AMOS的使用后的感受,里面涉及的內容還有很多。下面介紹幾本比較好的這方面的書籍。SPSS方面比較好的是張文彤的《SPSS統計分析高級教程》,張本的語言很幽默,特點就是操作性強,每步的操作都有詳細的介紹,很適合上機演練。對每個菜單都有較為詳細的敘述,當然缺點便造成了對每一個功能的介紹并不夠深入。另外一本是薛薇的SPSS統計軟件的應用,可以說是本SPSS的入門書,淺顯易懂,最大的特點就是書后附了張數據光盤,可以在電腦上實時練習,是初學SPSS的不錯選擇。
對AMOS的書,容易買到的應該是侯杰泰的《結構方程模型及應用》是很好的一本書,可以作為SEM的入門書,不過書中的軟件是以LISREL來運行的;如果想學AMOS的話,臺灣李茂能的《結構方程模式軟體AMOS之簡介及其在測驗編制上之應用:Graphics&Basic》,這本書編寫的非常好,算是很詳細的一本書了,可惜的是大陸這本書可能并不多。學習時主要參考以上兩本書來進行的。
另外有對中介和調節變量感興趣的同學可以參見近幾年溫忠麟和侯杰泰在《心理學報》上發表的相關文章。想這以后必將是心理學研究的一個熱點。
問:
AMOS與SPSS到底有哪些區別 答:
如果你對統計知識一點都不懂的話還是最好看看基礎的統計學,任何軟件都只是一個工具,還要你自己有統計知識。
軟件還是用SPSS比較簡單,只要你會點就可以了至于AMOS他是一個做路徑分析、結構方程比較常用的軟件,建議用SPSS,一般的統計都能做。
SPSS是探索性統計分析軟件,AMOS是驗證性統計分析軟件。做探索性因素分析時用SPSS,探索性因素分析完成后,為了驗證所得到的因子結構是否合理,就需要進行驗證性因素分析。現在的論文如果涉及因子分析的話,大多要求進行驗證性因素分析,以及路徑分析等等。這時候,AMOS就派上用場了,AMOS可以進行驗證性因素分析、路徑分析、群組分析等等
第二篇:SPSS總結
SPSS的基本統計功能
1、數據的預處理
2、描述性統計和探索性統計
3、假設檢驗(包括參數檢驗、非參數檢驗等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相關分析
6、回歸分析
7、多元統計分析,包括聚類分析、判別分析、因子分析、對應分析、主成分分析等
8、時間序列分析
9、信度分析
10、數據挖掘:決策樹與神經網絡
SPSS 統計分析的一般步驟
1、建立SPSS數據文件: 在【變量視圖】定義SPSS數據文件的結構,在【數據視圖】進行錄入數據文件的錄入。
2、SPSS數據的管理數據的預處理 :
集中于【數據】和【轉換】兩個菜單項。
3、SPSS數據的統計分析階段
: 在【分析】菜單中選擇正確的統計方法。
4、SPSS分析結果的閱讀和解釋
: 讀懂SPSS輸出窗口中的分析結果
5、明確其統計含義,并結合背景知識做出合理的解釋。
第2章 SPSS統計分析前的準備
一、SPSS數據文件的特點
1、SPSS數據文件是一種有結構的數據文件(一般文本文件僅有純數據部分,而沒有關于結構的描述);
2、由數據的結構和內容兩部分構成;
3、其中數據的結構記錄數據類型、取值說明、數據缺失等必要信息(在【變量視圖】,每一列大家都要明白你在定義什么,有什么用);
4、數據的內容是那些待分析的具體數據;
5、在【數據視圖】每一列代表一個變量(variable),變量名顯示在表格頂部;
6、在【數據視圖】的每一行代表一個記錄(case)(即一個案例,或稱一個對象、一個觀察、一個個體),記錄序號顯示在表格的左側;
7、在【數據視圖】可以輸入和編輯數據,但是不能輸入數學表達式和函數
二、定義變量
1、【數據視圖】是進行數據輸入、數據編輯的界面,對應的表格用于查看、錄入和修改數據。
2、【變量視圖】 是定義數據文件的變量的界面,對應的表格用于輸入和修改變量的定義。
3、用SPSS讀取其他格式的數據:
1)數據文件:*。sav
語法文件:*。sps 結果文件:*。spo
腳本文件: *。sbs 2)文件-打開-數據,可打開多種文件類型(。sav、。xls、。dbf、。txt、。dat等)
注:要想順利打開txt文檔,txt文檔最好有固定的分隔符,如一個空格或一個逗號等。
三、數據的編輯
在SPSS中,數據文件的編輯、整理等功能被集中在了【數據】和【轉換】兩個菜單項中:
1、數據的增刪、復制、剪切、粘貼;
2、數據的排序,Sort Cases排序便于數據的瀏覽,快捷找到最大值或最小值,迅速發現數據的異常值;
四、文件的拆分:文件的拆分相當于統計學中的數據分組,即將數據按一個或幾個分組變量分組。
五、數據選取 :
數據選取(個案選取)的基本方式
按指定條件選取(If condition is satisfied)
隨機抽樣(Random sample of cases)選取某一區域內(Based on time or case range)
六、個案加權:記錄加權是對觀測數據賦以權重,常用于頻數表資料;
七、文件的合并:合并文件是指將外部數據中的記錄或變量合并到當前的數據文件中去。合并數據文件包括兩種方式:
從外部數據文件增加記錄到當前數據文件中——縱向合并或稱追加記錄。從外部數據文件增加變量到當前數據文件中——橫向合并或稱追加變量。
八、變量的計算和變換:【轉換】-【計算變量】
九、數據的重新編碼recode 統計分組
將字符型變量轉換為數值型變量 將幾個小類別合為一個類別 將數值型變量轉換為字符型
十、統計結果的保存為word文件:【文件】-【導出】
第3章
SPSS描述性統計
1.Frequencies(頻率)過程的特色是產生頻數表;功能 產生頻數分布表;
繪制條形圖、餅圖、直方圖;
計算集中趨勢與離散程度、分布形狀(峰度和偏度的意義)等統計量; 按要求給出分位數;
對數據的分布趨勢進行初步分析
(注:對于定性變量來說,一般來說產生頻數分布表,制作條形圖,餅圖即可);
2.描述分析(Descriptives過程)
適用的分析對象:定量變量,測度為scale。功能:
調用此過程對變量進行描述性統計分析,計算均值、標準差、全距和均值標準誤差等; 并可將原始數據轉換成Z分數((原始值-均值)/標準差)。
3.Explore(探索)過程用于對數據概況不清時的探索性分析,定量變量; 在一般描述性統計分析的基礎上,增加有關數據其他特征的文字與圖形描述。提供莖葉圖、箱線圖、PP圖、QQ圖等;
指出異常值(Outliers),可檢查數據是否有錯誤,剔除異常值和錯誤數據; 進行點估計和區間估計,計算均值的置信區間,; 檢驗一組數據是否呈正態分布; 4.列聯表分析
(1)列聯表分析的適用條件
對一個定量變量的描述和分析,一般用頻數分析(頻數分布表、餅圖、直方圖、條形圖); 對兩個定性變量的描述和分析,通常使用列聯表、對應分析,或使用卡方檢驗; 對兩個以上定性變量的描述和分析,通常使用高維列聯表。(2)期望頻數的分布
如果行變量和列變量是獨立的,可以計算出列聯表中每個格子里的頻數應該是多少,稱為期望頻數;
(3)列聯表分析的基本思路
檢驗列聯表中的行變量與列變量之間是否獨立(或是否相關)。原假設為行變量與列變量之間獨立(或不相關)。比較觀察頻數與期望頻數的差。
如果兩者的差越大,表明實際情況與原假設相去甚遠;如果差越小,表明實際情況與原假設越相近。
對于這個假設的檢驗,可以采用卡方分布,進行卡方檢驗。
(4)列聯表分析的步驟
檢驗列聯表中的行變量與列變量之間是否獨立(是否相關)提出假設
H0:行變量與列變量獨立(不相關)H1:行變量與列變量不獨立(相關 計算檢驗的統計量 統計決策
進行決策:P值決策
P<0。05,則拒絕原假設H0,否則,接收原假設。(5)Pearson卡方檢驗的應用條件
所有單元的期望頻數應該大于1,或不應有大量的期望頻數小于5的單元格。
如果列聯表中有20%以上的單元格中的期望頻數小于5,則一般不宜用卡方檢驗。Pearson卡方檢驗最普遍
第4章
SPSS的均值比較過程 1。Means過程
對準備比較的各組計算描述指標,進行預分析,也可直接比較,定量變量。(1)Means過程是專門計算各種平均數,并對平均數進行簡單比較的;(2)雖然Descriptive Statistics(描述統計)菜單項中的幾個過程也能計算均數,但Means過程的輸出結果是將各組的描述指標放在一起的,便于相互比較;
(3)Means過程必須設置分組變量,若沒有分組變量的話,可以使用Descriptive Statistics菜單項中的幾個過程。
(4)適用于測度水平為SCALE的變量。
2。單樣本T檢驗(1)目的
檢驗某變量的總體均值與指定的檢驗值之間是否存在顯著差異。(2)適用條件
樣本來自的總體服從正態分布(3)基本步驟
H0: μ=μ0 H1: μ≠μ0
構造檢驗統計量 統計決策
如果P值<α(α一般取值為0。05),拒絕原假設; 如果P值>α,接受原假設;
3。
獨立樣本T 檢驗(1)目的
通過比較兩個樣本均值差的大小來確定兩個總體的均值是否相等。(2)適用條件
獨立性:兩個樣本相互獨立,且均為大樣本;
正態性:如果兩個樣本相互獨立但都是小樣本,或有一個樣本是小樣本,則要求總體服從正態分布;
方差齊性
(3)基本步驟
a、方差齊性F檢驗
原假設:兩個總體方差相等; 備則假設:兩個總體方差不相等;
P值<0。05 時,拒絕原假設,說明方差不齊;否則兩個總體方差無顯著性差異。b、對兩總體的均值提出假設 H0: μ1=μ2
H1: μ1≠μ2 c、統計決策
在SPSS中進行兩獨立樣本t檢驗時,應首先對F檢驗作判斷。如果方差相等,觀察分析結果中Equal variances assumed列的t檢驗相伴概率值;如果方差不相等,觀察Equal variances not assumed列的t檢驗相伴概率值。如果P值<α,拒絕原假設; 如果P值>α,不能拒絕原假設;
4.配對樣本的T 檢驗
配對樣本是指對同一樣本的某個變量進行前后兩次測試所獲得的兩組數據,或是對兩個完全相同的樣本在不同條件下進行測試所獲得的兩組數據。其差別在于抽樣不是相互獨立的,而是互相關聯的。(1)配對樣本通常有兩個特征: 第一,兩組樣本的樣本數相同;
第二,兩個樣本記錄的先后順序一一對應,不能隨意更改。(2)適用條件
兩樣本數據必須兩兩配對 兩總體服從正態分布
配對樣本的錄入方式是:每對數據在同一個case的兩個配對的變量上(3)檢驗步驟 a、提出假設 H0: μ1=μ2
H1: μ1≠μ2 b、統計決策
如果P值<α,拒絕原假設; 如果P值>α,不能拒絕原假設;
第5章 方差分析
如何對一個或兩個總體的均值進行檢驗,我們可以用均值比較,如果要討論多個總體均值是否相等,我們所采用的方法是方差分析。
方差分析中有以下幾個重要概念。(1)因素(Factor):是指所要研究的變量,它可能對因變量產生影響。如果方差分析只針對一個因素進行,稱為單因素方差分析。如果同時針對多個因素進行,稱為多因素方差分析。
(2)水平(Level):水平指因素的具體表現,如銷售的四種方式就是因素的不同取值等級。
(3)單元(Cell):指因素水平之間的組合。(4)元素(Element):指用于測量因變量的最小單位。一個單元里可以只有一個元素,也可以有多個元素。
(5)交互作用(Interaction):如果一個因素的效應大小在另一個因素不同水平下明顯不同,則稱兩因素間存在交互作用。
1.單因素方差分析
單因素方差分析也叫一維方差分析,它用來研究一個因素的不同水平是否對觀測變量產生了顯著影響,即檢驗由單一因素影響的一個(或幾個相互獨立的)因變量由因素各水平分組的均值之間的差異是否具有統計意義。(1)適用條件
在各個水平之下觀察對象是獨立隨機抽樣,即獨立性;
各個水平的因變量服從正態分布,即正態性;
各個水平下的總體具有相同的方差,即方差齊性;(2)基本原理
SST(總的離差平方和)=SSA(組間離差平方和)+SSE(組內離差平方和)
如果在總的離差平方和中,組間離差平方和所占比例較大,說明觀測變量的變動主要是由因素的不同水平引起的,可以主要由因素的變動來解釋,系統性差異給觀測變量帶來了顯著影響;反之,如果組間離差平方和所占比例很小,說明觀測變量的變動主要由隨機變量因素引起的。
SPSS將自動計算檢驗統計量和相伴概率P值,若P<α,則拒絕原假設,認為因素的不同水平對觀測變量產生顯著影響;反之,接受零假設,認為因素的不同水平沒有對觀測變量產生顯著影響。
另外,SPSS還提供了多重比較方法,多重比較是通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異,最常用的多重比較方法是LSD。(3)檢驗步驟 a、提出假設
H0: 各個總體的均值無顯著性差異。
H1: 各個總體的均值有顯著性差異。b、統計決策
方差齊性檢驗結果,P值>0。05,方差齊,否則,方差不齊;
單因素方差分析表,P值>α,接受H0,都則,拒絕H0,接受H1。
2.多因素方差分析
多因素方差分析是對一個獨立變量是否受一個或多個因素或變量影響而進行的方差分析。它不僅能夠分析多個因素對觀測變量的獨立影響,更能夠分析多個因素的交互作用能否對觀測變量產生顯著影響。(2)基本原理
由于多因素方差分析中觀察變量不僅要受到多個因素獨立作用的影響,而且因素其交互作用和一些隨機因素都會對變量產生影響。因此觀測變量值的波動要受到多個控制變量獨立作用、控制變量交互作用及隨機因素等三方面的影響。以兩個因素為例,可以表示為:
Q總=Q控1+Q控2+Q控1控2+Q隨其中,Q表示各部分對應的離差平方和。多因素方差分析比較
Q
控
1、Q 控
2、Q 控 1 控
Q
隨
占 Q
總 的比例,以此推斷不同因素以及因素之間的交互作用
2、是否給觀測變量帶來顯著影響。
(3)基本術語
a、Dependent Variable 觀測變量或因變量 主要指研究中的定量變量
如:移動話費、學生成績、銷售量、畝產量等
b、Fixed Factor 固定效應因素,固定因素,控制因素
主要指研究中的定性變量
如:資費等級、客戶類型、漫游類型、促銷策略等 c、Random Factor 隨機效應因素、隨機因素
人為無法對其水平值進行準確控制,只是能夠直觀觀測到
如:話費水平、收入水平、消費習慣等
d、Interaction 交互作用、交互效應
如果一個因素的效應大小在另一個因素不同水平下明顯不同,則稱為兩因素間存在交互作用。
當存在交互作用時,單純研究某個因素的作用是沒有意義的,必須分另一個因素的不同水平研究該因素的作用大小。例如:飲食習慣、適量運動對減肥的作用; e、main effect 與交互效應相對應的
主效應就是每個因素對因變量的單獨影響(main effect)f、Covariates 協變量
指對應變量可能有影響,需要在分析時對其作用加以控制的連續性定量變量 當模型中存在協變量時,一般是通過找出它與因變量的回歸關系來控制其影響(3)應用條件
等方差;
各樣本的獨立性:只有各樣本為相互獨立的隨機樣本,才能保證變異的可加性(可分解性);
正態性:即所有觀察值系從正態總體中抽樣得出;(4)基本步驟
提出假設
H0:因素A中的r個水平的均值相等(因素A 對因變量無顯著性影響)H1:因素A中的r個水平的均值不全相等(因素A 對因變量有顯著性影響)統計決斷 P值檢驗法
依次查看各F值的P值,p-值<α,應拒絕原假設; 如果其P值大于顯著性水平,則不能拒絕H0,可以認為相應不同水平的控制變量或交互影響沒有造成均值的顯著差異;
第6章
非參數檢驗
非參數檢驗(nonparametric test),又稱為任意分布檢驗(distribution-free test); 不依賴于總體的分布類型,對樣本所來自總體的分布不作嚴格假定的統計推斷方法,稱為非參數檢驗(nonparametric test)
它不考慮研究對象總體分布的具體形式,也不對總體參數進行統計推斷;
而是通過檢驗樣本所代表的總體分布位置及分布形狀是否一致來得出統計結論。特點
參數檢驗條件不滿足時的處理方法
不對均數等參數檢驗,而是檢驗分布是否相同
在總體分布未知的情況下,利用樣本數據對總體的分布形態進行推斷。非參數檢驗的著眼點不是總體參數,而是總體的分布情況 非參數檢驗研究目標總體的分布是否與已知理論分布相同 非參數檢驗研究各樣本所在總體的分布位置,形狀是否相同 優點
第一,具有較好的穩健性;
第二,受限條件少:對數據要求不像參數檢驗那樣嚴格
第三,適用范圍廣:可應用于各種不同的情況,不受總體分布形狀的限制,適合處理無法精確數量化的定性數據和小樣本數據 第四,計算通常較簡單,且容易理解 缺點
第一,將定量數據轉換為定性數據時,漏失了數據的一些信息
第二,檢驗的敏感度和效果,均不如參數檢驗好。檢驗效率低于參數檢驗,主要是犯第二類錯誤的可能性加大。
第三,參數檢驗適用的數據,非參數方法會降低檢驗效能;當數據滿足參數檢驗條件時,效能低于參數法,不滿足參數法條件時,處于“優勢” 非參數檢驗的應用場合
定量數據,不滿足參數檢驗的條件,且無適當的變量變換方法解決此問題; 定量數據,其分布類型無法獲知,且為小樣本; 定量數據,極度偏態,或個別數值偏離過大; 各組離散度相差懸殊
一端或兩端存在不確定數值的定量數據
定序數據,比較各組間等級強度的差別; 非參數檢驗的主要方法 單個樣本的非參數檢驗
卡方檢驗(Chi-Square過程)
二項檢驗(Binomial過程)
游程檢驗(Runs過程)
柯爾莫哥洛夫—斯米諾夫檢驗(l-Sample K-S過程)兩個獨立樣本的非參數檢驗 多個獨立樣本的非參數檢驗 兩個配對樣本的非參數檢驗 多個配對樣本的非參數檢驗 順序統計量
通過對數據從小到大的排序(即排隊),并由數據的大小排序號(排隊號)代替原始數據進行統計分析。
秩(Rank):排序號(排隊號)在統計學上稱為秩
結(ties):絕對值相等稱為結,又稱同秩,則取平均秩次。
一般來說,秩就是該組數據按照升序排列之后,每個數據的位置。
1.單個樣本的非參數檢驗 卡方檢驗(Chi-Square過程)
用卡方檢驗來檢驗定性變量的幾個取值(分類數據,或類別)所占比例是否和理論的比例沒有統計學差異。檢驗分類變量的分布
適合于定性數據及頻數資料的分析
要求樣本足夠大,要求樣本容量一般大于50; 應用領域
如病人經治療后治愈、好轉、有效和無效的人數總的說來是否相同(實為治愈、好轉、有效和無效的概率或機會是否相同)成績優、良、中、差的學生人數是否相同 贊同某種觀點的人數是否達到80%,等等。
比如在人群中抽取了一個樣本,可以用該方法來分析四種血型所占的比例是否相同(都是25%),或者是否符合我們所給出的一個比例(如分別為10%、30%、40%和20%)。Chi-Square檢驗的基本思路
先按照已知總體的構成比例分布,計算出樣本中定性數據(即各類別)的期望頻數然后求出觀測頻數和期望頻數的差值,最后計算出卡方統計量 利用卡方分布求出P值,假設檢驗的H0是樣本中某指標的比例與已知比例一致 得出檢驗結論
2.二項檢驗(Binomial過程)檢驗二項分類變量分布
用于檢測所給的變量是否符合二項分布,變量可以是兩分類的,也可以使連續性變量,然后按你給出的分界點一刀兩斷。
Binomial過程對二項分類變量的單個樣本作檢驗,推斷總體中兩個分類數據的比例是否分別為π和(1-π)應用領域
射擊時,擊中與未擊中;學生成績,及格與不及格;疾病診斷,陰性與陽性;硬幣,正面與反面;人群性別,男和女;產品質量,合格和不合格 定量數據、符號檢驗(SING TEST)與Binomial過程
定量數據:大樣本;或小樣本,總體服從正態分布,總體方差已知; 參數檢驗:單個樣本的均值檢驗
定量數據,不滿足參數檢驗的條件,且無適當的變量變換方法解決此問題;
極度偏態,或個別數值偏離過大;
一端或兩端存在不確定數值
3.游程檢驗(Runs過程)
Runs過程借助樣本序列的順序推斷總體序列的順序是否是隨機的,屬隨機性檢驗 二分類數據和定量數據(連續數據)均可
對于一個取兩個值的分類變量,游程檢驗方法是檢驗這兩個值的出現是否是隨機的。游程檢驗還可以用于某個連續變量的取值小于某個值及大于該值的個數(類似于0和1的個數)是否隨機的問題 游程檢驗的作用
1、檢驗總體分布是否相同
將從兩個總體中獨立抽取的兩個樣本的觀察值混合后,觀察游程個數,進行比較。
2、檢驗樣本的隨機性
將取自某一總體的樣本的觀察值按從小到大順序排列,找出中位數,分為大于中位數的小于中位數的兩個部分。用上下交錯形成的游程個數來檢驗樣本是否是隨機的。應用范圍
生產過程是否需要調整,即不合格產品是否隨機產生; 獎券的購買是否隨機;
期貨價格的變化是否隨機等等。
若事物的發生并非隨機,即有某種規律,則往往可尋找規律,建立相應模型,進行分析,作出適宜的決策。
當樣本按某種順序排列(如按抽取時間先后排列)時,一個或者一個以上相同符號連續出現的段,就被稱作游程 ;
4.(l-Sample K-S過程)
柯爾莫諾夫-斯米爾諾夫檢驗,考察某個連續性變量是否符合理論分布 利用樣本數據推斷總體是否服從某種分布
可以檢驗的分布有正態分布、均勻分布、Poission分布和指數分布。數據要求:定量數據,Scale
5。
獨立樣本的非參數檢
檢驗兩個或多個獨立樣本所在總體是否相同
在不了解總體分布的情況下,通過分析樣本數據均值或中位數的差異,推斷樣本來自的兩/多個獨立總體的分布存在的顯著性差異。Independent Samples過程:主要用于檢驗兩個獨立樣本所在總體分布是否相同 K Independent Samples過程:主要用于檢驗多個獨立樣本所在總體分布是否相同 界面上基本相同
(1)兩個獨立樣本的非參數檢驗
含義:由樣本數據,推斷兩個獨立總體的分布是否存在顯著差異(或兩樣本是否來自同一總體)分析對象:定量數據或定序數據 對分布的形狀不加考慮
分布形狀相同或類似的兩個總體分布位置比較,可以簡化地理解為兩總體中位數的比較 應用范圍
兩種訓練方法中哪一種更出成績 兩種汽 油中哪一個污染更少 兩種市場營銷策略中那種更有效
與獨立樣本t檢驗的區別
對于定量數據,如果方差相等,且服從正態分布
兩個獨立樣本的非參數檢驗的過程
定序數據;對于定量數據,不滿足兩個獨立樣本t檢驗的條件
曼-惠特尼U檢驗(Mann-Whitney U)
為檢驗兩總體的中位數是否相等,常用Mann-Whitney U 檢驗,或稱Wilcoxon秩和檢驗(Wilcoxon rank sum test);
這兩種方法是獨立提出的,檢驗結果完全等價的; 分析步驟
建立檢驗假設,確定顯著性水平α :
H0:兩個總體的分布位置相同,即高中生和大學生的每周平均上網時間的總體分布相同;
H1:兩個總體的分布位置不同,即高中生和大學生的每周平均上網時間的總體分布不同。或:
H0:M1=M2;
H1:M1>M2
2、編秩,將兩組數據由小到大統一編秩,編秩時如遇有相同數據,取平均秩次。
3、求秩和,兩組秩次分別相加。
4、確定統計量
若兩組樣本容量相等,則任取一組的秩和為統計量;
若兩組樣本容量不等,則以樣本樣本容量較小者對應的秩和為統計量。
5、查表確定P值,作出推斷結論。若P>α,不能拒絕原假設。
若則P<α,拒絕原假設,認為兩總體的分布不相同。
(2)多獨立樣本非參數檢驗
對三個或三個以上的總體的均值是否相等進行檢驗,使用的方法是單因素方差分析 ; 單因素方差分析過程需要假定條件,F檢驗才有效; 有時候所采集的數據常常不能滿足這些條件,K Independent Samples過程 K Independent Samples過程
含義:由樣本數據,推斷多個獨立總體的分布是否存在顯著差異(或多個樣本是否來自同一總體)分析對象:定量數據或定序數據 對分布的形狀不加考慮
分布形狀相同或類似的多個總體分布位置比較,可以簡化地理解為多個總體中位數的比較。應用范圍
各城市兒童身高分布一致嗎?
不同收入的居民存(取)款金額分布一致嗎?
電信公司人力資源部門比較3所大學雇員的管理業績是否存在差異? 檢驗方法
Kruskal-Wallis H :克魯斯卡爾-沃利斯單因素方差分析最常用,原理同Wilcoxon檢驗 多個樣本間的兩兩比較 多組獨立樣本;
每組5個觀察值,樣本量小,分布類型未知;
考慮采用秩轉換的非參數檢驗方法——Kruskal-Wallis秩和檢驗。
(3)兩/多個配對樣本非參數檢驗
檢驗兩個或多個配對樣本所在總體位置是否相同
在不了解總體分布的情況下,通過分析兩/多個配對樣本,推斷樣本來自的兩/多個總體的分布是否存在顯著性差異。Related Samples過程:主要用于檢驗兩個配對樣本所在總體分布是否相同 K Related Samples過程:主要用于檢驗多個配對樣本所在總體分布是否相同 界面上基本相同
兩個配對樣本的非參數檢驗
含義:由樣本數據推斷兩配對總體分布是否存在顯著差異。數據要求
兩組配對的樣本數據;
兩組數據的樣本容量相同,先后次序不能任意改變,一一對應; 統計分析步驟
提出基本假設
H0:兩配對總體分布無顯著差異 H1:兩配對總體分布有顯著差異 統計決斷
P值>α,不能拒絕原假設
P值<α,拒絕原假設
多個配對樣本非參數檢驗
含義:由樣本數據推斷多個配對總體分布是否存在顯著差異。
數據要求:多組配對的樣本數據,多組數據的樣本容量相同,先后次序不能任意改變,一一對應; 應用范圍
三種促銷形式的銷售額分布一致嗎? 收集乘客對多家航空公司是否滿意的數據,分析航空公司的服務水平是否存在顯著差異 評委打分一致嗎? 三種檢驗方法
Friedman M檢驗:最常用
Kendall W檢驗 :和諧系數檢驗
Cochran Q:要求樣本數據為二分類數據(1-滿意
0-不滿意)檢驗方法的選擇
1)單個樣本:若來自正態總體,可用t檢驗,若來自非正態總體或總體分布無法確定,可用二項檢驗(二項檢驗)2)配對樣本:
二分類變量,可用McNemar檢驗;
連續型變量,若來自正態總體,可用配對t檢驗,否則可用Wilcoxon符號秩和檢驗。
3)兩組獨立樣本:連續型變量,若來自正態總體,可用t檢驗,否則,可用 Wilcoxon秩和檢驗;
二分類變量或無序多分類變量,可用卡方檢驗;
有序多分類變量,宜用Wilcoxon秩和檢驗。4)多組獨立樣本
連續型變量值,來自正態總體且方差相等,可用方差分析;否則,進行數據變換使其滿足正態性或方差齊的要求后,采用方差分析;數據變換仍不能滿足條件時,可用Kruskal-Wallis秩和檢驗。
二分類變量或無序多分類變量,可用卡方檢驗。
有序多分類變量宜用Kruskal-Wallis秩和檢驗。
第7章 相關分析 概念
相關關系反映出變量之間雖然相互影響,具有依存關系,但彼此之間是不能一一對應的。例如,學生成績與其智力因素、各科學習成績之間的關系、教育投資額與經濟發展水平的關系、社會環境與人民健康的關系等等,都反映出客觀現象中存在的相關關系。相關關系的類型
1)根據相關程度的不同,相關關系可分為完全相關、不完全相關和無相關。2)根據變量值變動方向的趨勢,相關關系可分為正相關和負相關。3)根據變量關系的形態,相關關系可分為直線相關和曲線相關。4)根據研究變量的多少,可分為單相關、復相關。相關分析的作用
1)判斷變量之間有無聯系
2)確定選擇相關關系的表現形式及相關分析方法 3)把握相關關系的方向與密切程度
4)相關分析不但可以描述變量之間的關系狀況,而且用來進行預測。5)相關分析還可以用來評價測量量具的信度、效度以及項目的區分度等 相關系數
相關系數是在直線相關條件下,說明兩個變量之間相關程度以及相關方向的統計分析指標。相關系數一般可以通過計算得到。作為樣本相關系數,常用字母r表示;作為總體相關系數,常用字母ρ表示。相關系數的數值范圍是介于–1與 +1之間(即–1≤ r ≤1),常用小數形式表示,一般要取小數點后兩位數字來表示,以便比較精確地描述其相關程度。
兩個變量之間的相關程度用相關系數r的絕對值表示,其絕對值越接近1,表明兩個變量的相關程度越高;其絕對值越接近于0,表明兩個變量相關程度越低。如果其絕對值等于零1,則表示兩個變量完全直線相關。如果其絕對值為零,則表示兩個變量完全不相關(不是直線相關)。
相關系數的注意事項
1)相關系數只是一個比率值,并不具備與相關變量相同的測量單位。2)相關系數r 受變量取值區間大小及樣本數目多少的影響比較大。
3)來自于不同群體且不同質的事物的相關系數不能進行比較。4)對于不同類型的數據,計算相關系數的方法也不相同
1.簡單相關分析的基本原理
簡單相關分析是研究兩個變量之間關聯程度的統計方法。它主要是通過計算簡單相關系數來反映變量之間關系的強弱。一般它有圖形(散點圖)和數值(一方面應觀察相關系數的大小,另一方面,應觀察概率P值,其原假設為**不相關)兩種表示方式。簡單相關系數
1)皮爾遜(Pearson)相關系數
常稱為積差相關系數,適用于研究連續變量之間的相關程度。例如,收入和儲蓄存款、身高和體重等變量間的線性相關關系。注意Pearson相關系數適用于線性相關的情形,對于曲線相關等更為復雜的情形,系數的大小并不能代表其相關性的強弱。2)Spearman等級相關系
Spearman等級相關系數是用來度量順序水準變量間的線性相關關系。它是利用兩變量的秩次大小作線性相關分析,適用條件為:
① 兩個變量的變量值是以等級次序表示的資料;
②
一個變量的變量值是等級數據,另一個變量的變量值是等距或比率數據,且其兩總體不要求是正態分布,樣本容量n不一定大于30。
從斯皮爾曼等級相關適用條件中可以看出,等級相關的應用范圍要比積差相關廣泛,它的突出優點是對數據的總體分布、樣本大小都不做要求。但缺點是計算精度不高。3)Kendall’s等級相關系數
它是用于反映分類變量相關性的指標,適用于兩個變量均為有序分類的情況。這種指標采用非參數檢驗方法測度變量間的相關關系。它利用變量的秩計算一致對數目和非一致對數目。
2.偏相關分析的基本原理
方法概述
簡單相關分析計算兩個變量之間的相互關系,分析兩個變量間線性關系的程度。但是現實中,事物之間的聯系可能存在于多個主體之間,因此往往因為第三個變量的作用使得相關系數不能真實地反映兩個變量間的線性相關程度。基本原理
偏相關分析是在相關分析的基礎上考慮了兩個因素以外的各種作用,或者說在扣除了其他因素的作用大小以后,重新來測度這兩個因素間的關聯程度。這種方法的目的就在于消除其他變量關聯性的傳遞效應。3.距離分析的基本原理
簡單相關分析和偏相關分析有一個共同點,那就是對所分析的數據背景應當有一定程度的了解。但在實際中有時會遇到一種情況,在分析前對數據所代表的專業背景知識尚不充分,本身就屬于探索性的研究。這時就需要先對各個指標或者案例的差異性、相似程度進行考察,以先對數據有一個初步了解,然后再根據結果考慮如何進行深入分析。
距離分析是對觀測量之間或變量之間相似或不相似的程度的一種測度,是計算一對變量之間或一對觀測量之間的廣義的距離。根據變量的不同類型,可以有許多距離、相似程度測量指標供用戶選擇。但由于本模塊只是一個預分析過程,因此距離分析并不會給出常用的P值,而只能給出各變量/記錄間的距離大小,以供用戶自行判斷相似性。
第8章 SPSS的回歸分析 1。一元線性回歸 方法概述
線性回歸模型側重考察變量之間的數量變化規律,并通過線性表達式,即線性回歸方程,來描述其關系,進而確定一個或幾個變量的變化對另一個變量的影響程度,為預測提供科學依據。
一般線性回歸的基本步驟如下。
① 確定回歸方程中的自變量和因變量。
② 從收集到的樣本數據出發確定自變量和因變量之間的數學關系式,即確定回歸方程。
③ 建立回歸方程,在一定統計擬合準則下,估計出模型中的各個參數,得到一個確定的回歸方程。
④ 對回歸方程進行各種統計檢驗。
⑤ 利用回歸方程進行預測。
注:一元線性回歸的經驗模型是:Y=β0+β1X 統計檢驗
在求解出了回歸模型的參數后,一般不能立即將結果付諸于實際問題的分析和預測,通常要進行各種統計檢驗,例如擬合優度檢驗、回歸方程和回歸系數的顯著性檢驗和殘差分析等。
1)輸出結果的模型摘要
其實就是對方程擬合情況的描述。通過這張表可以知道相關系數的取值(R),相關系數的平方即可決系數(R Square),校正后的可決系數(adjusted R Square)和回歸系數的標準誤(Std。Error of the Estimate)。注意這里的相關系數大小和前面相關分析中計算出的結果完全相同。可決系數R Square的取值介于0和1之間,它的含義就是自變量所能解釋的方差在總方差中所占的百分比,取值越大說明模型的效果越好。
2)輸出結果中的方差分析表
它是回歸模型顯著性檢驗的結果,所用方法為F檢驗,其零假設為原方程無效,通過P值來判斷原方程是否有效。3)輸出結果中的回歸系數表
應特別關注回歸系數β1 的T檢驗,它的零假設為β1 =0,通過P值來判斷β1 是否有實際意義。
2.多元線性回歸
在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。
其基本步驟與一元回歸幾乎一致,只是在輸出結果的模型摘要中通過觀察調整R2 來判斷方程的擬合情況,另外,同樣可通過折線圖來觀察模型擬合效果。
3.曲線擬合
實際中,變量之間的關系往往不是簡單的線性關系,而呈現為某種曲線或非線性的關系。此時,就要選擇相應的曲線去反映實際變量的變動情況。為了決定選擇的曲線類型,常用的方法是根據數據資料繪制出散點圖,通過圖形的變化趨勢特征并結合專業知識和經驗分析來確定曲線的類型,即變量之間的函數關系。
在確定了變量間的函數關系后,需要估計函數關系中的未知參數,并對擬合效果進行顯著性檢驗。雖然這里選擇的是曲線方程,在方程形式上是非線性的,但可以采用變量變換的方法將這些曲線方程轉化為線性方程來估計參數。
在選擇模型的時候可以結合專業知識多選幾種,如同時選擇“指數分布”、“逆模型”和“冪函數”,然后在模型匯總中比較R2 的大小,選擇最大的一個,同時,注意觀察各自的P值,其原假設為其模型無統計學意義。
4.非線性回歸分析
非線性回歸分析是探討因變量和一組自變量之間的非線性相關模型的統計方法。線性回歸模型要求變量之間必須是線性關系,曲線估計只能處理能夠通過變量變換化為線性關系的非線性問題,因此這些方法都有一定的局限性。相反的,非線性回歸可以估計因變量和自變量之間具有任意關系的模型,用戶根據自身需要可隨意設定估計方程的具體形式。通過散點圖觀察,如果自變量和應變量不能通過線性回歸或區縣估計來實現,則可以在SPSS通過【分析】-【回歸】-【非線性】來實現。
以下是SPSS處理問卷的總結
當我們的調查問卷在把調查數據拿回來后,我們該做的工作就是用相關的統計軟件進行處理,在此,我們以SPSS為處理軟件,來簡要說明一下問卷的處理過程,它的過程大致可分為四個過程:定義變量﹑數據錄入﹑統計分析和結果保存。下面將從這四個方面來對問卷的處理做詳細的介紹。
SPSS處理:
第一步:定義變量
大多數情況下我們需要從頭定義變量,在打開SPSS后,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View兩個標簽,只需單擊左下方的Variable View標簽就可以切換到變量定義界面開始定義新變量。在表格上方可以看到一個變量要設置如下幾項:name(變量名)、type(變量類型)、width(變量值的寬度)、decimals(小數位)、label(變量標簽)、Values(定義具體變量值的標簽)、Missing(定義變量缺失值)、Colomns(定義顯示列寬)、Align(定義顯示對齊方式)、Measure(定義變量類型是連續、有序分類還是無序分類)。
我們知道在SPSS中,我們可以把一份問卷上面的每一個問題設為一個變量,這樣一份問卷有多少個問題就要有多少個變量與之對應,每一個問題的答案即為變量的取值。現在我們以問卷第一個問題為例來說明變量的設置。為了便于說明,可假設此題為:
1。請問你的年齡屬于下面哪一個年齡段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我們的變量設置可如下: name即變量名為1,type即類型可根據答案的類型設置,答案我們可以用1、2、3、4來代替A、B、C、D,所以我們選擇數字型的,即選擇Numeric,width寬度為4,decimals即小數位數位為0(因為答案沒有小數點),label即變量標簽為“年齡段查詢”。Values用于定義具體變量值的標簽,單擊Value框右半部的省略號,會彈出變量值標簽對話框,在第一個文本框里輸入1,第二個輸入20—29,然后單擊添加即可。同樣道理我們可做如下設置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定義變量缺失值,單擊missing框右側的省略號,會彈出缺失值對話框,界面上有一列三個單選鈕,默認值為最上方的“無缺失值”;第二項為“不連續缺失值”,最多可以定義3個值;最后一項為“缺失值范圍加可選的一個缺失值”,在此我們不設置缺省值,所以選中第一項如圖;Colomns,定義顯示列寬,可自己根據實際情況設置;Align,定義顯示對齊方式,有居左、居右、居中三種方式;Measure,定義變量類型是連續、有序分類還是無序分類。
以上為問卷中常見的單項選擇題型的變量設置,下面將對一些特殊情況的變量設置也作一下說明。
1。開放式題型的設置:諸如你所在的省份是_____這樣的填空題即為開放題,設置這些變量的時候只需要將Value、Missing兩項不設置即可。
2。多選題的變量設置:這類題型的設置有兩種方法即多重二分法和多重分類法,在這里我們只對多重二分法進行介紹。這種方法的基本思想是把該題每一個選項設置成一個變量,然后將每一個選項拆分為兩個選項,即選中該項和不選中該項。現在舉例來說明在SPSS中的具體操作。比如如下一例:
請問您通常獲取新聞的方式有哪些()1 報紙 2 雜志 3 電視 4 收音機 5 網絡
在SPSS中設置變量時可為此題設置五個變量,假如此題為問卷第三題,那么變量名分別為3_
1、3_
2、3_
3、3_
4、3_5,然后每一個選項有兩個選項選中和不選中,只需在Value一項中為每一個變量設置成1=選中此項、0=不選中此項即可。
使用該窗口,我們可以把一個問卷中的所有問題作為變量在這個窗口中一次定義。到此,我們的定義變量的工作就基本上可以結束了。下面我們要作就是數據的錄入了。首先,我們要回到數據錄入窗口,這很簡單,只要我們點擊軟件左下方的Data View標簽就可以了。
第二步:數據錄入
SPSS數據錄入有很多方式,大致有一下幾種: 1。讀取SPSS格式的數據 2。讀取Excel等格式的數據
3。讀取文本數據(Fixed和Delimiter)4。讀取數據庫格式數據(分如下兩步)(1)配置ODBC(2)在SPSS中通過ODBC和數據庫進行
但是對于問卷的數據錄入其實很簡單,只要在SPSS的數據錄入窗口中直接輸入就可以了,只是在這里有幾點注意的事項需要說明一下。
1。在數據錄入窗口,我們可以看到有一個表格,這個表格中的每一行代表一份問卷,我們也稱為一個個案。
2。在數據錄入窗口中,我們可以看到表格上方出現了1、2、3、4、5??。的標簽名,這其實是我們在第一步定義變量中,我們為問卷的每一個問題取的變量名,即1代表第一題,2代表第二題。以次類推。我們只需要在變量名下面輸入對應問題的答案即可完成問卷的數據錄入。比如上述年齡段查詢的例題,如果問卷上勾選了A答案,我們在1下面輸入1就行了(不要忘記我們通常是用1、2、3、4來代替A、B、C、D的)。
3。我們知道一行代表一份問卷,所以有幾分問卷,就要有幾行的數據。在數據錄入完成后,我們要做的就是我們的關鍵部分,即問卷的統計分析了,因為這時我們已經把問卷中的數據錄入我們的軟件中了。
第三步:統計分析
有了數據,可以利用SPSS的各種分析方法進行分析,但選擇何種統計分析方法,即調用哪個統計分析過程,是得到正確分析結果的關鍵。這要根據我們的問卷調查的目的和我們想要什么樣的結果來選擇。SPSS有數值分析和作圖分析兩類方法。
1。作圖分析:
在SPSS中,除了生存分析所用的生存曲線圖被整合到Analyze菜單中外,其他的統計繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分::
(1)Gallery:相當于一個自學向導,將統計繪圖功能做了簡單的介紹,初學者可以通過它對SPSS的繪圖能力有一個大致的了解。
(2)Interactive:交互式統計圖。(3)Map:統計地圖。
(4)下方的其他菜單項是我們最為常用的普通統計圖,具體來說有: 條圖 散點圖 線圖 直方圖 餅圖 面積圖 箱式圖
正態Q-Q圖 正態P-P圖 質量控制圖 Pareto圖
自回歸曲線圖 高低圖 交互相關圖 序列圖 頻譜圖 誤差線圖
作圖分析簡單易懂,一目了然,我們可根據需要來選擇我們需要作的圖形,一般來講,我們較常用的有條圖,直方圖,正態圖,散點圖,餅圖等等,具體操作很簡單,大家可參閱相關書籍,作圖分析更多情況下是和數值分析相結合來對試卷進行分析的,這樣的效果更好。
2。數值分析:
SPSS 數值統計分析過程均在Analyze菜單中,包括:
(1)、Reports和Descriptive Statistics:又稱為基本統計分析。基本統計分析是進行其他更深入的統計分析的前提,通過基本統計分析,用戶可以對分析數據的總體特征有比較準確的把握,從而選擇更為深入的分析方法對分析對象進行研究。Reports和Descriptive Statistics命令項中包括的功能是對單變量的描述統計分析。
Descriptive Statistics包括的統計功能有:
Frequencies(頻數分析):作用:了解變量的取值分布情況
Descriptives(描述統計量分析):功能:了解數據的基本統計特征和對指定的變量值進行標準化處理
Explore(探索分析):功能:考察數據的奇異性和分布特征
Crosstabs(交叉分析):功能:分析事物(變量)之間的相互影響和關系 Reports包括的統計功能有:
OLAP Cubes(OLAP報告摘要表):功能: 以分組變量為基礎,計算各組的總計、均值和其他統計量。而輸出的報告摘要則是指每個組中所包含的各種變量的統計信息。
Case Summaries(觀測量列表):察看或打印所需要的變量值 Report Summaries in Row:行形式輸出報告 Report Summaries in Columns:列形式輸出報告
(2)、Compare Means(均值比較與檢驗):能否用樣本均值估計總體均值?兩個變量均值接近的樣本是否來自均值相同的總體?換句話說,兩組樣本某變量均值不同,其差異是否具有統計意義?能否說明總體差異?這是各種研究工作中經常提出的問題。這就要進行均值比較。
以下是進行均值比較及檢驗的過程:
MEANS過程:不同水平下(不同組)的描述統計量,如男女的平均工資,各工種的平均工資。目的在于比較。術語:水平數(指分類變量的值數,如sex變量有2個值,稱為有兩個水平)、單元Cell(指因變量按分類變量值所分的組)、水平組合
T test 過程:對樣本進行T檢驗的過程
單一樣本的T檢驗:檢驗單個變量的均值是否與給定的常數之間存在差異。
獨立樣本的T檢驗:檢驗兩組不相關的樣本是否來自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對T檢驗:檢驗兩組相關的樣本是否來自具有相同均值的總體(前后比較,如訓練效果,治療效果)one-Way ANOVA:一元(單因素)方差分析,用于檢驗幾個(三個或三個以上)獨立的組,是否來自均值相同的總體。
(3)、ANOVA Models(方差分析):方差分析是檢驗多組樣本均值間的差異是否具有統計意義的一種方法。例如:醫學界研究幾種藥物對某種疾病的療效;農業研究土壤、肥料、日照時間等因素對某種農作物產量的影響;不同飼料對牲畜體重增長的效果等,都可以使用方差分析方法去解決
(4)、Correlate(相關分析):它是研究變量間密切程度的一種常用統計方法,常用的相關分析有以下幾種:
1、線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描述。
2、偏相關分析:它描述的是當控制了一個或幾個另外的變量的影響條件下兩個變量間的相關性,如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系
3、相似性測度:兩個或若干個變量、兩個或兩組觀測量之間的關系有時也可以用相似性或不相似性來描述。相似性測度用大值表示很相似,而不相似性用距離或不相似性來描述,大值表示相差甚遠
(5)、Regression(回歸分析):功能:尋求有關聯(相關)的變量之間的關系在回歸過程中包括:Liner:線性回歸;Curve Estimation:曲線估計;Binary Logistic:二分變量邏輯回歸;Multinomial Logistic:多分變量邏輯回歸;Ordinal 序回歸;Probit:概率單位回歸;Nonlinear:非線性回歸;Weight Estimation:加權估計;2-Stage Least squares:二段最小平方法;Optimal Scaling 最優編碼回歸;其中最常用的為前面三個。
(6)、Nonparametric Tests(非參數檢驗):是指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。由于這些方法一般不涉及總體參數故得名。
非參數檢驗的過程有以下幾個: 1。Chi-Square test 卡方檢驗 2。Binomial test 二項分布檢驗 3。Runs test 游程檢驗
4。1-Sample Kolmogorov-Smirnov test 一個樣本柯爾莫哥洛夫-斯米諾夫檢驗 5。2 independent Samples Test 兩個獨立樣本檢驗 6。K independent Samples Test K個獨立樣本檢驗 7。2 related Samples Test 兩個相關樣本檢驗 8。K related Samples Test 兩個相關樣本檢驗(7)、Data Reduction(因子分析)(8)、Classify(聚類與判別)等等
以上就是數值統計分析Analyze菜單下幾項用于分析的數值統計分析方法的簡介,在我們的變量定義以及數據錄入完成后,我們就可以根據我們的需要在以上幾種分析方法中選擇若干種對我們的問卷數據進行統計分析,來得到我們想要的結果。
第四步:結果保存
我們的SPSS軟件會把我們統計分析的多有結果保存在一個窗口中即結果輸出窗口(output),由于SPSS軟件支持復制和粘貼功能,這樣我們就可以把我們想要的結果復制﹑粘貼到我們的報告中,當然我們也可以在菜單中執行file->save來保存我們的結果,一般情況下,我們建議保存我們的數據,結果可不保存。因為只要有了數據,如果我們想要結果的,我們可以隨時利用數據得到結果。
總結:
以上便是SPSS處理問卷的四個步驟,四個步驟結束后,我們需要SPSS軟件做的工作基本上也就結束了,接下來的任務就是寫我們的統計報告了。值得一提的是。SPSS是一款在社會統計學應用非常廣泛的統計類軟件,學好它將對我們以后的工作學習產生很大的意義和作用。
第三篇:用spss對學生成績進行分析
<
課程設計報告
班 級 姓 名 學 號 指導教師
用統計軟件spss分析學生成績
摘要:應用統計軟件spss,對某校一、二班學生語文,數學,英語成績進行分析。學生成績分析是考試后老師應做的一項比較麻煩的工作,主要包括:計算平均值和標準差,繪制學生成績分布直方圖等,用統計分析軟件spss來進行這類數據的處理,速度快,直觀,全面。spss是世界頂尖的統計軟件,其功能-幾乎涵蓋了數理統計的各個方面,適用于自然科學于社會科學各個領域進行分析統計,給人們進行數據分析愛來很大方便。
關鍵字:頻數分析,描述性分析,均值比較,獨立樣本均值檢驗
一、數據調查
(1)數據調查方法:由于學校的班級比較多,涉及到學生有上千人,如果對于每一個學生的學習成績進行普查,會加大工作難度,并且不利于從繁雜的數據中獲取信息。因此采用抽樣的方法進行數據調查。
(2)數據來源:抽取一班、二班的各十名,共二十名同學,采集語文成績,數學成績,英語成績作為本次統計分析的
表1 學生成績表(原始數據)
二、spss軟件應用分析
1、頻數分析
(1)語文成績的頻數分析
由分析可得,語文成績為86分的最多,占總人數15%(2)數學成績頻數分析
由此得知,數學成績為60分的人數最多,占總人數的15%。
(3)英語成績頻數分析
有分析得知,英語成績為78分的人最多。占總人數的15%。
2、描述性統計
有分析得知:語文成績的最低分是66分,最大值是88分,標準 差是7.725。數學成績的最低分是40分,最大值是90分,標準差是13.214。英語的最低分是44分,最大值是89分,標準差是10.723 可見,英語的標準差最大,水平相差較大。
3、均值比較
獨立樣本均值檢驗 一班和二班的英語成績
分組統計量表 獨立樣本均值檢驗表
由圖得知:分組統計量表顯示兩組數據的樣本容量,均值,標準差,和抽樣平均誤差。一班的英語平均成績低于二班。獨立樣本均值檢驗表包含了兩組樣本的獨立檢驗統計量。在進行獨立樣本均值檢驗時,先利用Levene方差齊次檢驗統計量判斷兩組樣本對應的總體方差是否相同。Levene檢驗統計量F=1.828,其對應的顯著性水平sig=0.193>0.05,在5%的顯著水平不能拒絕這兩組樣本對應的總體方差相等的假設。P值為0.131>0.5,所以在5%的顯著水平下接受。
三、結論
通過上述分析,可以看到,通過用spss數據分析軟件,可以對成績進行分析,很簡便的就能求出每科成績的平均數,標準差,均值檢驗等,老師可以根據分析結果因材施教,調整教學計劃。
第四篇:spss數據分析報告
關于某班級2012考試成績、獲獎情況統計分析
報告
一、數據介紹:
本次分析的數據為某班級學號排列最前的15個人在2012學習、獲獎統計表,其中共包含七個變量,分別是:專業、學號、姓名、性別、第一學期的成績、第二學期的成績、考級考證數量,通過運用spss統計軟件,對變量進行頻數分析、描述分析、探索分析、交叉列聯表分析,以了解該班級部分同學的綜合狀況,并分析各變量的分布特點及相互間的關系。
二、原始數據:
三、數據分析
1、頻數分析
(1)第一學期考試成績的頻數分析
進行頻數分析后將輸出兩個主要的表格,分別為樣本的基本統計量與頻數分析的結果
1)樣本的基本統計量,如圖1所示。樣本中共有樣本數15個,第一學期的考試成績平均分為627.00,中位數為628.00,眾數為630,標準差為32.859,最小值為568,最大值為675。“第一學期的考試成績”的第一四分位數是602,第二四分位數為628,第三四分位數為657。
2)“第一學期考試成績”頻數統計表如圖2所示。
3)“第一學期考試成績”Histogram圖統計如圖3所示。
(2)、第二個學期考試成績的頻數分析
1)樣本的基本統計量,如圖4所示。第二學期的考試成績平均分為463.47,中位數為452.00,眾數為419,標準差為33.588,最小值為419,最大值為522。“第二學期的考試成績”的第一四分位數是435,第二四分位數為452,第三四分位數為496。
3)“第二學期考試成績”頻數統計表如圖5所示。3)“第二學期考試成績”餅圖統計如圖6所
2、描述分析
描述分析與頻數分析在相當一部分中是相重的,這里采用描述分析對15位同學的考級考證情況進行分析。
輸出的統計結果如圖7所示。從圖中我們可以看到樣本數15,最小值1,最大值4,標準差0.941等統計信息。
3.探索分析。
探索分析能夠對變量進行更為深入、詳盡的描述性統計分析。下面就利用探索式分析對不同性別的同學獲獎情況進行探索分析。
1)在結果輸出窗口中將看到如下統計數據。如圖8所示,給出了輸出的觀察量。
2)圖9所示給出了根據性別分組的各組描述統計量。根據表中的數據,2012,女生比男生獲獎的次數多。
3)圖10以莖葉圖的形式也直觀的呈現了女生獲獎數量遠遠比男生多的現象。,4)圖為穩健估計量表,給出了4種不同權重下因變量均值的穩健估計。
5)圖11中給出了分組后的百分位數,分別輸出男生和女生獲獎數量的5%、10%、25%、75%、90%、及95%的百分位數。
4、交叉列聯表分析
分析多個變量在不同取值情況下的數據分布情況,從而進一步的分析變量關系。下面就利用交叉列聯表分析不同性別學生對目前所學專業的態度。在結果輸出窗口中將顯示如下統計數據。1)觀察量處理摘要表,如圖12所示,2)“性別”和“所學專業興趣”的交叉列聯表如圖13所示,從圖中我們可以看出,男生中對所學專業感興趣的只有2個,(占22.2%),一般感興趣的有4人,(占44.4%),不感興趣的有3人,(占33.3%),理論值為3.6人感興趣,3.0人一般感興趣,2.4人不感興趣,殘差分別為-1.6,1.0,0.6。女生中對專業感興趣的有4人,(占66.7%),一般感興趣的有1人,(占16.7%),不感興趣的也有1人,(占16.7%),理論值為2.44人感興趣,2.0人一般感興趣,1.6人不感興趣,殘差分別為1.6,-1.0,-0.6.可見,男生對目前所學專業的興趣與女生有很大差別。
3)圖14是交叉分組下的頻數分布圖,從該圖中我們可以很直觀的看到數據分布情況。
第五篇:實習總結spss
實習總結
這次實習使用的是spss17.0版本的軟件,通過這次實習,我了解到SPSS具有完整的數據輸入、編輯、統計分析、圖形制作等功能。平日課下進行統計調查技能培訓的時候,分析數據所用的軟件是Excel。雖然使用Excel可以對數據進行透視、分類、篩選以及計算相關系數等,但是這些操作都需要自己每一步每一步的進行手動操作,而使用SPSS軟件在對數據進行整理時,只需對軟件某選項內設置變量條件,系統便自動的進行整理。通過這次spss實習,我又入門了一項非常實用的軟件,會為以后統計分析提供多一種的選擇。下面我會從以下四方面分別闡述這次實習的收獲與總結。
做問卷調查
根據指導老師的安排,我需要獨自完成6份 《廣東高校在校大學生消費使用數碼產 品情況》的調查問卷。去廣工、廣財聽宣講會并且在那里做了兩份問卷調查,剩下的4份是以電子版的形式做的問卷調查。在做問卷調查的過程中,為了保證問卷的有效性和準確性,我會認真審核每一份問卷是否填寫完整以及前后是否合邏輯。在我的六份問卷調查中,比較容易出現問題的主要在每天使用數碼產品的時間,也是在做問卷調查中叮囑最多的。這都是值得的,因為保證問卷的客觀和有效是后面做統計分析的基礎。這次實訓是全班合作完成問卷,如果是一個人完成30幾份的問卷,那么真是一項不容小覷的任務。
Spss入門操作
這一部分主要是根據老師編制的指導書展開。Spss入門操作主要涉及到數據的輸入、描述統計分析、假設檢驗、相關與回歸分析。針對每一項都有專門的案例以及相應的練習。個人認為最難的是假設檢驗這一塊,因為《統計學原理》是在之前的學期學習的,統計分析的原理基本上都記不起來,對于輸出假設檢驗結果對問題進行分析方面問題比較大。我自己也回去看了相應的統計學原理,有一定的了解后,進行實操也比較順利。假設檢驗主要是
單樣本T檢驗、獨立樣本T檢驗、配對樣本T檢驗。獨立樣本與配對樣本的區分很重要,這決定著我需要進行哪種檢驗以及得出什么樣的結論。假設檢驗中通常都需要先進行方差齊性的F檢驗,F值小,相應的p值越大,就可以說方差齊性,再進行均值差異是否顯著的T檢驗,T檢驗中,相應的p值小于顯著性水平,就可以認為兩個樣本的均值存在顯著差異。
問卷分析
這部分需要設置多個變量,輸入至少30份數據,我選擇跟舍友分工合作,我們的數據輸入降低到20份左右,彼此共享一部分數據合起來達到30份以上的樣本量。對于問卷的分析,主要從以下三方面進行: 大學生基本情況 運用描述性統計分析對大學生每月生活費支出做頻率分析、計算均值及離散程度,發現大學生的月生活費支出主要集中在800—1200范圍。
運用交叉表分析得出手機、電腦這兩種數碼產品樣本中全部大學生都擁有,其他數碼產品的擁有比率各有不同。在這學期當中更換意愿最強的數碼產品是手機,并且主要是高年級的學生有更換的打算。
對大學生月生活費支出與月消費數碼產品支出做相關與回歸分析,發現這兩個變量存在較為顯著的相關性,一般情況下,大學生月生活費越高,每月在數碼產品方面的消費相應也會越高。
數碼產品的購買情況
對樣本中大學生對數碼產品的了解途徑、購買方式、傾向性選擇、感興趣的促銷手段、能否接受分期付款做頻率分析,就目前來講,大學生主要通過網絡了解數碼產品,傾向于大陸行貨以及港澳臺行貨,對于打折促銷比較感興趣,大部分大學生還是會選擇實體店購買較大宗數碼產品,并且對分期付款方式較為能接受。
對所有在用數碼產品購買支出、月生活費支出以及月消費數碼產品支出做相關與回歸分析,發現所有在用數碼產品購買支出與月消費數碼產品支出存在較強的正相關性,可以說,月消費數碼產品支出越高,大學期間夠買數碼產品總支出越高的可能性就越大。
數碼產品的使用情況
對樣本中 使用數碼產品對作息時間的影響、上課玩手機的頻率、數碼產品使用時間最長的用途 做描述統計頻率分析,發現男生中有更大比例會因為使用數碼產品而影響作息時間,數碼產品使用時間最長的用途占比最大的是娛樂,基本上所有人都會在課堂上使用數碼產品,經常使用的頻率達到25.8%。
對使用數碼產品對學習的影響利弊進行頻率分析,并且對每天花在數碼產品上的時間、學生績點做相關回歸分析,大部分學生認為數碼產品對學習的影響利弊平衡或者利大于弊。相關性分析顯示,大學生每天使用數碼產品的時間與學生績點相關性不強,兩者之間沒有必然的聯系。
通過這次實習,對于spss軟件有了一個基本的認識,會對樣本進行一些簡單的描述性統計分析、假設檢驗、相關與回歸分析,能夠將一些數據信息轉換成可以直觀理解并運用的實用信息,對于以后的學習和工作大有好處。數碼產品帶給我們極大的便利。基于調查問卷的分析,大學生每天都會花相當一部分時間使用電子產品。學習績點與每天使用數碼產品的時長沒有必然聯系,不過,的確有一部分同學承認因過度使用數碼產品影響作息,同時也會在不同程度上受到他人使用數碼產品的影響。大學生應該學會合理控制分配使用數碼產品的時間,讓自己最大程度地受益。