第一篇:統計分析學習總結
經過四周的課程主要學習了以下幾種分析方法: 1.方差分析
方差分析(Analysis of Variance,簡稱ANOVA),又稱“變異數分析”或“F檢 驗”,是R.A.Fisher發明的,用于兩個及兩個以上樣本均數差別的顯著性檢驗。由于各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
作用:一個復雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數據分析找出對該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數組中,把數據間的總的“變差”按各指定的變差來源進行分解的一種技術。對變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個很重要的思想。
經過方差分析若拒絕了檢驗假設,只能說明多個樣本總體均值不相等或不全相等。若要得到各組均值間更詳細的信息,應在方差分析的基礎上進行多個樣本均值的兩兩比較。
(1)多個樣本均值間兩兩比較
多個樣本均值間兩兩比較常用q檢驗的方法,即Newman-kueuls法,其基本步驟為:建立檢驗假設-->樣本均值排序-->計算q值-->查q界值表判斷結果。
(2)多個實驗組與一個對照組均值間兩兩比較
多個實驗組與一個對照組均值間兩兩比較,若目的是減小第II類錯誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯誤,最好選用新復極差法,前者查t界值表,后者查q'界值表。折疊
分析方法
根據資料設計類型的不同,有以下兩種方差分析的方法:
1、對成組設計的多個樣本均值比較,應采用完全隨機設計的方差分析,即單因素方差分析。
2、對隨機區組設計的多個樣本均值比較,應采用配伍組設計的方差分析,即兩因素方差分析。折疊兩類方差分析的異同
兩類方差分析的基本步驟相同,只是變異的分解方式不同,對成組設計的資料,總變異分解為組內變異和組間變異(隨機誤差),即:SS總=SS組間+SS組內,而對配伍組設計的資料,總變異除了分解為處理組變異和隨機誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。折疊基本步驟
整個方差分析的基本步驟如下:
1、建立檢驗假設; H0:多個樣本總體均值相等;
H1:多個樣本總體均值不相等或不全等。檢驗水準為0.05。
2、計算檢驗統計量F值;
3、確定P值并作出推斷結果。
2.回歸分析法定義
所謂回歸分析法,是在掌握大量觀察數據的基礎上,利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式(稱回歸方程式)。回歸分析法不能用于分析與評價工程項目風險。
分類
回歸分析中,當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。根據自變量的個數,可以是一元回歸,也可以是多元回歸。此外,回歸分析中,又依據描述自變量與因變量之間因果關系的函數
表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。根據所研究問題的性質,可以是線性回歸,也可以是非線性回歸。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數學手段化為線性回歸問題處理。回歸分析法預測是利用回歸分析方法,根據一個或一組自變量的變動情況預測與其有相關關系的某隨機變量的未來值。進行回歸分析需要建立描述變量間相關關系的回歸方程。
應用
社會經濟現象之間的相關關系往往難以用確定性的函數關系來描述,它們大多是隨機性的,要通過統計觀察才能找出其中規律。回歸分析是利用統計學原理描述隨機變量間相關關系的一種重要方法。
在物流的計算中,回歸分析法的公式如下: y=a+bx b=∑xy-n·∑x∑y/[∑x²-n·(∑x)²];a=∑y-b·∑x/n
3.主成分分析和因子分析
principal component analysis(PCA)主成分分析法是一種數學變換的方法, 它把給定的一組相關變量通過線性變換轉成另一組不相關的變量,這些新的變量按照方差依次遞減的順序排列。在數學變換中保持變量的總方差不變,使第一變 量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關,稱為第二主成分。依次類推,I個變量就有I個主成分。
其中Li為p維正交化向量(Li*Li=1),Zi之間互不相關且按照方差由大到小排列,則稱Zi為X的第I個主成分。設X的協方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特征值λi(按從大到小排序)及其特征向量,可以證明,λi所對應的正交化特征向量,即為第I個主成分Zi所對應的系數向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數量k滿足Σλk/Σλj>0.85。
主成分分析主要是一種探索性的技術,在分析者進行多元數據分析之前,用他來分析數據,讓自己對數據有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數據。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當變量很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成分對變量簡化(reduce dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變量的線性組合。
2、主成分分析的重點在于解釋各變量的總方差,而因子分析則把重點放在解釋各變量之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特征值大于1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分。和主成分分析相比,由于因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,并對這些因子進行解釋的時候,更加傾向于使用因子分析,并且借助旋轉技術幫助更好解釋。而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區分不是絕對的。
在算法上,主成分分析和因子分析很類似,不過在因子分析中所采用的協方差矩陣的對角元素不再是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。4.聚類分析
依據研究對象(樣品或指標)的特征,對其進行分類的方法,減少研究對象的數目。各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。各指標之間具有一定的相關關系。聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析也叫分類分析(classification analysis)或數值分類(numerical taxonomy)變量類型:定類變量、定量(離散和連續)變量 聚類方法
1,層次聚類(Hierarchical Clustering)合并法、分解法、樹狀圖 2.非層次聚類 劃分聚類、譜聚類 分析步驟:
定義問題與選擇分類變量;聚類方法;確定群組數目;聚類結果評估;結果的描述、解釋
5典型相關分析和對應分析
典型相關分析(canonical correlation analysis)就是利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變量中提取有代表性的兩個綜合變量U1和V1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關關系來反映兩組指標之間的整體相關性。
對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,是近年新發展起來的一種多元相依變量統計分析技術,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。主要應用在市場細分、產品定位、地質研究以及計算機工程等領域中。原因在于,它是一種視覺化的數據分析方法,它能夠將幾組看不出任何聯系的數據,通過視覺上可以接受的定位圖展現出來。6.判別分析和時間序列分析 判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定系數,并計算判別指標。據此即可確定某一樣本屬于何類。當得到一個新的樣品數據,要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。時間序列分析(Time series analysis)是一種動態數據處理的統計方法。該方法基于隨機過程理論和數理統計學方法,研究隨機數據序列所遵從的統計規律,以用于解決實際問題。它包括一般統計分析(如自相關分析,譜分析等),統計模型的建立與推斷,以及關于時間序列的最優預測、控制與濾波等內容。經典的統計分析都假定數據序列具有獨立性,而時間序列分析則側重研究數據序列的互相依賴關系。后者實際上是對離散指標的隨機過程的統計分析,所以又可看作是隨機過程統計的一個組成部分。例如,記錄了某地區第一個月,第二個月,??,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預報。
第二篇:統計分析方法學習總結
統計分析方法學習總結
S201505158 陳丹妮
一、統計的描述
一般采用以下幾種圖形描述數據:
直方圖:表示幾個變量的數據,使人們能夠看出這些數目的大體分布或“形狀”; 盒形圖:比直方圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖);
莖葉圖:既展示了數據的分布形狀又有原始數據。它象一片帶有莖的葉子。莖為較大位數的數字,葉為較小位數的數字;
散點圖:描述的數據有兩對連續變量; 定型變量的圖:定性變量(或屬性變量,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例,如:餅圖、條形圖。
二、匯總統計量
表示位置的匯總統計量:均值(mean):樣本值的算術平均值;中位數(median):中間大小的數(一半樣本點小于中位數);(第一或第三)(下、上)四分位數(點)(first quantile, third quantile)(分別有1/4或3/4的數目小于它們);k-百分位數(k-percentile);a分位數(a centile): k-百分位數=k%分位數:有k%的數目小于它;眾數(mode):樣本中出現最多的數。
表示尺度的匯總統計量:極差(range):極端值之差;四分位間距(四分位極差)(interquantile range)四分位數之差;標準差(standard deviation)方差平方根;方差(variance)各點到均值距離平方的平均。
三、相關的分布
相關的分布包括:離散分布、連續分布、抽樣分布:我們能夠利用樣本統計量中的(描述樣本的)信息, 比如樣本均值和樣本標準差中的信息,來對(描述總體的)總體參數(比如總體均值和總體標準差)進行推斷(估計、檢驗等)。
大數定律:闡述大量隨機變量的平均結果具有穩定性的一系列定律的總稱。其中又分為獨立同分布大數定律(提供了用樣本平均數估計總體平均數的理論依據)和貝努力大數定律(提供了頻率代替概率的理論依據)。
中心極限定理:闡述大量隨機變量之和的極限分布是正態分布的一系列定理的總稱。獨立同分布中心極限定理(不論總體服從何種分布,只要它的數學期望和方差存在,從中抽取容量為n的樣本,當n充分大時,則這個樣本的總和或平均數是服從正態分布的隨機變量)和德莫佛-拉普拉斯中心極限定理(提供了用正態分布近似計算二項分布概率的方法)。均值的假設檢驗包括對于正態總體均值的檢驗、對于比例的檢驗
四、各種分析方法
1.列聯表分析
列聯表變量中每個都有兩個或更多的可能取值,稱為水平,比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。列聯表的中間各個變量不同水平的交匯處,就是這種水平組合出現的頻數或計數(count)。二維的列聯表又稱為交叉表(cross table)。列聯表可以有
很多維。維數多的叫做高維列聯表。注意前面這個列聯表的變量都是定性變量;但列聯表也會帶有定量變量作為協變量。
2.方差分析
方差分析(analysis of variance,ANOVA)是分析各個自變量對因變量影響的一種方法。這里的自變量就是定性變量的因子及可能出現的稱為協變量(covariate)的定量變量。分析結果是由一個方差分析表表示的。原理為:把因變量的值隨著自變量的不同取值而得到的變化進行分解,使得每一個自變量都有一份貢獻,最后剩下無法用已知的原因解釋的則看成隨機誤差的貢獻。然后用各自變量的貢獻和隨機誤差的貢獻進行比較(F檢驗),以判斷該自變量的不同水平是否對因變量的變化有顯著貢獻。輸出就是F-值和檢驗的一些p-值。
3.相關和回歸分析
發現變量之間的統計關系,并且用此規律來幫助我們進行決策才是統計實踐的最終目的。一般來說,統計可以根據目前所擁有的信息(數據)來建立人們所關心的變量和其他有關變量的關系。這種關系一般稱為模型(model)。
假如用Y表示感興趣的變量,用X表示其他可能與Y有關的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個函數關系Y=f(X)。這里Y稱為因變量或響應變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協變量(independent variable, explanatory variable, covariate)。建立這種關系的過程就叫做回歸(regression)。
一旦建立了回歸模型,除了對變量的關系有了進一步的定量理解之外,還可以利用該模型(函數)通過自變量對因變量做預測(prediction)。這里所說的預測,是用已知的自變量的值通過模型對未知的因變量值進行估計;它并不一定涉及時間先后。
4.主成分分析和因子分析
主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找幾個成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數學模型上,因子分析和主成分分析有不少區別。而且因子分析的計算也復雜得多。根據因子分析模型的特點,它還多一道工序:因子旋轉(factor rotation);這個步驟可以使結果更好。對于計算機,因子分析并不費事。從輸出的結果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關系數。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數綜合的變量概括。數據越相關,降維效果就越好。在得到分析的結果時,并不一定會都得到如我們例子那樣清楚的結果。這與問題的性質,選取的原始變量以及數據的質量等都有關系。
5.聚類分析
物以類聚、人以群分;但根據什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。對一個數據,既可以對變量(指標)進行分類(相當于對數據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數據中的行分類)。當然,不一定事先假定有多少類,完全可以按照數據
本身的規律來分類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數學上是無區別的。
k-均值聚類(k-means cluster,也叫快速聚類,quick cluster)卻要求先說好要分多少類。然后,根據和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。另一種聚類稱為分層聚類或系統聚類(hierarchical cluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。
6.判別分析
在聚類分析中,人們一般事先并不知道應該分成幾類及哪幾類,全根據數據確定。在判別分析中,至少有一個已經明確知道類別的“訓練樣本”,并利用該樣本來建立判別準則,并通過預測變量來為未知類別的觀測值進行判別了。訓練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能用于判別的預測變量。這是最重要的。當然,在應用中,選擇余地不見得有多大。要注意數據是否有不尋常的點或者模式存在。還要看預測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關分析來驗證。判別分析是為了正確地分類,但同時也要注意使用盡可能少的預測變量來達到這個目的。使用較少的變量意味著節省資源和易于對結果作解釋。在計算中需要看關于各個類的有關變量的均值是否顯著不同的。
7.典型相關分析
由于一組變量可以有無數種線性組合(線性組合由相應的系數確定),因此必須找到既有意義又可以確定的線性組合。典型相關分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關系數最大。目的:研究多個變量之間的相關性。方法:利用主成分思想,可以把多個變量與多個變量之間的相關化為兩個變量之間的相關.即找一組系數(向量)l和m, 使新變量U=l`X(1)和V=m`X(2)有最大可能的相關關系。
8.對應分析
在因子分析中,或者只對變量(列中的變量)進行分析,或者只對樣品(觀測值或行中的變量)進行分析;而且利用載荷圖來描述各個變量之間的接近程度。典型相關分析也只研究列中兩組變量之間的關系。然而,在很多情況下,所關心的不僅僅是行或列本身變量之間的關系,而是行變量和列變量的相互關系;對應分析方法被普遍認為是探索性數據分析的內容,處理列聯表的問題僅僅是對應分析的一個特例。一般地,對應分析常規地處理連續變量的數據矩陣;這些數據具有如在主成分分析、因子分析、聚類分析等時所處理的數據形式。在對應分析中,根據各行變量的因子載荷和各列變量的因子載荷之間的關系,行因子載荷和列因子載荷之間可以兩兩配對。如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關系。由于列聯表數據形式和一般的連續變量的數據形式類似,所以也可以用對應分析的數學方法來研究行變量各個水平和列變量各個水平之間的關系。
9.時間序列分析
人們對統計數據往往可以根據其特點從兩個方面來切入,以簡化分析過程。一個是研究所謂橫截面(cross section)數據,也就是對大體上同時,或者和時間無關的不同對象的觀測值組成的數據。另一個稱為時間序列(time series),也就是由對象在不同時間的觀測值形成的數據。時間序列分析也是一種回歸。回歸分析的目的是建立因變量和自變量之間關系的模型;并且可以用自變量來對因變量進行預測。通常線性回歸分析因變量的觀測值假定是互相獨立并且有同樣分布。而時間序列的最大特點是觀測值并不獨立。時間序列的一個目的是用變量過去的觀測值來預測同一變量的未來值。也就是說,時間序列的因變量為變量未來的可能值,而用來預測的自變量中就包含該變量的一系列歷史觀測值。當然時間序列的自變量也可能包含隨著時間度量的獨立變量。一個時間序列可能有趨勢、季節、循環這三個成分中的某些或全部再加上隨機成分。因此,如果要想對一個時間序列本身進行較深入的研究,把序列的這些成分分解出來、或者把它們過慮掉則會有很大的幫助。如果要進行預測,則最好把模型中的與這些成分有關的參數估計出來。
如果我們不僅僅滿足于分解現有的時間序列,而且想要對未來進行預測,就需要建立模型。首先,這里介紹比較簡單的指數平滑(exponential smoothing)。指數平滑只能用于純粹時間序列的情況,而不能用于含有獨立變量時間序列的因果關系的研究。指數平滑的原理為:當利用過去觀測值的加權平均來預測未來的觀測值時(這個過程稱為平滑),離得越近的觀測值要給以更多的權。而“指數”意味著:按照已有觀測值“老”的程度,其上的權數按指數速度遞減。
第三篇:應用統計分析課程學習總結
應用統計分析課程學習總結
在學期開始時,老師就語重心長的告訴我們:一定要好好聽應用統計分析的課,那個SPSS軟件非常有用,以后寫論文肯定要用到!盡管心里也是一再暗示自己要好好學,但是因為其他原因,學習的效果并沒有預期中的那么理想,課程結束后依舊是模模糊糊,好多知識還真的是一知半解。通過回顧課程內容,閱讀老師發來的SPSS電子書,我簡略總結一下自己這學期所學到的基本內容。
SPSS社會科學統計軟件是世界著名的統計分析軟件之一,SPSS作為數據統計分析的重要工具,其操作是屬于技術方面的,關鍵在于數據的收集描述和分析以及后期數據處理時的假設檢驗方法的選擇。通俗一點說,使用SPSS可以從一堆看似雜亂無章的數字中找到聯系,發現數據之間的影響關系。這就是SPSS的神奇之處,這也就是我們作為研究生在實證研究時使用SPSS的目的和用途。
描述性統計是進行其他統計分析的基礎和前提。利用這些基本統計方法,可以對要分析數據的總體特征有比較準確的把握,同時也為更深入的分析提供了依據。在商業分析中,通常需要進行組與組之間平均水平的比較。t檢驗方法,就是主要用來進行兩個樣本間的比較。t檢驗的基本原理是:首先假設零假設H0成立,即樣本間不存在顯著差異,然后利用現有樣本根據t 分布求得t值,并據此得到相應的概率值p,若p≤ɑ,則拒絕原假設,認為兩樣本間存在顯著差異。SPSS中“Analyze”菜單中的“Compare Means”可用于均值檢驗,其子菜單中的“One-sample t test”用于單一樣本t檢驗;“Independent-samples t test”用于兩獨立樣本t檢驗;“Baired-samples t test”用于兩配對樣本t檢驗。方差分析用于兩個及兩個以上樣本均值差異的顯著性檢驗。方差分析的基本思想是:通過分析研究中不同變量的變異對總變異的貢獻大小,確定控制變量對研究變量影響力的大小。通過方差分析,分析不同水平的控制變量是否對結果產生了顯著影響。如果控制變量的不同水平能夠對結果產生顯著影響,那么它和隨機變量共同作用,必將使結果有顯著變化。單因素方差分析所解決的是一個因素下的多個不同水平之間的相關問題;多因素方差分析的控制變量在兩個或兩個以上,其主要用于分析多個控制變量的作用、多個控制變量的交互作用以及其他隨機變量是否對結果產生了顯著影響;協方差分析將那些很難控制的因素作為協變量,在排除協變量影響的條件下,分析控制變量對觀察變量的影響,從而更準確地對控制因素進行評價。單因素方差分析主要用“Analysis”的“Compare Means”菜單下的“One—Way ANOVA”子菜單實現;多因素方差分析和協方差分析都是在“Analysis”下“General Linear Model”菜單下的“Univariate”子菜單實現的。相關分析即是用適當的統計指標來衡量事物之間,以及變量之間線性相關程度的強弱。相關分析的方法很多,包括簡單相關分析、偏相關分析和距離相關分析。簡單相關分析包括定距變量的相關分析和定序變量的相關分析。前者通過計算定距變量間的相關系數來判斷兩個或兩個以上定距變量之間的相關程度。后者則采用非參數檢驗的方法利用等級相關系數來衡量定序變量之間的相關程度;偏相關分析是指在排除了第三者影響的前提下,衡量兩個變量之間的相關程度,當然第三者與這兩個變量之間要有一定的聯系;距離相關分析是對觀測變量之間差異度或相似程度進行的測量。回歸分析是研究變量與變量之間聯系的最為廣泛的模型。在實際中,根據變量的個數、類型,以及變量之間的相關關系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析和邏輯回歸分析等。一元線性回歸只涉及一個自變量的回歸問題;多元線性回歸用于解決兩個或兩個以上自變量對一個因變量的數量變化關系問題;非線性回歸主要解決在非線性相關條件下,自變量對因變量的數量變化關系;時間序列的曲線回歸用于研究因變量與時間之間的變化關系;當遇到非數量型變量時,通過引入虛擬變量來構造含虛擬變量的回歸模型;Logistic回歸分析是對定性變量進行的回歸分析。SPSS中“Analyze”/“Regression”菜單可用于回歸統計分析。其中,一元線性回歸、多元線性回歸和含虛擬變量的回歸分析可由“Linear”子菜單完成;非線性回歸分析、曲線估計和時間序列的曲線估計可由“Curve Estimation”子菜單完成;邏輯回歸分析可由“Binary Logistic”子菜單完成。
結構方程模型又稱協方差結構模型,它主要是在心理、行為、教育、和社會科學等學科的實際應用中發展起來的一個研究方向。結構方程模型是驗證性因子分析和因果模型的結合體,所包含的因子模型又稱為測量模型,其中的方程成為測量方程,描述了潛變量與觀察變量之間的關系,所包含的因果模型又稱為潛變量模型,也稱為結構模型,描述了潛變量之間的關系。結構方程模型具有諸多好處,可以同時處理多個因變量,容許自變量和因變量含測量誤差,同時估計因子結構和因子關系,容許更大彈性的測量模型,估計整個模型的擬合程度。
以上是對每一部分內容的簡要概述,其中更深層的內容仍需要更深刻的理解。課程雖然結束了,但是對SPSS的學習不能停止,因為自己還不能獨自熟練的操作這個軟件,還不能依靠這個軟件為自己的論文或科研做出一些成果。SPSS是極其實用的,學習不能止步!很是希望能夠把SPSS的應用熟練操作,并且能把它變為自己的一種技能,使自己在今后的工作與學習中,可以輕松運用。
第四篇:金融統計分析學習指導
金融統計分析學習指導
金融統計分析是金融專業的一門基礎課。作為經濟統計分析的重要分支,金融統計分析覆蓋了實證金融理論、金融統計指標、現實金融問題、統計分析方法運用等方面的內容,是一個系統的知識體系。課程主要框架分為6個部分:
第一部分(第1章),介紹金融統計分析的基本問題;
第二部分(第2章),是貨幣與銀行統計分析,主要介紹貨幣與銀行統計體系、交易主體分類、貨幣當局資產負債表、存款貨幣銀行資產負債表、貨幣概覽與銀行概覽等;
第三部分(第3、4章),是金融市場統計分析,主要介紹證券市場統計分析、外匯市場與匯率統計分析;
第四部分(第6、7章),是金融企業運營統計分析,主要介紹商業銀行統計分析、保險運營統計分析;
第五部分(第5、8章),是金融統計分析的綜合技術分析,主要介紹國際收支統計分析、資金流量統計分析;
第六部分(第9章),是金融統計分析的新領域,即金融體系國際競爭力分析。這六個部分,涵蓋了課程的9個章節,依照由上至下的邏輯順序展開。這些章節所包括的具體內容如下:
第一章:金融統計分析基本問題
1、了解
(1)經濟分析方法:靜態經濟分析;比較靜態經濟分析;動態經濟分析;比較動態經濟分析。
(2)經濟統計分析方法:描述性分析方法;應用回歸和多元統計分析方法。
(3)常用經濟統計分析方法:計量經濟模型;投入產出分析;經濟周期分析方法。
2、掌握
(1)貨幣供應量統計;現金收支統計;對外金融統計;金融市場統計;中央銀行專項統計調查;保險統計;資金流量統計。
(2)金融統計分析的工作方法;金融統計分析的工作方法主要步驟。
3、重點掌握
(1)基本概念:貨幣流通;信用;金融;金融體系;金融制度;金融機構;金融工具;金融市場;金融調控機制;金融統計指標;金融賬戶。
(2)金融統計分析的主要任務。
(3)如何做好金融統計分析工作。
第二章:貨幣銀行統計分析
1、了解
(1)貨幣與銀行統計的一般結構。
(2)交易主體分類。
(3)貨幣與銀行統計分析的理論依據。
(4)對貨幣與銀行統計中基礎貨幣、貨幣乘數、信貸總量、儲蓄存款、通貨膨脹和貨幣供應量的統計分析。
2、掌握
(1)貨幣與銀行統計的一般結構。
(2)貨幣與銀行統計的特點。
(3)貨幣與銀行統計的基本要求。
3、重點掌握
(1)貨幣的定義。
(2)我國貨幣與銀行的統計結構:掌握三個基本賬戶、兩個合并賬戶的表式、內容、各項目的經濟含義。能夠通過這三個基本賬戶和兩個合并賬戶的分析,獲得相關金融活動產生的原因,引發或可能引發的結果等信息,為金融決策提供決策依據。
(3)貨幣供給的定量分析:包括對基礎貨幣和派生貨幣的考察分析。
(4)貨幣需求的定量分析:利用簡單回歸分析法分析貨幣需求量。
第三章:證券市場統計分析
1、了解
(1)證券的概念及分類;證券市場的含義及分類。
(2)債券發行統計的內容、分類、債券利息的計算方法、債券發行成本的內容及計算,債券交易統計的內容。
2、掌握
(1)上市公司統計分析的含義及內容,中介機構統計分析的含義及種類,股票市場宏觀基本面分析。
(2)債券投資收益風險統計:債券投資收益的概念、統計。
(3)基金市場統計分析:基金費用統計、基金資產凈值統計。
(4)基金的種類及劃分,基金資產凈值總額的計算方法。
3、重點掌握
(1)股票市場統計分析:股票發行統計分析、股票交易統計分析、股票價格確定分析。
(2)債券價格確定統計:債券的定價原理、債券的基本價值評估。
(3)基金業績評估分析:對基金業績評估分析主要是通過基金的資產凈值增長率和單位風險報酬率兩個指標的計算對比完成的。
第四章:外匯市場與率統計分析
1、了解
(1)外匯市場的功能。
(2)人民幣匯率制度的變革。
2、掌握
(1)我國外匯市場運行的基本結構:全國性的計算機網絡交易系統、入市主體采取會員制、交易幣種、交易方式、清算方式。
(2)匯率的概念、匯率的標價方法和匯率的種類。
(3)現行人民幣匯率制度的特點。
(4)貿易外匯統計分析。
3、重點掌握
(1)外匯市場的概念和外匯市場的類型。
(2)影響匯率變動的因素:國際收支差額、利率水平、通貨膨脹因素、財政、貨幣政策、投機資本、政府的市場干預、一國經濟實力、其他因素等;匯率變化對經濟的影響。
第五章:國際收支統計分析
1、了解
(1)國際收支統計數據來源:國際貿易統計、國際交易報告體系、企業調查、其他數據源。
(2)我國國際收支統計改革。
(3)國際收支統計與其他統計的關系。
(4)我國外債的發展:外債余額、外債規模的安全線、外債的期限結構、外債的幣種結構。
(5)外匯儲備規模與經濟實力的國際比較;外匯儲備與國際收支變量的比較分析。
2、掌握
(1)國際收支統計的原則和方法:復式記賬法、價值及時間的記錄方法、國際收支統計中不同貨幣間的轉換。
(2)外匯收支統計的概念,我國外匯收支統計的歷史沿革。
(3)外債統計:外債的概念,我國在對外債進行管理的實際操作中,將外債分為五種。
(4)我國現行國際收支統計申報體系。
(5)我國外匯儲備規模的預測。
3、重點掌握
(1)國際收支的基本概念:國際收支、交易、經濟體、居民和非居民。
(2)國際收支平衡表的內容:經常項目、資本與金融項目、儲備資產等。
(3)國際收支分析:國際收支分析的方法、國際收支項目分析的內容、國際收支差額分析的內容。
(4)外債的經濟分析:外債的經濟收益與成本、外債與國際收支平衡、債務償還比率與償債能力。
(5)外匯儲備的適度規模及外匯儲備規模的影響因素。
第六章:商業銀行統計分析
1、了解
(1)商業銀行的基本職能:中介職能、支付職能、擔保職能、代理功能、政策功能。
(2)銀行競爭力指標體系的內容。
2、掌握
(1)商業銀行統計分析的主要任務。
(2)商業銀行資產負債表的結構和內容。
(3)商業銀行效益統計分析:衡量銀行盈利性指標分總量指標和比率指標兩類;對銀行損益表的分析,要能夠通過損益表分析銀行利潤增減變化的原因;盈利來源分析。
(4)商業銀行風險統計分析:風險的評價指標、銀行資產風險識別統計分析、資產質量分析。
(5)經濟效益指標分析、安全能力指標分析。
3、重點掌握
(1)商業銀行資產業務統計分析:銀行資產業務統計對象和主要統計指標;資產業務統計分析和主要內容,不良貸款情況分析,各類資產的結構分析,資產的利率敏感性分析,資產變動的趨勢分析;資產流動性分析。
(2)商業銀行負債業務統計分析:負債分析的主要指標;負債統計分析內容(包括各項負債余額統計分析、負債結構統計分析、負債變化及預測分析、負債成本分析、負債的穩定性分析、市場占比分析)。
(3)商業銀行資產負債管理統計:資產負債管理的概念、我國資產負債管理監測指標體系。
第七章:保險運營統計分析
1、了解
(1)生命表的概念及計算。
(2)保費計算方法的發展過程。
(3)保險責任準備金的意義。
2、掌握
(1)累積函數、單利、復利、現值、貼現率和拆現率等基本概念;年金的概念及計算
(2)情景集的概念及分析方法。
(3)統計分析方法在保險公司運營其他環節的應用。
3、重點掌握
(1)保費計算方法及保費計算的實例分析。
(2)保險責任準備金的計算,責任準備金對利潤的影響分析。
(3)現金償付能力的計算分析。
第八章:資金流量統計與分析
1、了解
(1)資金流量核算產生的背景。
(2)資金流量核算的范圍。
2、掌握
(1)資金流量核算的特點。
(2)資金流量核算的基本要求。
(3)資金流量核算的分類。
3、重點掌握
(1)基本概念:資金流量核算、資金流量核算體系。
(2)資金流量分析:金融結構分析、社會融資活動分析。
第九章:金融統計分析的國際發展趨勢
1、掌握
金融體系國際競爭力
2、重點掌握
宏觀審慎監管指標體系。
三、學習方法:
這9個章節中第2章、第3章和第6章覆蓋的內容較多,需要掌握的知識點和分析方法也比較復雜,尤其第3章和第6章,不僅涉及到一些復雜的理論,還要用這些理論正確的分析和處理實際問題,大到宏觀的經濟運行,小到一張債券如何定價。因此,這些章節要引起同學們的重視,花費更多的時間和精力深入學習。
這門課程中,需要了解和掌握的內容,盡量在課堂上加深印象,明確問題本質,把效用提到最高。需要重點掌握的內容,不僅要依靠老師的教授,更要在課后多加練習,深入理解。金融統計分析實質上是統計方法在金融領域的應用問題,因此涉及到很多實務,要求同學掌握實際動手能力,遇到實際問題如何采用正確的方法和手段處理。這就更依賴于課下不斷的演練了。所以,課后作業和金融統計分析學習指導這兩個武器是非常實用,非常高效的。學生可以依據自己的實際情況制定學習計劃,由于金融統計分析屬于方法性課程,不僅要熟記,更重要的是理解,所以務必要動手在先,未雨綢繆。
第五篇:ArcGIS地統計分析總結
ArcGIS地統計分析(Geostatistical Analyst)1 介紹
1.1為什么使用ArcGIS Geostatistical Analyst
人為判斷總是會遺漏某些重要信息,同時也會無中生有。而ArcGIS Geostatistical Analyst提供客觀的數據驅動方法,定量預測數據變化趨勢和從空間數據中發掘特征模型。如果數據不夠精確或者模型不夠準確,這樣勢必影響輸出的地圖和從中得到的結論。而ArcGIS Geostatistical Analyst可以提供一個概率框架,來定量計算生成數據面時的不確定性。
元統計分析方法利用屬性數據之間的相關來推斷不同變量之間的聯系,ArcGIS Geostatistical Analyst可以聯合各種數據來做更精確的預測。ArcGIS Geostatistical Analyst可以有效地推測一些空間現象的未知部分,因此,對采樣計劃的設計和優化非常關鍵。
1.2使用ArcGIS Geostatistical Analyst的各個領域
這個模塊的應用對象不計其數,可以使用這個工具包開發任何一種地理數據集(比如坐標和屬性),下面列出幾個成功應用ArcGIS Geostatistical Analyst的典型領域:
氣象學家和統計學家應用ArcGIS Geostatistical Analyst來進行氣象數據分析。采礦行業廣泛的應用ArcGIS Geostatistical Analyst,涉及從最初的地質特征研究到產量控制的各個階段。
石油工業成功的應用ArcGIS Geostatistical Analyst,來分析包括地震數據和油井數據集成的空間數據,并且用來研究物理特性和地震屬性之間的相關關系。
在環境問題的研究中,ArcGIS Geostatistical Analyst的應用提供了一個分析空氣、土壤和地下水污染高效和一致的模型。演示、個例研究和研究教育論文提供了大量的應用ArcGIS Geostatistical Analyst的例子。同時,ArcGIS Geostatistical Analyst也成為評估漁業產量的一個標準方法。
精細農業所應用的土壤特性的圖形分析中,ArcGIS Geostatistical Analyst也得到廣泛應用。越來越多的農民或者農村顧問使用ArcGIS Geostatistical Analyst來增加作物產量、提高利潤、減小對環境的不利影響。
2基本原理
地統計學與經典統計學的共同之處在于:它們都是在大量采樣的基礎上,通過對樣本屬性值的頻率分布或均值、方差關系及其相應規則的分析,確定其空間分布格局與相關關系。但地統計學區別于經典統計學的最大特點即是:地統計學既考慮到樣本值的大小,又重視樣本空間位置及樣本間的距離,彌補了經典統計學忽略空間方位的缺陷。
地統計分析理論基礎包括前提假設、區域化變量、變異分析和空間估值。
2.1 前提假設(1)隨機過程
與經典統計學相同的是,地統計學也是在大量樣本的基礎上,通過分析樣本間的規律,探索其分布規律,并進行預測。地統計學認為研究區域中的所有樣本值都是隨機過程的結果,即所有樣本值都不是相互獨立的,它們是遵循一定的內在規律的。因此地統計學就是要揭示這種內在規律,并進行預測。
(2)正態分布
在統計學分析中,假設大量樣本是服從正態分布的,地統計學也不例外。在獲得數據后首先應對數據進行分析,若不符合正態分布的假設,應對數據進行變換,轉為符合正態分布的形式,并盡量選取可逆的變換形式。
(3)平穩性
對于統計學而言,重復的觀點是其理論基礎。統計學認為,從大量重復的觀察中可以進行預測和估計,并可以了解估計的變化性和不確定性。對于大部分的空間數據而言,平穩性的假設是合理的。這其中包括兩種平穩性:一是均值平穩,即假設均值是不變的并且與位置無關;另一類是與協方差函數有關的二階平穩和與半變異函數有關的內蘊平穩。二階平穩是假設具有相同的距離和方向的任意兩點的協方差是相同的,協方差只與這兩點的值相關而與它們的位置無關。內蘊平穩假設是指具有相同距離和方向的任意兩點的方差(即變異函數)是相同的。二階平穩和內蘊平穩都是為了獲得基本重復規律而作的基本假設,通過協方差函數和變異函數可以進行預測和估計預測結果的不確定性。
2.2 區域化變量
當一個變量呈現一定的空間分布時,稱之為區域化變量,它反映了區域內的某種特征或現象。區域化變量與一般的隨機變量不同之處在于,一般的隨機變量取值符合一定的概率分布,而區域化變量根據區域內位置的不同而取不同的值。而當區域化變量在區域內確定位置取值時,表現為一般的隨機變量,也就是說,它是與位置有關的隨機變量。在實際分析中,常采用抽樣的方式獲得區域化變量在某個區域內的值,即此時區域化變量表現為空間點函數:
Z?x??Z?xu,xv,xw?
根據其定義,區域化變量具有兩個顯著特征:即隨機性和結構性。首先,區域化變量是一個隨機變量,它具有局部的、隨機的、異常的特征;其次,區域化變量具有一定的結構特點,即變量在點x與偏離空間距離為h的點x+h處的值Z(x)和Z(x+h)具有某種程度的相似性,即自相關性,這種自相關性的程度依賴于兩點間的距離h及變量特征。除此之外,區域化變量還具有空間局限性(即這種結構性表現為一定范圍內)、不同程度的連續性和不同程度的各向異性(即各個方向表現出的自相關性有所區別)等特征。
2.3 變異分析
(1)協方差函數 協方差又稱半方差,表示兩隨機變量之間的差異。在概率論中,隨機變量X與Y的協方差定義為:
Cov?X,Y??E??X?E?X???Y?E?Y???
借鑒上式,地統計學中的協方差函數可表示為:
1N?h?C?h??Z?xi??Z?xi?Z?xi?h??Z?xi?h? ?N?h?i?1????
其中,Z(x)為區域化隨機變量,并滿足二階平穩假設,即隨機變量Z(x)的空間分布規律不因位移而改變;h為兩樣本點空間分隔距離;Z?xi?為Z(x)在空間點處xi的樣本值。
Z?xi?h?是Z(x)在處距離偏離h的樣本值[i=1,2,…,N(h)];N(h)是分隔距離為h時的樣本點對總數;Z?xi?和Z?xi?h?分別為Z?xi?和Z?xi?h?的樣本平均數,即:
1nZ?xi???Z?xi?
ni?1
1nZ?xi?h???Z?xi?h?
ni?1
(2)半變異函數 半變異函數又稱半變差函數、半變異矩,是地統計分析的特有函數。區域化變量Z(x)在點x和x+h處的值Z(x)與Z(x+h)差的方差的一半稱為區域化變量Z(x)的半變異函數,記為r(h),2r(h)稱為變異函數。
根據定義有:
1r?x,h??Var[Z(x)?Z(x?h)]
2112r?x,h??E[Z(x)?Z(x?h)]?{E[Z(x)]?E[Z(x?h)]}2 22
區域化變量Z(x)滿足二階平穩假設,因此對于任意的h有:
E[Z(x?h)]?E[Z(x)]
因此,半變異函數可改寫為:
1r?x,h??E[Z(x)?Z(x?h)]2
2由上式可知,半變異函數依賴于自變量x和h,當半變異函數r(x,h)僅僅依賴于距離h而與位置x無關時,r(x,h)可改寫為r(x),即:
1r?h??E[Z(x)?Z(x?h)]2
2具體表示為:
1N(h)2r?h??[Z(xi)?Z(xi?h)] ?2N(h)i?1
各變量的含義同前。也有將r(h)稱為變異函數,兩者使用上不引起本質上的差別。
(3)變異分析 半變異函數和協方差函數把統計相關系數的大小作為一個距離的函數,是地理學相近相似定理定量量化。
圖10.1和圖10.2顯示,半變異值的變化隨著距離的加大而增加,協方差隨著距離的加大
而減小。這主要是由于半變異函數和協方差函數都是事物空間相關系數的表現,當兩事物彼此距離較小時,它們是相似的,因此協方差值較大,而半變異值較小;反之,協方差值較小,而半變異值較大。此外,協方差函數和半變異函數隨著距離的加大基本呈反向變化特征,它們之間的近似關系表達式為:
r(h)?sill?C(h)
半變異函數曲線圖和協方差函數曲線反映了一個采樣點與其相鄰采樣點的空間關系。此外,它們對異常采樣點具有很好的探測作用,在ArcGIS地統計分析模塊中可以使用兩者的任意一個,一般采用半變異函數。在半變異曲線圖中有兩個非常重要的點:間隔為0時的點和半變異函數趨近平穩時的拐點,由這兩個點產生四個相應的參數:塊金值(Nugget)、變程(Range)、基臺值(Sill)、偏基臺值(Partial Sill)它們的含義表示如下:
塊金值(Nugget):理論上,當采樣點間的距離為0時,半變異函數值應為0,但由于存在測量誤差和空間變異,使得兩采樣點非常接近時,它們的半變異函數值不為0,即存在塊金值。測量誤差是儀器內在誤差引起的,空間變異是自然現象在一定空間范圍內的變化。它們任意一方或兩者共同作用產生了塊金值。
基臺值(Sill):當采樣點間的距離h增大時,半變異函數人r(h)從初始的塊金值達到一個相對穩定的常數時,該常數值稱為基臺值。當半變異函數值超過基臺值時,即函數值不隨采樣點間隔距離而改變時,空間相關性不存在。
偏基臺值(Partial Sill):基臺值與塊金值的差值變程(Range):當半變異函數的取值由初始的塊金值達到基臺值時采樣點的間隔距離稱為變程。變程表示了在某種觀測尺度下,空間相關性的作用范圍,其大小受觀測尺度的限定。在變程范圍內,樣點間的距離越小,其相似性,即空間相關性越大。當h>R時,區域化變量Z(x)的空間相關性不存在,即當某點與已知點的距離大于變程時,該點數據不能用于內插或外推。
當限定的樣本點間隔過小時,可能出現曲線圖上曲線為一近似平行于橫坐標的直線,此時半變異函數表現為純塊金效應。這是由于所限定的樣本間隔內,點與點的變化很大,即各個樣點是隨機的,不具備空間相關性,區域內樣點的平均值即是最佳估計值。此時只有增大樣本間隔,才能反映出樣本間的空間相關性。
空間相關性的強弱可由Partial_Sill/Sill來反映,該值越大,空間相關性越強,相應地,Nugget/Sill稱為基底效應,表示樣本間的變異特征,該值越大,表示樣本間的變異更多得是由隨機因素引起的。
2.4 空間估值
一個完整的地統計分析過程,或者說空間估值過程,一般為:首先是獲取原始數據,檢查、分析數據,找尋數據暗含的特點和規律,比如是否為正態分布、有沒有趨勢效應、各向異性等等;然后選擇合適的模型進行表面預測,這其中包括半變異模型的選擇和預測模型的選擇;最后檢驗模型是否合理或幾種模型進行對比。克里格插值
克里格插值(Kriging)又稱空間局部插值法,是以變異函數理論和結構分析為基礎,在有限區域內對區域化變量進行無偏最優估計的一種方法,是地統計學的主要內容之一。南非礦產工程師D.R.Krige(1951年)在尋找金礦時首次運用這種方法,法國著名統計學家G.Matheron隨后將該方法理論化、系統化,并命名為Kriging,即克里格方法。
克里格方法的適用范圍為區域化變量存在空間相關性,即如果變異函數和結構分析的結果表明區域化變量存在空間相關性,則可以利用克里格方法進行內插或外推;否則反之。其實質是利用區域化變量的原始數據和變異函數的結構特點,對未知樣點進行線性無偏、最優估計。無偏是指偏差的數學期望為0,最優是指估計值與實際值之差的平方和最小。也就是說,克里格方法是根據未知樣點有限鄰域內的若干已知樣本點數據,在考慮了樣本點的形狀、大小和空間方位,與未知樣點的相互空間位置關系,以及變異函數提供的結構信息之后,對未知樣點進行的一種線性無偏最優估計。
地統計分析的核心就是通過對采樣數據的分析、對采樣區地理特征的認識選擇合適的空間內插方法創建表面。插值方法按其實現的數學原理可以分為兩類:一是確定性插值方法,另一類是地統計插值,也就是克里格插值,如圖所示。
確定性插值方法以研究區域內部的相似性(如反距離加權插值法)、或者以平滑度為基礎(如徑向基函數插值法)由已知樣點來創建表面。地統計插值方法(例如克里格法)利用的則是已知樣點的統計特性。地統計插值方法不但能夠量化已知點之間的空間自相關性,而且能夠解釋說明采樣點在預測區域范圍內的空間分布情況。
確定性插值方法有可以分為兩種:即全局性插值方法和局部性插值方法,如圖10.4所示。全局性插值方法以整個研究區的樣點數據集為基礎來計算預測值,局部性插值方法則使用一個大研究區域內較小的空間區域內的已知樣點來計算預測值。
克里格方法與反距離權插值方法有些類似,兩者都通過對已知樣本點賦權重來求得未知樣點的值,可統一表示為:
Z(x0)???iZ(xi)i?1n
式中,Z(x0)為未知樣點的值,Z(xi)為未知樣點周圍的已知樣本點的值,λi為第i個已知樣本點對未知樣點的權重,n為已知樣本點的個數。
不同的是,在賦權重時,反距離權插值方法只考慮已知樣本點與未知樣點的距離遠近,而克里格方法不僅考慮距離,而且通過變異函數和結構分析,考慮了已知樣本點的空間分布及與未知樣點的空間方位關系。
空間插值方法根據是否能保證創建的表面經過所有的采樣點,又可以分為精確性插值和非精確性插值。精確性插值法預測值在樣點處的值與實測值相等,非精確性插值法預測值在樣點處的值與實測值一般不會相等。使用非精確性插值法可以避免在輸出表面上出現明顯的波峰或波谷。反距離權插值和徑向基插值屬于精確性插值方法,而全局多項式插值、局部多項式插值,以及克里格插值都屬于非精確性插值方法。
Z?xi? Z?xi?
Z?xi?h? Z?xi?h?
xi