第一篇:數學建模常用模型方法總結
運籌學模型(優化模型)
數學建模常用模型方法總結
無約束優化 線性規劃 連續優化 非線性規劃 整數規劃 離散優化 組合優化 多目標規劃 目標規劃 動態規劃 從其他角度分類 網絡規劃 多層規劃等… 數學規劃模型
圖論模型存儲論模型排隊論模型博弈論模型
可靠性理論模型等…
運籌學應用重點: ①市場銷售 ②生產計劃 ③庫存管理 ④運輸問題 ⑤財政和會計 ⑥人事管理 ⑦設備維修、更新和可靠度、項目選擇和評價 ⑧工程的最佳化設計 ⑨計算器和訊息系統 ⑩城市管理
優化模型四要素:①目標函數 ②決策變量 ③約束條件
④求解方法(MATLAB--通用軟件 LINGO--專業軟件)
聚類分析、主成分分析因子分析
多元分析模型 判別分析
典型相關性分析 對應分析 多維標度法
概率論與數理統計模型
假設檢驗模型 相關分析 回歸分析 方差分析
貝葉斯統計模型 時間序列分析模型 決策樹 邏輯回歸
微分方程模型
傳染病模型 馬爾薩斯人口預測模型
人口預測控制模型
經濟增長模型 Logistic 人口預測模型 戰爭模型等等。
灰色預測模型 回歸分析預測模型
預測分析模型 差分方程模型
馬爾可夫預測模型 時間序列模型 插值擬合模型 神經網絡模型
系統動力學模型(SD)
綜合評價與決策方法 灰色關聯度
主成分分析
秩和比綜合評價法理想解讀法等
旅行商(TSP)問題模型背包問題模型車輛路徑問題模型
物流中心選址問題模型經典 NP 問題模型 路徑規劃問題模型
著色圖問題模型多目標優化問題模型
車間生產調度問題模型最優樹問題模型二次分配問題模型
模擬退火算法(SA)
遺傳算法(GA)智能算法
蟻群算法(ACA)
(啟發式)常用算法模型 神經網絡算法
蒙特卡羅算法元胞自動機算法窮
模糊綜合評判法模型數據包絡分析
舉搜索算法小波分析算法
確定性數學模型
三類數學模型 隨機性數學模型
模糊性數學模型
第二篇:數學建模_傳染病模型
傳染病模
摘要: 本次實驗是讓同學們進一步了解、鞏固、加強微分方程模型的建模、求解能力;學習掌握用MATLAB進行二維和三維基本圖形繪制。因為MATLAB具有很強的圖形處理功能和豐富的圖形表現方法。它提供了大量的二維、三維圖形函數,使得數學計算結果可以方便地、多樣性地實現可視化,這是其它語言所不能比擬的。MATLAB不僅能繪制幾乎所有的標準圖形,而且其表現形式也是豐富多樣的。MATLAB不僅具有高層繪圖能力,而且還具有底層繪圖能力——句柄繪圖方法。在面向對象的圖形設計基礎上,使得用戶可以用來開發各專業的專用圖形。help graph2d可得到所有畫二維、三維圖形的命令。
描述傳染病的傳播過程,分析受感染人數的變化規律,預報傳染病高潮到來的時刻,預防傳染病蔓延的手段,按照傳播過程的一般規律,用機理分析方法建立模型。
數學建模
問題重述
問題: 有一種傳染病(如SARS、甲型H1N1)正在流行。現在希望建立適當的數學模型,利用已經掌握的一些數據資料對該傳染病進行有效地研究,以期對其傳播蔓延進行必要的控制,減少人民生命財產的損失。考慮如下的幾個問題,建立適當的數學模型,并進行一定的比較分析和評價展望。
1、不考慮環境的限制,設單位時間內感染人數的增長率是常數,建立模型求t時刻的感染人數。
2、假設環境條件下所允許的最大可感染人數為。單位時間內感染人數的增長率是感染人數的線性函數,最大感染時的增長率為零。建立模型求t時刻的感染人數。
3、現有衛生防疫部門采集到的某地區一定時間內一定間隔區間的感染人數數據(見下表),利用該數據確定上述兩個模型中的相關參數,并將它們的預測值與實際數據進行比較分析(計算仿真偏差)并對兩個模型進行適當的評價。(注:該問題中,設最大可感染人數為2000人)
4、假設總人口可分為傳染病患者和易感染者,易感染者因與患病者接觸而得病,而患病者會因治愈而減少且對該傳染病具有很強的免疫功能,建立模型分析t時刻患病者與易感染者的關系,并對傳染情況(如流行趨勢,是否最終消滅)進行預測。
問題分析
1、這是一個涉及傳染病傳播情況的實際問題,其中涉及傳染病感染人數隨時間的變化情況及一些初始資料,可通過建立相應的微分方程模型加以解決。
2、問題表述中已給出了各子問題的一些相應的假設。
3、在實際中,感染人數是離散變量,不具有連續可微性,不利于建立微分方程模型。但由于短時間內改變的是少數人口,這種變化與整體人口相比是微小的。因此,為了利用數學工具建立微分方程模型,我們還需要一個基本假設:感染人數是時間的連續可微函數。
關鍵字: 社會、經濟、文化、風俗習慣等因素
:傳染病模型
模型1 在這個最簡單的模型中,設時刻t的病人人數x(t)是連續、可微函數,并且每天每個病人有效的人數為常數增加,就有x(t??t)?x(t)??x(t)?t
再設t?0時有x0有個病人,即得微分方dxdt??x,x(0)?x0(1)接觸(足使人致病)?考察t到t??t病人人數的
程
方程(1)的解為
x(t)?x0e?t(2)
結果表明,隨著t的增加,病人人數x(t)無限增長,這顯然是不符合實際的。
建模失敗的原因在于:在病人有效接觸的人群中,有健康人也有病人,而其中只有健康人才可以被傳染為病人,所以在改進的模型中必須區別這兩種人。
模型2 SI模型
假設條件為
1.在疾病傳播期內所考察地區的總人數N不變,即不考慮生死,也不考慮遷移。人群分為易感染者(Susceptible)和已感染者(Infective)兩類(取兩個詞的第一個字母,稱之為SI模型),以下簡稱健康者和病人。時刻t這兩類人在總人數中所占比例分別記作s(t)和i(t)。
2.每個病人每天有效接觸的平均人數是常數,稱為日接觸率。當病人與健康者接觸時,使健康者受感染變為病人。
根據假設,每個病人每變為病人,因為病人數天可使?s(t)個健康者為Ni(t),所以每天共有?Ns(t)i(t)個健康者被感染,于是病人數Ni的增加率,即有Ndidt??Nsi(3)?Nsi就是
s(t)?i(t)?1i0,則didt??i(1?i),i(0)?i0(5)
(4)再記初始時刻(t?0)病人的比例為方程(5)是Logistic模型。它的解為
1?1???t?e1???1?i??0?(6)i(t)~t和didt~i的圖形如圖1和圖2所示。
數學建模
由(5),(6)式及圖1可知,第一,當?di?達最大值??,這個時刻為?dt?mi?1/2時didt到
?1??tm??ln??1???i0??1(7)
這時病人增加的最快,可以認為是醫院的門診量最大的一天,預示著傳染病高潮的到來,是醫療衛生部門關注的時刻
tm與?成反比,因為日接觸率保健設施、提高衛生水潮的到來。第二,當人終將被傳染,全變為實際情況。殊莫a?表示該地區的以改善衛生水平,?越小衛生水平越高。所平可以推遲傳染病高t??時i?1,即所有病人,這顯然不符合
其原因是模型中沒有考慮到病人可以治愈,人群中的健康者只能變成病人,病人不會再變成健康者。
模型3 SIR模型
大多數傳染病如天花、流感、肝炎、麻疹等治愈后均有很強的免疫力,所以病愈的人即非健康者(易感染者),也非病人(已感染者),他們已經退出傳染系統。這種情況比較復雜,下面將詳細分析建模過程。
模型假設
1.總人數N不變。人群分為健康者、病人和病愈免疫的移出者(Removed)三類,稱SIR模型。三類人在總數N中占的比例分別記作s(t),i(t)和r(t)。病人的日接觸率為?,日治愈率為?(與SI模型相同),傳染期接觸為 ?=?/?。
模型構成
:傳染病模型
由假設1顯然有
s(t)+i(t)+r(t)=1(12)根據條件2方程(8)仍然成立。對于病愈免疫的移出者而言有
Ndrdt??Ni(13)
再記初始時刻的健康者和病人的比例分別是s0(s0?0)和i0(i0?0)(不妨設移出者的初始值r0?0),則由(8),(12),(13)式,SIR模型的方程可以寫作?di??si??i,??dt??ds???si,??dti(0)?i0(14)
s(0)?s0
方程(14)無法求出s(t)和i(t)的解析解,我們先作數值計算。
模型 4 SIR模型
SIR模型是指易感染者被傳染后變為感染住,感病者可以被治愈,并會產生免疫力,變為移除者。人員流動圖為:S-I-R。
大多數傳染者如天花 流感 肝炎 麻疹等治愈后均有很強的免疫力,所以冰域的人即非易感者,也非感病者,因此他們將被移除傳染系統,我們稱之為移除者,記為R類
假設: 總人數為常數,且i(t)+s(t)+r(t)=n; 單位時間內一個病人能傳染的人數與當時健康者人數成正比,比例系數為k(傳染強度)。單位時間內病愈免疫的人數與但是的病人人數成正比,比例系數l。稱為恢復系數。
可得方程:
?di?ksi?li,??dt
??ds??ksi,??dti(0)?i0?0s(0)?s0?0初值r(0)?r0?0
模型分析:
由以上方程組的:dids=p/s-1 p=l/k, 所以i=pln
s0-s+n.容易看出當
t無限大時
i(t)=0;而當s0?p時,i(t)單調下將趨于零;上批示,i(t)先單調上升的最高峰,然后再單調下降趨于零。所以這里仍然出現了門檻現象:p是一個門檻。從p的意義可知,應該降低傳染率,提高回復率,即提高衛生醫療水平。
令t→∞可得: s0―s?=2*s0(s0―p)/p 所以:δ??p s0=p+δ,當時,s≈2δ,這也就解釋了本文開頭的問題,即統一地區
數學建模
一種傳染病每次流行時,被傳染的人數大致不變。
模型的應用與推廣:
根據傳染病的模型建立研究進而推廣產生了傳染病動力學模型。傳染病動力學[1]是對進行理論性定量研究的一種重要方法,是根據種群生長的特性,疾病的發生及在種群內的傳播,發展規律,以及與之有關的社會等因素,建立能反映傳染病動力學特性的數學模型,通過對模型動力學性態的定性,定量分析和數值模擬,來分析疾病的發展過程,揭示流行規律,預測變化趨勢,分析疾病流行的原因和關鍵。對于2003年發生的SARS疫情,國內外學者建立了大量的動力學模型研究其傳播規律和趨勢,研究各種隔離預防措施的強度對控制流行的作用,為決策部門提供參考.有關SARS傳播動力學研究多數采用的是SIR或SEIR模型.評價措施效果或擬合實際流行數據時,往往通過改變接觸率和感染效率兩個參數的值來實現.石耀霖[2]建了SARS傳播的系統動力學模型,以越南的數據為參考,進行了Monte Carlo實驗,初步結果表明,感染率及其隨時間的變化是影響SARS傳播的最重要因素.蔡全才[3]建立了可定量評價SARS干預措施效果的傳播動力學模型,并對北京的數據進行了較好的擬合.參考文獻:
[1]姜啟源 編輔導 課程
(九)主講教師 : 鄧 磊
[2]西北工業大學(數學建模)精品課程
[3]耀霖.SARS傳染擴散的動力學隨機模型[J].科學通報,2003,48(13)1373-1377
第三篇:數學建模 模型優缺點評價
模型評價:
模型優點:
建立的模型方法簡單易行,且易中應用于現實生活。模型缺點:
考慮的影響因素較少,在處理問題時可能存在一些誤差。僅使用一個月的數據具有一定的局限性,另外對外傷患者都按急癥處理,考慮的情況比較簡單。
模型評價:
優點:
1)模型具有堅實可靠的數學基礎。很多數學理論已經證明這是設計中繼站分布的最好的方法; 模型易于實現;
模型使中繼站發揮最大的效能。2)3)不足:
1)我們的模型只適用于人口均勻分布的情形;
2)我們僅考慮中繼站信號的服務范圍能夠根據我們的需要進行調整的情形。
.模型評價
模型一能比較準確的計算大區域環境下的中繼站最少數量,且模型思想簡單,通俗易懂,形式簡潔能被大多數人所理解。
模型在中繼站覆蓋半徑大于區域半徑的0.2倍時出現與模擬值差6誤差是其最不如人意的,也是其最大的缺點。其出現的原因是當初步判斷正六邊形的圈數n時,當第n層形成的正六邊形的頂點完全包含在圓形區域內的情況下所造成的。可以,在其中增加一條選擇約束
2n?1r222(3r)?()?R 22
當其成立時在計算結果上加6,就可以解決差6誤差。
模型二根據日常實際在通信當中的隨機性,以及在圓的直徑在各同心圓交點的密度與其半徑成反比的事實。假設中繼站的密度也與其到中心的距離成反比。又由需要建立的網絡層數N和中繼站的覆蓋正六邊形的面積A,該密度為N/A。在人口分不未知的情況下采取這種近似。其中的隨意性比較大,且沒有數學依據是該模型的致命缺點。
第四篇:數學建模各種分析方法
現代統計學
1.因子分析(Factor Analysis)
因子分析的基本目的就是用少數幾個因子去描述許多指標或因素之間的聯系,即將相關比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子(之所以稱其為因子,是因為它是不可觀測的,即不是具體的變量),以較少的幾個因子反映原資料的大部分信息。
運用這種研究技術,我們可以方便地找出影響消費者購買、消費以及滿意度的主要因素是哪些,以及它們的影響力(權重)運用這種研究技術,我們還可以為市場細分做前期分析。
2.主成分分析
主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變量很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變量簡化。(reduce dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
主成分分析和因子分析的區別
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變量的線性組合。
2、主成分分析的重點在于解釋個變量的總方差,而因子分析則把重點放在解釋各變量之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特征值大于1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變量就有幾個主成分。
和主成分分析相比,由于因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,并對這些因子進行解釋的時候,更加傾向于使用因子分析,并且借助旋轉技術幫助更好解釋。而如果想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。
總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變量很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變量簡化。(reduce dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
在算法上,主成分分析和因子分析很類似,不過,在因子分析中所采用的協方差矩陣的對角元素不在是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。
3.聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,并且可以描述出各細分市場的人群特征,以便于客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
4.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。
根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;采用不同的判別準則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。
貝葉斯(BAYES)判別思想是根據先驗概率求出后驗概率,并依據后驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂后驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正后的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關于各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬于距離值最小的那個母體。5.對應分析(Correspondence Analysis)
對應分析是一種用來研究變量與變量之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用于檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出后或市場推廣活動后消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
6.典型相關分析
典型相關分析是分析兩組隨機變量間線性密切程度的統計方法,是兩變量間線性相關分析的拓廣。各組隨機變量中既可有定量隨機變量,也可有定性隨機變
量(分析時須F6說明為定性變量)。本法還可以用于分析高維列聯表各邊際變量的線性關系。注意:
1.嚴格地說,一個典型相關系數描述的只是一對典型變量之間的相關,而不是兩個變量組之間的相關。而各對典型變量之間構成的多維典型相關才共同揭示了兩個觀測變量組之間的相關形式。
2.典型相關模型的基本假設和數據要求
要求兩組變量之間為線性關系,即每對典型變量之間為線性關系;
每個典型變量與本組所有觀測變量的關系也是線性關系。如果不是線性關系,可先線性化:如經濟水平和收入水平與其他一些社會發展水之間并不是線性關系,可先取對數。即log經濟水平,log收入水平。3.典型相關模型的基本假設和數據要求
所有觀測變量為定量數據。同時也可將定性數據按照一定形式設為虛擬變量后,再放入典型相關模型中進行分析。
7.多維尺度分析(Multi-dimension Analysis)
多維尺度分析(Multi-dimension Analysis)是市場研究的一種有力手段,它可以通過低維空間(通常是二維空間)展示多個研究對象(比如品牌)之間的聯系,利用平面距離來反映研究對象之間的相似程度。由于多維尺度分析法通常是基于研究對象之間的相似性(距離)的,只要獲得了兩個研究對象之間的距離矩陣,我們就可以通過相應統計軟件做出他們的相似性知覺圖。
在實際應用中,距離矩陣的獲得主要有兩種方法:一種是采用直接的相似性評價,先所有評價對象進行兩兩組合,然后要求被訪者所有的這些組合間進行直接相似性評價,這種方法我們稱之為直接評價法;另一種為間接評價法,由研究人員根據事先經驗,找出影響人們評價研究對象相似性的主要屬性,然后對每個研究對象,讓被訪者對這些屬性進行逐一評價,最后將所有屬性作為多維空間的坐標,通過距離變換計算對象之間的距離。
多維尺度分析的主要思路是利用對被訪者對研究對象的分組,來反映被訪者對研究對象相似性的感知,這種方法具有一定直觀合理性。同時該方法實施方便,調查中被訪者負擔較小,很容易得到理解接受。當然,該方法的不足之處是犧牲了個體距離矩陣,由于每個被訪者個體的距離矩陣只包含1與0兩種取值,相對較為粗糙,個體距離矩陣的分析顯得比較勉強。但這一點是完全可以接受的,因為對大多數研究而言,我們并不需要知道每一個體的空間知覺圖。
多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變量的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅對所研究的專業領域要有很好的訓練,而且要掌握必要的統計分析工具。對實際領域中的研究者和高等院校的研究生來說,要學習掌握多元統計分析的各種模型和方法,手頭有一本好的、有長久價值的參考書是非常必要的。這樣一本書應該滿足以下條件:首先,它應該是“淺入深出”的,也就是說,既可供初學者入門,又能使有較深基礎的人受益。其次,它應該是既側重于應用,又兼顧必要的推理論證,使學習者既能學到“如何”做,而且在一定程度上了解“為什么”這樣做。
最后,它應該是內涵豐富、全面的,不僅要基本包括各種在實際中常用的多元統計分析方法,而且還要對現代統計學的最新思想和進展有所介紹、交代。因子分析
主成分分析通過線性組合將原變量綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變量)。在多變量分析中,某些變量間往往存在相關性。是什么原因使變量間有關聯呢?是否存在不能直接觀測到的、但影響可觀測變量變化的公共因子?因子分析(Factor Analysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎上構筑若干意義較為明確的公因子,以它們為框架分解原變量,以此考察原變量間的聯系與區別。
例如,隨著年齡的增長,兒童的身高、體重會隨著變化,具有一定的相關性,身高和體重之間為何會有相關性呢?因為存在著一個同時支配或影響著身高與體重的生長因子。那么,我們能否通過對多個變量的相關系數矩陣的研究,找出同時影響或支配所有變量的共性因子呢?因子分析就是從大量的數據中“由表及里”、“去粗取精”,尋找影響或支配變量的多變量統計方法。
可以說,因子分析是主成分分析的推廣,也是一種把多個變量化為少數幾個綜合變量的多變量分析方法,其目的是用有限個不可觀測的隱變量來解釋原始變量之間的相關關系。
因子分析主要用于:
1、減少分析變量個數;
2、通過對變量間相關關系探測,將原始變量進行分類。即將相關性高的變量分為一組,用共性因子代替該組變量。
1.因子分析模型
因子分析法是從研究變量內部相關的依賴關系出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變量統計分析方法。它的基本思想是將觀測變量進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變量之間的相關性則較低,那么每一類變量實際上就代表了一個基本結構,即公共因子。對于所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
因子分析模型描述如下:
(1)X =(x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變量標準化即可實現)。
(2)F =(F1,F2,…,Fm)¢(m
(3)e =(e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
稱為因子分析模型,由于該模型是針對變量進行的,各因子又是正交的,所以也稱為R型正交因子模型。
其矩陣形式為:
x =AF + e.其中:
x=,A=,F=,e=
這里,(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相關的;
(3)D(F)= Im,即F1,F2,…,Fm不相關且方差均為1;
D(e)=,即e1,e2,…,ep不相關,且方差不同。
我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。
A =(aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變量與第j因子的相關系數,反映了第i變量在第j因子上的重要性。
2.模型的統計意義
模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變量的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變量。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有
公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變量在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對于xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變量共同度和公共因子的方差貢獻。
因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變量xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變量xi的影響。hi2大表明x的第i個分量xi對于F的每一分量F1,F2,…,Fm的共同依賴程度大。
將因子載荷矩陣A的第j列(j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對于x的每一分量xi(i=1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2(j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。
3.因子旋轉
建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解后,各個主因子的典型代表變量不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。
旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。
4.因子得分
因子分析模型建立后,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立后,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變量的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。
設公共因子F由變量x表示的線性組合為:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp
j=1,2,…,m
該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變量代入上式即可算出每個樣品的因子得分F1和F2,并將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。
但因子得分函數中方程的個數m小于變量的個數p,所以并不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。
(1)回歸估計法
F = X b = X(X ¢X)-1A¢ = XR-1A¢
(這里R為相關陣,且R = X ¢X)。
(2)Bartlett估計法
Bartlett估計因子得分可由最小二乘法或極大似然法導出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X =(A¢W-1A)-1A¢W-1X
(3)Thomson估計法
在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作,此時R = X ¢X+W,于是有:
F = XR-1A¢ = X(X ¢X+W)-1A¢
這就是Thomson估計的因子得分,使用矩陣求逆算法(參考線性代數文獻)可以將其轉換為:
F = XR-1A¢ = X(I+A¢W-1A)-1W-1A¢
5.因子分析的步驟
因子分析的核心問題有兩個:一是如何構造因子變量;二是如何對因子變量進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
(1)確認待分析的原變量是否適合作因子分析。
(2)構造因子變量。
(3)利用旋轉方法使因子變量更具有可解釋性。
(4)計算因子變量得分。
(ii)因子分析的計算過程:
(1)將原始數據標準化,以消除變量間在數量級和量綱上的不同。
(2)求標準化數據的相關矩陣;
(3)求相關矩陣的特征值和特征向量;
(4)計算方差貢獻率與累積方差貢獻率;
(5)確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低于80%時,可取前m個因子來反映原評價指標;
(6)因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
(7)用原指標的線性組合來求各因子得分:
采用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
(8)綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。
F =(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)
此處wi為旋轉前或旋轉后因子的方差貢獻率。
(9)得分排序:利用綜合得分可以得到得分名次。
在采用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:
· 簡化系統結構,探討系統內核。可采用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變量最佳的子集合,從子集合所包含的信息描述多變量的系統結果及各個因子對系統的影響。“從樹木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變量系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用于預報控制的模型有兩大類。一類是預測預報模型,通常采用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常采用聚類分析的建模技術。
· 進行數值分類,構造分類模式。在多變量系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特征。進行數值分類,構造分類模式一般采用聚類分析和判別分析技術。
如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然后應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變量之間的相關性,選擇最佳的變量子集合;在此基礎上構造預報模型,最后對模型進行診斷和優化處理,并應用于生產實際。
第五篇:數學建模:模型的評價和推廣
模型的評價和推廣
7.1 模型的評價 7.1.1模型的優點:
(1)在數據處理方面,我們詳細分析了視頻數據,引用了標準車當量數(PCU),引用了通流量,規范了數據的格式和可用性,為下一步解題提供了簡潔的數據資料。(2)在視頻數據統計方面,我們實行分階段定點查數,在每隔30秒的時間內取值,符合上游路口信號配時,并滿足了第一相位、第二相位的地理性。
(3)模型在圖像處理和顯示上,我們采用SPSS和MATLAB雙重作圖,擬合數據的變化趨勢及正態Q-Q圖,使問題結果更加清晰、條理和直觀。
(4)從數據中篩選出發生堵車時的合理數據,融合排隊論模型的核心思想,給出科學直觀的顯示結果。
(5)在模型建立上,提取了排隊論模型和交通波模型的理論架構,同時簡化了無用的模型公式,盡量貼近數學建模“用最簡單的方法解決最難問題“的思想。7.1.2 模型的缺點
(1)在視頻數據采樣上,采用的是人工讀取,雖然大大提高了靈活性,但也容易使數據出現人為的偏差和不精確;視頻中從小區從進入到道路上的車輛并沒有進行確切的統計。
(2)在問題一中,只采用了一種分析方法,結果比較單一,沒有系統和全面地分析橫斷面通行能力的變化過程。
(3)問題三的所建立的關系模型中沒有明確體現橫斷面實際通行能力,這也就使我們的關系模型不能準確地反應變量之間的關系。
(4)在統計完全堵車時的汽車數量時沒有明確的標準規定,只是單純地用主觀認識確定完全交通擁堵。7.2 模型的推廣
依據題目中提供的視頻數據和附錄,建立了車禍橫截面通行能力的通行量模型,并利用排隊法的相關知識,確定了車輛排隊長度、事故排隊時間、路段上游車流量的函數關系,對城市中交通事故的處理方面有一定的參考價值。
模型中分析問題、解決問題的一些獨到方法,排隊法數據取樣的總體思想,對其他數學問題及一般模型仍可使用。
另外,針對路邊停車、占道施工等因素導致車道或道路橫斷面通行能力在單位時間內降低的現象,我們的方法對于交通管理部門可以作為分析解決問題的一種參考。