1/6分步閱讀
1.線性回歸方法:通常因變量和一個(或者多個)自變量之間擬合出來是一條直線(回歸線),通??梢杂靡粋€普遍的公式來表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線的斜率,c是誤差項。如下圖所示。
?
2/6
2.邏輯回歸方法:通常是用來計算“一個事件成功或者失敗”的概率,此時的因變量一般是屬于二元型的(1 或0,真或假,有或無等)變量。以樣本極大似然估計值來選取參數(shù),而不采用最小化平方和誤差來選擇參數(shù),所以通常要用log等對數(shù)函數(shù)去擬合。如下圖。
?
3/6
3.多項式回歸方法:通常指自變量的指數(shù)存在超過1的項,這時候最佳擬合的結(jié)果不再是一條直線而是一條曲線。比如:拋物線擬合函數(shù)Y=a+b*X^2,如下圖所示。
?
4/6
4.嶺回歸方法:通常用于自變量數(shù)據(jù)具有高度相關性的擬合中,這種回歸方法可以在原來的偏差基礎上再增加一個偏差度來減小總體的標準偏差。如下圖是其收縮參數(shù)的最小誤差公式。
?
5/6
5.套索回歸方法:通常也是用來二次修正回歸系數(shù)的大小,能夠減小參量變化程度以提高線性回歸模型的精度。如下圖是其懲罰函數(shù),注意這里的懲罰函數(shù)用的是絕對值,而不是絕對值的平方。
?
6/6
6.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來訓練,使用L2優(yōu)先作為正則化矩陣。當相關的特征有很多個時,ElasticNet不同于Lasso,會選擇兩個。如下圖是其常用的理論公式。
?
多元分析方法包括3類:
多元方差分析、多元回歸分析和協(xié)方差分析,稱為線性模型方法,用以研究確定的自變量與因變量之間的2113關系;判別函數(shù)分析和聚類分析,用以研究對事物的分類;主成分分析、典型相關和因素分析,研究如何用較少的5261綜合因素代替為數(shù)較多的原始變量。
多元方差是把總變異按照其來源分為多個部分,從而檢驗各個因素對因變量的影響以及各因素間交互作用的統(tǒng)計方法。
判別函數(shù)是判定個體所屬類別的統(tǒng)計方法。其基本原理是:根據(jù)兩個或多個已知類別的樣本觀測資料確4102定一個或幾個線性判別函數(shù)和判別指標,然后用該判別函數(shù)依據(jù)判別指標來判定另一個個體屬于哪一類。
擴展資料
多元分析方1653法的歷史:
首先涉足多元分析方法是F.高爾頓,他于1889年把雙變量的正態(tài)分布方法運用于傳統(tǒng)的統(tǒng)計學,創(chuàng)立了相關系數(shù)和線性回歸。
其后的幾十年中,斯皮爾曼提出因素分析法,費內(nèi)希爾提出方差分析和判別分析,威爾克斯發(fā)展了多元方差分析,霍特林確定了主成分分析和典型相關。到20世紀前半葉,多元分析理論大多已經(jīng)確立。
60年代以后,隨著計算機科學的發(fā)展,多元分析方法在心理學以及其他許多學科的研究中得到了越來越廣泛的應用。容
參考資料來源:百度百科——多元分析
回歸分析中,當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關系的函數(shù)表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析?;貧w分析法預測是利用回歸分析方法,根據(jù)一個或一組自變量的變動情況預測與其有相關關系的某隨機變量的未來值。進行回歸分析需要建立描述變量間相關關系的回歸方程。根據(jù)自變量的個數(shù),可以是一元回歸,也可以是多元回歸。根據(jù)所研究問題的性質(zhì),可以是線性回歸,也可以是非線性回歸。非線性回歸方程一般可以通過數(shù)學方法為線性回歸方程進行處理。
篩選變量法, 嶺回歸分析法, 主成分回歸法和偏最小二乘回歸法。
關鍵詞: 回歸、SASSTAT、共線性、篩選變量、嶺回歸、主成分回歸、偏最小二乘回歸。中圖分類號: 0212; C8 文獻標識碼: A 回歸分析方法是處理多變量間相依關系的統(tǒng)計方法。
它是數(shù)理統(tǒng)計中應用最為廣泛的方法之一。在長期的大量的實際應用中人們也發(fā)現(xiàn): 建立回歸方程后, 因為自變量存在相關性, 將會增加參數(shù)估計的方差, 使得回歸方程變得不穩(wěn)定; 有些自變量對因變量(指標) 影響的顯著性被隱蔽起來; 某些回歸系數(shù)的符號與實際意義不符合等等不正常的現(xiàn)象。
這些問題的出現(xiàn)原因就在于自變量的共線性。本文通過例子來介紹自變量共線性的診斷方法以及使用SA SSTA T 軟件6. 12 版本中REG 等過程的增強功能處理回歸變量共線性的一些方法。
一、共線性診斷共線性問題是指擬合多元線性回歸時, 自變量之間存在線性關系或近似線性關系。共線性診斷的方法是基于對自變量的觀測數(shù)據(jù)構(gòu)成的矩陣X′X 進行分析, 使用各種反映自變量間相關性的指標。
共線性診斷常用統(tǒng)計量有方差膨脹因子V IF (或容限TOL )、條件指數(shù)和方差比例等。方差膨脹因子V IF 是指回歸系數(shù)的估計量由于自變量共線性使得其方差增加的一個相對度量。
對第i 個回歸系數(shù), 它的方差膨脹因子定義為 V I F i = 第i 個回歸系數(shù)的方差自變量不相關時第i 個回歸系數(shù)的方差 = 1 1 - R 2 i = 1 TOL i 其中R 2 i 是自變量xi 對模型中其余自變量線性回歸模型的R 平方。V IFi 的倒數(shù)TOL i 也稱為容限( To lerance )。
一般建議, 若V IF> 10, 表明模型中有很強的共線性問題。若矩陣X′X 的特征值為d 2 1 ≥d 2 2 ≥…≥d 2 k, 則X 的條件數(shù) d1 dk 就是刻劃它的奇性的一個指標。
故稱 d1 dj (j= 1, …, k) 為條件指數(shù)。一般認為, 若條件指數(shù)值在10 與30 間為弱相關; 在30 與100 間為中等相關; 大于100 表明有強相關。
對于大的條件指數(shù), 還需要找出哪些變量間存在強的線性關系。因為每個條件指數(shù)對應一 9 4 處理多元線性回歸中自變量共線- 性的幾種方法個特征向量, 而大的條件指數(shù)相應的特征值較小, 故構(gòu)成這一特征向量的變量間有近似的線性關系。
在統(tǒng)計中用方差比例來說明各個自變量在構(gòu)成這個特征向量中的貢獻。一般建議, 在大的條件指數(shù)中由方差比例超過0. 5 的自變量構(gòu)成的變量子集就認為是相關變量集。
§3.2 回歸分析方法 回歸分析方法,是研究要素之間具體的數(shù)量關系的一種強有力的工具,能夠建立反映地理要素之間具體的數(shù)量關系的數(shù)學模型,即回歸模型。
1. 一元線性回歸模型 1) 一元線性回歸模型的基本結(jié)構(gòu)形式 假設有兩個地理要素(變量)x和y,x為自變量,y為因變量。則一元線性回歸模型的基本結(jié)構(gòu)形式:a和b為待定參數(shù);α=1,2,…,n為各組觀測數(shù)據(jù)的下標; εa為隨機變量。
如果記a^和b^ 分別為參數(shù)a與b的擬合值,則得到一元線性回歸模型 ? 是y 的估計值,亦稱回歸值?;貧w直線——代表x與y之間相關關系的擬合直線 2) 參數(shù)a、b的最小二?乘估計 參數(shù)a與b的擬合值:, 建立一元線性回歸模型的過程,就是用變量 和 的實際觀測數(shù)據(jù)確定參數(shù)a和b的最小二乘估計值α^和β^ 的過程。
3) 一元線性回歸模型的顯著性檢驗 線性回歸方程的顯著性檢驗是借助于F檢驗來完成的。 檢驗統(tǒng)計量F: 誤差平方和: 回歸平方和: F≈F(1,n-2)。
在顯著水平a下,若 ,則認為回歸方程效果在此水平下顯著;當 時,則認為方程效果不明顯。[舉例說明] 例1:在表3.1.1中,將國內(nèi)生產(chǎn)總值(x1)看作因變量y,將農(nóng)業(yè)總產(chǎn)值(x2)看作自變量x,試建立它們之間的一元線性回歸模型并對其進行顯著性檢驗。
解: (1) 回歸模型 將y和x的樣本數(shù)據(jù)代入?yún)?shù)a與b的擬合公式,計算得:故,國內(nèi)生產(chǎn)總值與農(nóng)業(yè)總產(chǎn)值之間的回歸方程為(2) 顯著性檢驗 在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由于F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著的。
2. 多元線性回歸模型 在多要素的地理系統(tǒng)中,多個(多于兩個)要素之間也存在著相關影響、相互關聯(lián)的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線性回歸模型的建立 (1) 多元線性回歸模型的結(jié)構(gòu)形式 假設某一因變量y受k 個自變量 的影響,其n組觀測值為 。則多元線性回歸模型的結(jié)構(gòu)形式:為待定參數(shù), 為隨機變量。
如果 分別為 的擬合值,則回歸方程為 b0為常數(shù), 稱為偏回歸系數(shù)。 偏回歸系數(shù) ——當其它自變量都固定時,自變量 每變化一個單位而使因變量xi平均改變的數(shù)值。
(2) 求解偏回歸系數(shù), 2) 多元線性回歸模型的顯著性檢驗 用F檢驗法。 F統(tǒng)計量:當統(tǒng)計量F計算出來之后,就可以查F分布表對模型進行顯著性檢驗。
[舉例說明] 例2:某地區(qū)各城市的公共交通營運總額(y)與城市人口總數(shù)(x1 )以及工農(nóng)業(yè)總產(chǎn)值(x2)的年平均統(tǒng)計數(shù)據(jù)如表3.2.1(點擊展開顯示該表)所示。試建立y與x1及x2之間的線性回歸模型并對其進行顯著性檢驗。
表3.2.1 某地區(qū)城市公共交通營運額、人口數(shù)及工農(nóng)業(yè)總產(chǎn)值的年平均數(shù)據(jù) 城市序號 公共交通營運額y/103人公里 人口數(shù)x1/103人 工農(nóng)業(yè)總產(chǎn)值x2/107元 1 6825.99 1298.00 437.26 2 512.00 119.80 1286.48 。 。
。 。
14 192.00 12.47 1072.27 注:本表數(shù)據(jù)詳見書本P54。 解: (1) 計算線性回歸模型 由表3.2.1中的數(shù)據(jù),有 計算可得:故y與x1 及y2之間的線性回歸方程(2) 顯著性檢驗 故:在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。
由于F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著的。3. 非線性回歸模型的建立方法 1) 非線性關系的線性化 (1) 非線性關系模型的線性化 對于要素之間的非線性關系通過變量替換就可以將原來的非線性關系轉(zhuǎn)化為新變量下的線性關系。
[幾種非線性關系模型的線性化] ① 于指數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ,其中, ; ② 對于對數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ; ③ 對于冪函數(shù)曲線 ,令 , ,將其轉(zhuǎn)化為直線形式: ,其中, ④ 對于雙曲線 ,令 ,將其轉(zhuǎn)化為直線形式:; ⑤ 對于S型曲線 ,將其轉(zhuǎn)化為直線形式:; ⑥ 對于冪函數(shù)乘積:令 將其轉(zhuǎn)化為直線形式:其中, ; ⑦ 對于對數(shù)函數(shù)和:令 ,將其化為線性形式:(2) 建立非線性回歸模型的一般方法 ① 通過適當?shù)淖兞刻鎿Q將非線性關系線性化; ② 用線性回歸分析方法建立新變量下的線性回歸模型: ③ 通過新變量之間的線性相關關系反映原來變量之間的非線性相關關系。 3) 非線性回歸模型建立的實例 非線性回歸模型建立的實例 景觀是地理學的重要研究內(nèi)容之一。
有關研究表明(Li,2000;徐建華等,2001),任何一種景觀類型的斑塊,其面積(Area)與周長(Perimeter)之間的數(shù)量關系可以用雙對數(shù)曲線來描述,即 例3:表3.2.2給出了某地區(qū)林地景觀斑塊面積(Area)與周長(Perimeter)的數(shù)據(jù)。試建立林地景觀斑塊面積A與周長P之間的雙對數(shù)相關關系模型。
表3.2.2某地區(qū)各個林地景觀斑塊面積(m2)與周長(m) 序號 面積A 周長P 序號 面積A 周長P 1 10447.370 625.392 42 232844.300 4282.043 2 15974.730 612.286 43 4054.660 289.307 。 。
。 。
。 。
41 1608.625 225.842 82 564370.800 12212.410 注:本表數(shù)據(jù)詳見書本57和58頁。 解:因為林地景觀斑塊面積(A)與周長(P)之間的數(shù)量關系是雙對數(shù)曲線形式,即 所以對表3.2.2中的原始數(shù)據(jù)進行對數(shù)變換,變換后得到的各新變量對應的觀測數(shù)據(jù)如表3.2.3所示。
1、穩(wěn)健回歸其主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標函數(shù)進行修改。
經(jīng)典最小二乘回歸以使誤差平方和達到最小為其目標函數(shù)。因為方差為一不穩(wěn)健統(tǒng)計量,故最小二乘回歸是一種不穩(wěn)健的方法。
為減少異常點的作用,對不同的點施加不同的權(quán)重,殘差小的點權(quán)重大,殘差大的店權(quán)重小。2、變系數(shù)回歸 地理位置加權(quán)3、偏最小二乘回歸長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機的結(jié)合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。偏最小二乘法在統(tǒng)計應用中的重要性體現(xiàn)在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應用。
能夠消除自變量選取時可能存在的多重共線性問題。普通最小二乘回歸方法在自變量間存在嚴重的多重共線性時會失效。
自變量的樣本數(shù)與自變量個數(shù)相比過少時仍可進行預測。4、支持向量回歸 能較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題。
傳統(tǒng)的化學計量學算法處理回歸建模問題在擬合訓練樣本時,要求“殘差平方和”最小,這樣將有限樣本數(shù)據(jù)中的誤差也擬合進了數(shù)學模型,易產(chǎn)生“過擬合”問題,針對傳統(tǒng)方法這一不足之處,SVR采用“ε不敏感函數(shù)”來解決“過擬合”問題,即f(x)用擬合目標值yk時,?。篺(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應的拉格朗日待定系數(shù),K(xi,x)是采用的核函數(shù)[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數(shù)周圍的ε“管壁”上的特征矢量),SVs為支持向量的數(shù)目.目標值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時,即認為進一步擬合是無意義的。5、核回歸 核函數(shù)回歸的最初始想法是用非參數(shù)方法來估計離散觀測情況下的概率密度函數(shù)(pdf)。
為了避免高維空間中的內(nèi)積運算 由Mercer條件,存在映射函數(shù)a和核函數(shù)K(?,?),使得:=K(xi ,x)采用不同的函數(shù)作為SVM的核函數(shù)K (x i,x),可以實現(xiàn)多種從輸入空間到特征空間的非線性映射形式6、嶺回歸 嶺回歸分析是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,實質(zhì)上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,對病態(tài)數(shù)據(jù)的耐受性遠遠強于最小二乘法。7、半?yún)?shù)回歸 模型既含有參數(shù)分量又含有非參數(shù)分量,其參數(shù)部分用來解釋函數(shù)關系已知的部分,它是觀測值中的主要成分,而其非參數(shù)部分則描述函數(shù)關系未知,無法表達為待定參數(shù)的函數(shù)部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內(nèi)生變量)作為解釋變量出現(xiàn)在方程的右端。這種包含了內(nèi)生變量滯后項的模型稱為自回歸模型。
9、正交回歸 因素水平值在區(qū)間[Zj1, Zj2]內(nèi)變化,經(jīng)編碼之后,編碼值xi在區(qū)間[-1,+1]間變化,將響應值y原來對Z1, Z2……Zm的回歸問題,轉(zhuǎn)化為y對x1,x2……xm的回歸問題。它的主要優(yōu)點是可以把實驗或計算的安排、數(shù)據(jù)的處理和回歸方程的精度統(tǒng)一起來加以考慮,根據(jù)實驗目的和數(shù)據(jù)分析來選擇實驗或計算點,不僅使得在每個實驗或計算點上獲得的數(shù)據(jù)含有最大的信息,從而減少實驗或計算次數(shù),而且使數(shù)據(jù)的統(tǒng)計分析具有一些較好的性質(zhì),以較少的實驗或計算建立精度較高的回歸方程。
10、逐步回歸 實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。基本思路為,先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個對y 影響最大的,再對原來子集中的變量進行檢驗,從變得不顯著的變量中剔除一個影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統(tǒng)計學中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。
這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。 首先對X陣進行主成份分析,T陣的維數(shù)可以與X陣相同,如果使用整個T陣參加回歸,這樣得到的結(jié)果與多元線性回歸沒有多大的差別。
因為主成分(新變量)是原變量的線性組合。前面的k個主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關。
因此參與回歸的是少數(shù)主成分組成的矩陣。在維數(shù)上遠小于X。
主成分回歸通過對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線性回歸中的共線性問題。
主成分回歸能夠充分利用數(shù)據(jù)信息,有效地提高模型的抗干擾能力。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.799秒