諸位,本公眾號(hào)已經(jīng)形成包括“樣本量估算方法”、“醫(yī)學(xué)研究進(jìn)展”、“Meta分析簡(jiǎn)明教程”、“統(tǒng)計(jì)視頻”(R、醫(yī)學(xué)統(tǒng)計(jì)學(xué)、妙趣統(tǒng)計(jì)學(xué))、“科研資源合集”、“如何分析真實(shí)世界研究數(shù)據(jù)”等系列,有興趣朋友們可以關(guān)注。
“如何分析真實(shí)世界研究數(shù)據(jù)”系列(9)
一、什么是LINE
二、線性回歸分析的線性條件
三、什么是殘差
先了解回歸分析的兩個(gè)概念: 誤差與殘差
誤差(Errors):觀測(cè)值與真實(shí)值的偏差。
這種真實(shí)值(true value)往往是不可觀測(cè)的,觀測(cè)值只能無(wú)限靠近真實(shí)值,卻無(wú)法等同于真實(shí)值,靠近真實(shí)值的遠(yuǎn)近,即是觀測(cè)誤差的大小。觀測(cè)值靠真實(shí)值近,則稱觀測(cè)誤差小,否則稱觀測(cè)誤差大。
回歸模型可以用一下公式來(lái)表達(dá)誤差:
殘差(Residuals):估計(jì)值與觀測(cè)值的偏差。
這個(gè)觀測(cè)值既可以是通過某種工具測(cè)量得到的,也可以是通過某種統(tǒng)計(jì)學(xué)方法獲得的,而估計(jì)值一般是通過某種數(shù)據(jù)模型方法得到的。這個(gè)估計(jì)值與觀測(cè)值之間的偏差就叫做殘差。
殘差的回歸模型可以用以下公式來(lái)表達(dá):
也就是說,Y預(yù)測(cè)值和真實(shí)值就是殘差
剛才的LINE條件,除了線性條件之外,最準(zhǔn)確的方法是以下的條件:
誤差項(xiàng)ε是一個(gè)期望值為零的隨機(jī)變量,即E(ε)=0。
同x的時(shí)候,ε的方差都相同或者固定。
誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。
ε一般情況下不知道,因此,我們用e殘差來(lái)ε代替進(jìn)行正態(tài)性、方差齊性的分析(值得注意的是,ε的獨(dú)立的,而e本身是相關(guān)的)
四、殘差分析
一般來(lái)說沒有準(zhǔn)確的方法來(lái)判定正態(tài)性、方差齊性和獨(dú)立性,但是可以結(jié)合殘差分析圖來(lái)判定各個(gè)正態(tài)性、方差齊性和獨(dú)立性是否成立。
如何看殘差圖?
通常我們利用Y與X的散點(diǎn)圖來(lái)觀察是否可以使用線性回歸,并使用t和F檢驗(yàn)來(lái)驗(yàn)證其正確性。
但是殘差有著得天獨(dú)厚的優(yōu)勢(shì),因?yàn)楦鱾€(gè)殘差項(xiàng)的平均數(shù)是0,所以可以通過觀測(cè)殘差圖來(lái)修正模型。各種殘差分布如圖1所示。
根據(jù)殘差性質(zhì),一個(gè)好的模型殘差分布應(yīng)是(a)中的分布。
(b)中表明數(shù)據(jù)中可能存在某個(gè)異常值,這時(shí)需要將異常值刪去建立模型,當(dāng)然要標(biāo)明此模型不適合該檢測(cè)值。
而(c)表明,Y的觀測(cè)值的方差并不相同,是隨著X的增加而增加的,所以這就需要對(duì)Y進(jìn)行變換或者其他求解方法來(lái)消除這個(gè)影響。而(d)也是異方差,隨著X增加而增減。
(d)、(e)中表明Y與X之間存在非線性的關(guān)系,需要考慮新的曲線關(guān)系,而不再是線性回歸。當(dāng)然也可能Y存在自相關(guān)。
那誤差項(xiàng)是否服從正態(tài)分布該如何檢驗(yàn)?常用的方法是頻數(shù)分布圖和QQ圖。頻數(shù)分布圖不需再說,這里展示下QQ如圖2所示。
圖2:QQ圖
觀測(cè)QQ圖,只要上面的點(diǎn)基本在一條直線上,就可表明誤差項(xiàng)服從正態(tài)分布。
五、利用SPSS軟件進(jìn)行殘差分析
現(xiàn)在利用SPSS軟件開展殘差分析,探討殘差的獨(dú)立性、正態(tài)性和方差齊性
殘差分析同時(shí)與線性回歸分析進(jìn)行,可見以下的SPSS界面,包括“圖”按鈕、“保存按鈕”
“圖”按鈕
選擇右側(cè)的“圖”按鈕,將DEPENDNT選擇入?yún)^(qū)域2,ZRESID選擇入?yún)^(qū)域1,并在區(qū)域3勾選標(biāo)準(zhǔn)化殘差圖的“直方圖”和“正態(tài)概率圖”。同樣地,要繪制標(biāo)準(zhǔn)化預(yù)測(cè)值的圖形,需要選擇下一個(gè),將“*ZRESID”選入Y軸,將“*ZPRED”選入X軸,見圖。(*ZRESID表示標(biāo)準(zhǔn)化殘值、*ZPRED表示標(biāo)準(zhǔn)化預(yù)測(cè)值。)
“保存”按鈕
點(diǎn)擊確定,上述過程都完成之后,最終得到4個(gè)圖形,即標(biāo)準(zhǔn)化殘差直方圖、標(biāo)準(zhǔn)化殘差正態(tài)P-P圖、關(guān)于因變量的標(biāo)準(zhǔn)化殘差圖、標(biāo)準(zhǔn)化預(yù)測(cè)值圖,可用4個(gè)圖形來(lái)判斷殘差的特征和LINE的條件是否滿足(具體不再這里顯示了)
此外,對(duì)于LINE的獨(dú)立性問題,SPSS軟件還給予另外一種檢驗(yàn)方法,Durbin-Watson
得到如下的結(jié)果:
一般來(lái)說,Durbin-Watson檢驗(yàn)值分布在0-4之間,越接近2,觀測(cè)值相互獨(dú)立的可能性越大。本研究中Durbin-Watson檢驗(yàn)值為0.399,即觀測(cè)值的相互獨(dú)立性條件符合。
聯(lián)系客服