在介紹貝葉斯廣義線性混合模型之前,本節(jié)首先簡(jiǎn)述貝葉斯Logistic回歸模型,國(guó)內(nèi)石曉軍利用貝葉斯方法分析邊界Logistic違約概率模型,其實(shí)證結(jié)果是邊界Logistic模型可以有效解決Cramer問(wèn)題[30];王義峰在其碩士論文中也曾闡述利用貝葉斯推斷技術(shù)改進(jìn)Logistic模型的觀點(diǎn)[31]。在眾多學(xué)者的研究下,貝葉斯Logistic模型已經(jīng)相當(dāng)成熟,其構(gòu)造方法如下:
以二元Logistic信用風(fēng)險(xiǎn)模型為例
其中為企業(yè)的財(cái)務(wù)指標(biāo)向量,為待估系數(shù)向量,通過(guò)貝葉斯估計(jì)得到結(jié)果。對(duì)應(yīng)信用風(fēng)險(xiǎn)的判別結(jié)果。對(duì)于確定的公司,Logistics回歸值趨于,則判定該公司屬于違約企業(yè);相反,趨于,則判定該公司信用風(fēng)險(xiǎn)狀況正常。
貝葉斯推斷步驟主要有三步,第一步是寫(xiě)出模型參數(shù)數(shù)據(jù)的似然函數(shù),第二步是寫(xiě)出模型未知參數(shù)的先驗(yàn)分布的密度函數(shù),第三步是利用貝葉斯定理計(jì)算出模型未知參數(shù)的后驗(yàn)分布的密度函數(shù)。
(1) Logistic模型的似然函數(shù)
對(duì)于服從獨(dú)立同分布的企業(yè),假設(shè)企業(yè)違約屬性的二分類(lèi)服從二項(xiàng)分布,則隨機(jī)變量在貝葉斯統(tǒng)計(jì)中的似然函數(shù)為:
其中表示企業(yè)的違約概率,=0代表違約,否則認(rèn)為正常。
在Logistic模型中,
,所以企業(yè)的似然函數(shù)可以表示為:
,因?yàn)楦髌髽I(yè)之間是相互獨(dú)立的,所以N個(gè)企業(yè)的聯(lián)合似然函數(shù)為:
又每個(gè)企業(yè)又涉及各種評(píng)價(jià)指標(biāo),聯(lián)合似然函數(shù)又可以表示為:
(2) Logistic模型參數(shù)的后驗(yàn)估計(jì)
正如前文所述,待估參數(shù)的先驗(yàn)分布的確定有多種情況,本文將的先驗(yàn)分布的密度函數(shù)記作,其中為超參數(shù)。接下來(lái)根據(jù)貝葉斯定理,本文可以計(jì)算出參數(shù)的后驗(yàn)分布的密度函數(shù):
以先驗(yàn)分布為正態(tài)分布為例,那么參數(shù)的后驗(yàn)估計(jì)的密度函數(shù)為:
在Logistic模型中,本文的待估參數(shù)是模型中的系數(shù),已知待估參數(shù)的后驗(yàn)分布的情況下,本文可以通過(guò)計(jì)算后驗(yàn)分布的期望來(lái)估計(jì)待估參數(shù)。在涉及到多個(gè)待估參數(shù)的情況下,可以通過(guò)求其邊際密度函數(shù)的方式進(jìn)行過(guò)度。該過(guò)程涉及到的積分和求和問(wèn)題可以參考本文第二章的MCMC技術(shù)。
Logistic模型是廣義線性混合模型的一個(gè)特例,在Logistic模型中因變量是二分類(lèi)變量,其分布假設(shè)為二項(xiàng)分布。廣義線性混合模型中,因變量可以是指數(shù)族分布的任意一個(gè)分布,其中指數(shù)分布主要包括正態(tài)分布、二項(xiàng)分布、分布、分布等。廣義線性混合模型的一般形式為
上式為矩陣表達(dá)式,普通表達(dá)式為。其、分別表示隨機(jī)影響和固定影響,、構(gòu)成了模型的系統(tǒng)性風(fēng)險(xiǎn)。可以從超參數(shù)分布中抽樣得到,不被視為未知參數(shù),模型中是真正待估參數(shù)。
圖 廣義線性混合模型的圖示
忽略模型中的隨機(jī)效應(yīng),則廣義線性混合模型就退化為廣義線性模型。當(dāng)模型因變量假設(shè)服從二項(xiàng)分布,且鏈接函數(shù)是函數(shù)時(shí),廣義線性混合模型則表現(xiàn)為模型。除了模型外,常見(jiàn)的運(yùn)用在信用風(fēng)險(xiǎn)度量上的廣義線性混合模型還有模型、自回歸隨機(jī)效應(yīng)模型等。例如,模型就是假設(shè)隨機(jī)影響服從分布、違約概率服從分布的信用風(fēng)險(xiǎn)度量模型。
表1 不同分布對(duì)應(yīng)的鏈接函數(shù)
因變量 分布 鏈接函數(shù) |
正態(tài)分布 Identity : 二項(xiàng)分布 Logit: Probit: 泊松分布 Log: 伽馬分布 Inverse: Log: |
廣義線性混合模型的貝葉斯估計(jì)同樣可以利用方法進(jìn)行估計(jì)。將模型中固定效應(yīng)參數(shù)、隨機(jī)效應(yīng)的殘差的方差與因變量、隨機(jī)效應(yīng)參數(shù)同等看待,一般情況下廣義線性混合模型的似然函數(shù)為:
各參數(shù)的先驗(yàn)分布分別假設(shè)為:
根據(jù)貝葉斯定理進(jìn)行待估參數(shù)的后驗(yàn)分布函數(shù)的計(jì)算非常復(fù)雜,解決此類(lèi)問(wèn)題同樣是通過(guò)方法進(jìn)行解決?,F(xiàn)有的很多軟件包都可以實(shí)現(xiàn)貝葉斯廣義線性混合模型的計(jì)算問(wèn)題。例如,軟件的和語(yǔ)句可以實(shí)現(xiàn)廣義線性模型和廣義線性混合模型的貝葉斯估計(jì),軟件中的、統(tǒng)一可以構(gòu)建貝葉斯廣義線性混合模型,另外,和是專(zhuān)門(mén)用于構(gòu)建貝葉斯模型的軟件包,而且后兩款軟件都是免費(fèi)開(kāi)源的軟件。
根據(jù)在其經(jīng)典論著《Quantile regression》對(duì)分位數(shù)回歸的系統(tǒng)的闡述,本文對(duì)分位數(shù)回歸模型給出如下定義:
對(duì)于任意隨機(jī)變量,其右連續(xù)的分布函數(shù)記為:
,假設(shè)存在,滿(mǎn)足,,則稱(chēng)為隨機(jī)變量的第分位數(shù),例如的中位數(shù)可以表述為。
對(duì)于回歸模型,給定自變量情況下的條件分位數(shù)回歸則可以寫(xiě)作:
,給定一組隨機(jī)樣本,可以通過(guò)求
得到的估計(jì)值,其中是損失函數(shù), ,為示性函數(shù),時(shí),否則。
給定樣本,因變量的二元回歸模型為:
其中是連續(xù)變量,它決定了二元變量的取值;是包含自變量的的向量;是不同分位數(shù)對(duì)應(yīng)的待估系數(shù)的向量;表示隨機(jī)誤差項(xiàng)。給定自變量情況下的分位數(shù)函數(shù)為。Kordas(2006)建議使用概率法來(lái)預(yù)測(cè)二元分位數(shù)回歸,即根據(jù)不同的分位數(shù)以及給定的自變量來(lái)獲取的分布情況,進(jìn)而得出取或的概率,此概率也就是企業(yè)違約與否的概率。
Benoit和Van(2011)給出了二元分位數(shù)回歸模型參數(shù)的后驗(yàn)貝葉斯估計(jì)方法,假設(shè)服從非對(duì)稱(chēng)的Laplace分布,給定樣本和分位數(shù),有待估參數(shù)和的聯(lián)合后驗(yàn)密度函數(shù)
參數(shù)的先驗(yàn)分布的不同決定了二元分位數(shù)回歸模型的不同。目前,根據(jù)的先驗(yàn)分布貝葉斯二元分位數(shù)回歸模型可以分為兩類(lèi),一類(lèi)為帶自適應(yīng)套索變量(with adaptive lasso variable selection),另一類(lèi)為不帶自適應(yīng)套索變量(without adaptive lasso variable selection)。前者模型表示為,
與帶自適應(yīng)套索變量模型不同的是,后者回歸參數(shù)的先驗(yàn)分布為正態(tài)分布,即。目前,后驗(yàn)分布可以通過(guò)MCMC技術(shù)擬合,現(xiàn)有的軟件包可以完成該過(guò)程。
聯(lián)系客服