天天躁夜夜躁狠狠躁2021西西,午夜精品一区二区

※說(shuō)人話的統(tǒng)計(jì)學(xué)※

筆者按：此前我們一起學(xué)習(xí)了很多統(tǒng)計(jì)學(xué)方法，包括 t 檢驗(yàn)，ANOVA，線性回歸，這些方法都在實(shí)際的數(shù)據(jù)分析中應(yīng)用得非常廣泛。那是不是掌握了這些統(tǒng)計(jì)方法就能從容應(yīng)對(duì)所有的數(shù)據(jù)問(wèn)題呢？告訴你一個(gè)不幸的消息：當(dāng)因變量不是連續(xù)變量的時(shí)候，前面這些方法都不適用。

統(tǒng)計(jì)方法的最終目的，是幫助我們定量地理解一組因素（自變量）如何影響我們關(guān)心的現(xiàn)象（因變量）。與自變量 x 類似，因變量 y 不僅可以是連續(xù)的數(shù)值，也可以是代表類別的離散值。在研究體重和健康的關(guān)系時(shí)，我們?nèi)绻麑⒀獕焊叩妥鳛橐蜃兞?，那?y 就是連續(xù)的，而如果我們將是否得心臟病作為因變量，那么 y 就是分類變量（categorical variable）。

咱們之前學(xué)習(xí)的 t 檢驗(yàn)，ANOVA，線性回歸等方法，解決的問(wèn)題都有一個(gè)共同點(diǎn)：因變量 y 是連續(xù)的。這些方法的不同之處主要在于自變量 x 的特點(diǎn)，t 檢驗(yàn)中自變量只能取兩個(gè)類別，比如科研中常用的對(duì)照組和實(shí)驗(yàn)組的比較就常常用到 t 檢驗(yàn)。ANOVA 中自變量（也稱為因素）就更靈活了，不僅可以包括多個(gè)自變量，每個(gè)自變量還可以有多個(gè)組別。到了線性回歸模型，對(duì)于自變量就更加沒(méi)有限制了，不管是連續(xù)的還是類別變量通通都可以丟進(jìn)去，保準(zhǔn)兒給你吐出個(gè)模型。

雖然線性回歸模型在自變量的種類上面已經(jīng)沒(méi)有限制了，因變量只能是連續(xù)的數(shù)值卻是一個(gè)很大的制約因素（后面會(huì)詳細(xì)說(shuō)）。這個(gè)制約有多大呢？實(shí)話說(shuō)，很大——大到需要統(tǒng)計(jì)學(xué)家們?cè)侔l(fā)明許多其它模型，專門(mén)來(lái)解決這個(gè)問(wèn)題，因?yàn)樵趯?shí)際應(yīng)用中，因變量是分類變量的情形太普遍了。

分類變量中最簡(jiǎn)單、也最常用的情形是二元變量（binary variable）。二元變量的預(yù)測(cè)在我們?nèi)粘Ｉ钪斜缺冉允?。很多人都有出門(mén)前查看一下天氣預(yù)報(bào)的習(xí)慣，看看今天會(huì)不會(huì)下雨，這里下雨就是二元變量，因?yàn)橹挥邢潞筒幌聝煞N情況。在健康領(lǐng)域，疾病的診斷需要綜合各種測(cè)試的結(jié)果，給出病人是否患某疾病的結(jié)論。在商業(yè)領(lǐng)域，咱們?cè)诰W(wǎng)上網(wǎng)購(gòu)的時(shí)候，電商平臺(tái)為了讓我們多剁手，需要利用各種信息（如性別、年齡、地域、過(guò)往購(gòu)物歷史等）預(yù)測(cè)用戶是否會(huì)點(diǎn)擊某個(gè)商品鏈接。

既然二元變量作為因變量的情況如此普遍，而我們學(xué)過(guò)的招術(shù)又都不奏效，那么有什么統(tǒng)計(jì)模型可以幫助我們預(yù)測(cè)類別變量呢？那就是大名鼎鼎的邏輯回歸模型（logistic regression）了。

邏輯回歸模型模型的目的是預(yù)測(cè)概率

別看邏輯回歸模型的名字有「邏輯」二字，其實(shí)這只是音譯，跟邏輯并沒(méi)有神馬太大的關(guān)系。邏輯回歸模型的輸入是各種自變量的值，輸出是因變量取某個(gè)特定值的概率?？吹竭@里，你可能要抗議了，不是說(shuō)好的要預(yù)測(cè)二元變量嗎？怎么掛羊頭賣狗肉，變成預(yù)測(cè)概率了呢？

大家讀過(guò)我們對(duì)于線性回歸模型的討論，都會(huì)知道，由于數(shù)據(jù)的產(chǎn)生有隨機(jī)性，我們無(wú)法完全精確地預(yù)測(cè)因變量的取值。在已知父母身高以及孩子性別的情況下，孩子的身高并不是一個(gè)固定的值，因此在線性回歸模型里面，我們強(qiáng)調(diào)過(guò)，模型預(yù)測(cè)的是在給定自變量取值情況下，因變量 y 的平均值（可回顧《如果只能學(xué)習(xí)一種統(tǒng)計(jì)方法，我選擇線性回歸》）。類似的，在預(yù)測(cè)二元變量的時(shí)候，我們預(yù)測(cè)的也是因變量取值的平均值。我們馬上就會(huì)發(fā)現(xiàn)，預(yù)測(cè)二元變量的平均值和取某個(gè)特定值的概率是等價(jià)的。

為了實(shí)際應(yīng)用的方便，我們可以用 y 取值 0 和 1 來(lái)代表二元變量對(duì)應(yīng)的兩種情況。這時(shí)預(yù)測(cè)二元變量的取值就變成預(yù)測(cè) y 是等于 0 還是 1。如果把拋硬幣時(shí)哪面朝上作為一個(gè)二元變量 y，我們可以用1代表正面，0 代表反面（當(dāng)然反過(guò)來(lái)也是完全可以的）。

假設(shè)我們?nèi)恿?10 次硬幣，8 次正面朝上，那么 y 的平均值是 (8×1 ＋ 0×2) / 10 = 0.8，這正是 y = 1（正面朝上）的概率。也就是說(shuō)，取值 0 或 1 的二元變量y的平均值與 y = 1 的概率是一回事。因此，邏輯回歸模型預(yù)測(cè)二元變量y（用 0 或 1 表示）的平均值，也就是預(yù)測(cè) y 取值為 1 的概率。

為什么線性回歸模型不適合預(yù)測(cè)二元變量？

既然是預(yù)測(cè) y 的平均值，能不能照搬之前學(xué)過(guò)的線性回歸模型呢？如果非要生搬硬套，使用線性模型預(yù)測(cè)二元變量，在某些情況下，得到的結(jié)果可能與用邏輯回歸模型也差不太遠(yuǎn)。但是，使用邏輯回歸模型幾乎總是會(huì)得到更合理的結(jié)果。

假如把分析數(shù)據(jù)比做烹飪，選擇模型就像是選擇廚具。線性模型有點(diǎn)像電飯鍋，只要開(kāi)伙做飯就都會(huì)用到，邏輯回歸模型像炒鍋，使用頻率也很高。如果是炒菜，我們都會(huì)用炒鍋。在電飯鍋里面烹小炒，雖然菜扔進(jìn)去也能煮熟，指不定還能將就著吃，但是有炒鍋的時(shí)候，咱們干嘛不用呢？

下面我們來(lái)細(xì)數(shù)為什么線性回歸模型并不適合預(yù)測(cè)因變量是二元變量的情況。

首先，大家應(yīng)該還記得，線性回歸模型的其中一條理論假設(shè)，是模型預(yù)測(cè)值與真實(shí)之間的誤差滿足正態(tài)分布。這一條在 y 是二元變量的情況下很難得到滿足。比方說(shuō)，在自變量取某組數(shù)值的情況下，線性回歸模型給出的預(yù)測(cè)值 y 是 0.6。由于因變量 y 是個(gè)二元變量，所以實(shí)際數(shù)據(jù)的 y 只能取 0 和 1。這樣一來(lái)，預(yù)測(cè)值和真實(shí)值之間的誤差要么是－0.6，要么是 0.4，因此誤差的分布只會(huì)是兩根柱子，不可能形成像正態(tài)分布那樣中間高、兩頭低的連續(xù)分布。

再者，線性模型的預(yù)測(cè)值取值范圍不一定在 0 到 1 之間。既然模型是用來(lái)預(yù)測(cè)二元變量取特定值的概率，那么模型的輸出就應(yīng)該在 0 到 1 之間，如果模型輸出的值大于 1 或者小于 0 則毫無(wú)意義。在線性模型里面，只要自變量能夠任意取值，那么模型的預(yù)測(cè)值也可以是任意值。因此，使用線性模型預(yù)測(cè)二元變量便會(huì)導(dǎo)致預(yù)測(cè)值出現(xiàn) 0 到 1 之外的「非法」值。

最后，線性模型假設(shè)的y的平均值是各個(gè)因素的線性疊加，這一點(diǎn)往往并不符合實(shí)際。射擊運(yùn)動(dòng)員可能需要幾個(gè)月的訓(xùn)練能把打中十環(huán)的概率提高到百分之五十，如果線性模型成立，只要再花幾個(gè)月的時(shí)間就能提高到百分之百的命中率。實(shí)際上，即使花費(fèi)數(shù)年的訓(xùn)練也很難達(dá)到百分之百。如果我們把射中靶心當(dāng)作一個(gè)二元變量 y，在 y = 1 的概率非常接近1 的時(shí)候，自變量 x（訓(xùn)練時(shí)間）通常需要變化很大才能進(jìn)一步提高其概率。這是現(xiàn)實(shí)世界遵循的規(guī)律，好的數(shù)學(xué)模型應(yīng)該能反映這一規(guī)律。

到底什么是邏輯回歸模型？

上面說(shuō)到的用線性回歸模型預(yù)測(cè)二元變量的種種問(wèn)題在使用了邏輯回歸模型之后便會(huì)迎刃而解。說(shuō)了這么多邏輯回歸模型的厲害之處，下面我們就來(lái)看看它的廬山真面目。

其中 p 代表 y = 1 的概率，x 代表了不同的自變量，表示了誤差項(xiàng)。與線性回歸模型對(duì)比，等式右邊完全相同，實(shí)際上邏輯回歸模型也是廣義上的線性模型。而等式的左邊形式更復(fù)雜了，引入了一些非線性的變換。

等式左邊的式子 log(p/(1-p)) 是對(duì)因變量 y 的一個(gè)轉(zhuǎn)換，它有一個(gè)專門(mén)的名字，叫做「分對(duì)數(shù)」，在英語(yǔ)里面叫做 logit，由于英語(yǔ)發(fā)音的原因，所以就有了「邏輯回歸模型」這么一個(gè)奇怪的名字。分對(duì)數(shù)與概率 p 有著一一對(duì)應(yīng)關(guān)系，只要確定了分對(duì)數(shù)，便能計(jì)算出 y = 1 的概率，反之亦然。

引入了分對(duì)數(shù)以后，等式左邊就可以取任意值，從而不會(huì)出現(xiàn)模型的預(yù)測(cè)值「不合法」的現(xiàn)象。分對(duì)數(shù)中，p 的取值在 0-1 之間，p/(1-p) 便可以取任意大于 0 的值。對(duì)它再取對(duì)數(shù)，得到的分對(duì)數(shù)便可以是任意的實(shí)數(shù)（如下圖）。換句話說(shuō)，不論丟進(jìn)去的自變量取什么值，模型輸出的概率 p 總是在 0-1 之間。

邏輯函數(shù)長(zhǎng)什么樣？左圖是 p/(1-p) 的函數(shù)曲線，在賭博中，如果 p 代表輸?shù)舻母怕?，p/(1-p) 就是賠率（odds）；對(duì)左圖的曲線取對(duì)數(shù)后得到右圖中邏輯函數(shù)的曲線。從右圖中可以看到，在概率 p 大于 0.5 時(shí)，邏輯函數(shù)取正值，小于 0.5 時(shí)，邏輯函數(shù)取負(fù)值，當(dāng) p 接近與 0 或 1 這兩個(gè)極端值時(shí)，邏輯函數(shù)變化很快，分別趨近于負(fù)無(wú)窮和正無(wú)窮。

不難想象，實(shí)現(xiàn)將概率 p 對(duì)應(yīng)到整個(gè)實(shí)數(shù)范圍的轉(zhuǎn)換的方法有無(wú)窮多個(gè)，為什么利用分對(duì)數(shù)進(jìn)行轉(zhuǎn)換的邏輯回歸模型被使用得最多呢？這還得說(shuō)一點(diǎn)兒概率論的歷史。

最早的概率理論是為了研究賭博而發(fā)明的。十七世紀(jì)的數(shù)學(xué)天才帕斯卡和費(fèi)馬為了解決賭博時(shí)賠率為多少比較公平，建立了概率論的基礎(chǔ)。賭博中的賠率是指獎(jiǎng)金應(yīng)該是賭注的多少倍。當(dāng)輸?shù)舻母怕适?p 時(shí)，就恰好是最公平的賠率（想想這是為什么？），即賭博的結(jié)果是不會(huì)贏錢(qián)也不會(huì)輸錢(qián)，而將賠率取對(duì)數(shù)就能得到分對(duì)數(shù)。

說(shuō)到底，概率、賠率、分對(duì)數(shù)三者都是對(duì)可能性的一種量化，就好像測(cè)量溫度有攝氏度，華氏度和開(kāi)爾文等不同的標(biāo)準(zhǔn)，但是這些描述的都是「溫度」這一屬性。賠率、分對(duì)數(shù)、概率這三者描述的也都是「可能性」這一屬性，只不過(guò)具體在數(shù)值上的尺度不一樣而已。

在實(shí)際應(yīng)用中，相對(duì)于概率和賠率，分對(duì)數(shù)這種描述方法恰好與影響因變量取特定值可能性的因素之間有比較好的線性關(guān)系，而邏輯回歸模型正好利用了這一規(guī)律，于是成為了預(yù)測(cè)二元變量最常用的模型形式。

這一集我們主要講了為什么邏輯回歸模型比之前學(xué)過(guò)的線性回歸模型更適合擬合二元變量，但是還沒(méi)有教大家怎么找出回歸系數(shù)以及對(duì)回歸系數(shù)做統(tǒng)計(jì)推斷。想要進(jìn)一步了解邏輯回歸，記得關(guān)注「說(shuō)人話的統(tǒng)計(jì)學(xué)」欄目的后續(xù)更新哦！