九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機器學習算法概述:隨機森林&邏輯回歸

摘要: 機器學習算法入門介紹:隨機森林與邏輯回歸!

隨機森林是用于分類和回歸的監(jiān)督式集成學習模型。為了使整體性能更好,集成學習模型聚合了多個機器學習模型。因為每個模型單獨使用時性能表現(xiàn)的不是很好,但如果放在一個整體中則很強大。在隨機森林模型下,使用大量“弱”因子的決策樹,來聚合它們的輸出,結(jié)果能代表“強”的集成。

權(quán)衡偏差與方差

在任何機器學習模型中,有兩個誤差來源:偏差和方差。為了更好地說明這兩個概念,假設(shè)已創(chuàng)建了一個機器學習模型并已知數(shù)據(jù)的實際輸出,用同一數(shù)據(jù)的不同部分對其進行訓練,結(jié)果機器學習模型在數(shù)據(jù)的不同部分產(chǎn)生了不同的輸出。為了確定偏差和方差,對這兩個輸出進行比較,偏差是機器學習模型中預(yù)測值與實際值之間的差異,而方差則是這些預(yù)測值的分布情況。

簡而言之:

偏差是當算法作了太多簡化假設(shè)之后出現(xiàn)的錯誤,這導致模型預(yù)測值與實際值有所出入。

方差是由于算法對訓練數(shù)據(jù)集中小變化的敏感性而產(chǎn)生的誤差;方差越大,意味著算法受數(shù)據(jù)變化的影響更大。

理想情況下,偏差和方差都會很小,這意味模型在相同數(shù)據(jù)集的不同數(shù)據(jù)中的預(yù)測值很接近真值。當這種情況發(fā)生時,模型可以精確地學習數(shù)據(jù)集中的潛在模式。

隨機森林是一種減少方差的算法

決策樹以高方差、低偏差為人所知。這主要是因為它能夠?qū)碗s的關(guān)系,甚至是過擬合數(shù)據(jù)中的噪聲進行建模。簡單地說:決策樹訓練的模型通常是精確的,但常常在同一數(shù)據(jù)集中的不同數(shù)據(jù)樣本之間顯示出很大程度的變化。

隨機森林通過聚合單個決策樹的不同輸出來減少可能導致決策樹錯誤的方差。通過多數(shù)投票算法,我們可以找到大多數(shù)單個樹給出的平均輸出,從而平滑了方差,這樣模型就不容易產(chǎn)生離真值更遠的結(jié)果。

隨機森林思想是取一組高方差、低偏差的決策樹,并將它們轉(zhuǎn)換成低方差、低偏差的新模型。

為什么隨機森林是隨機的?

隨機森林中的隨機來源于算法用訓練數(shù)據(jù)的不同子集訓練每個單獨的決策樹,用數(shù)據(jù)中隨機選擇的屬性對每個決策樹的每個節(jié)點進行分割。通過引入這種隨機性元素,該算法能夠創(chuàng)建彼此不相關(guān)的模型。這導致可能的誤差均勻分布在模型中,意味著誤差最終會通過隨機森林模型的多數(shù)投票決策策略被消除。

隨機森林實際是如何工作的?

想象一下,你厭倦了一遍又一遍地聽著同樣的電子音樂,強烈地想找到一些可能喜歡的新音樂,所以你上網(wǎng)去尋找推薦,找到了能讓真實的人根據(jù)你的喜好給你音樂建議的一個網(wǎng)站。

那么它是如何工作的呢?首先,為了避免建議的隨機性,先填寫一份關(guān)于自己的基本音樂喜好的問卷,為可能喜歡的音樂類型提供一個標準。然后網(wǎng)友利用這些信息開始根據(jù)你提供的標準(特征)來分析歌曲,此時每個人本質(zhì)上都是一個決策樹。

就個人而言,網(wǎng)上提出建議的人并不能很好地概括你的音樂喜好。比如,有人可能會認為你不喜歡80年代之前的任何歌曲,因此不會給你推薦這些歌曲。但是這假設(shè)可能不準確,并可能會導致你不會收到喜歡的音樂的建議。

為什么會發(fā)生這種錯誤?每一個推薦人對你的喜好的了解都是有限的,而且他們對自己個人的音樂品味也是有偏見的。為了解決這個問題,我們統(tǒng)計來自許多個人的建議(每個人都扮演決策樹的角色),并對他們的建議使用多數(shù)投票算法(本質(zhì)上是創(chuàng)建一個隨機森林)。

然而,還有一個問題——因為每個人都在使用來自同一份問卷的相同數(shù)據(jù),因此得出的建議將會是類似的,而且可能具有高度的偏見和相關(guān)性。為了擴大建議的范圍,每個推薦人都會得到一組調(diào)查問卷的隨機答案,而不是所有的答案,這意味著他們的推薦標準更少。最后,通過多數(shù)投票消除了極端異常值,你就會得到一個準確而多樣的推薦歌曲列表。

總結(jié)

隨機森林的優(yōu)點:

1.不需要特征歸一化;

2.可并行化:單個決策樹可以并行訓練;

3.廣泛使用的;

4.減少過擬合;

隨機森林的缺點:

1.不容易解釋

2.不是最先進的方法

邏輯回歸是一個使用分類因變量預(yù)測結(jié)果的監(jiān)督式統(tǒng)計模型。分類變量的值為名稱或標簽,例如:贏/輸、健康/生病或成功/失敗。該模型也可用于兩類以上的因變量,這種情況稱多項邏輯回歸。

邏輯回歸是基于歷史信息構(gòu)建給定數(shù)據(jù)集的分類規(guī)則,這些數(shù)據(jù)集被劃分為不同的類別。模型公式為:

相關(guān)術(shù)語定義如下:

c=1,...,C是因變量Y的所有可能類別;

P(Y=c)是因變量為類別c的概率;

\beta_{{i}},i=1,...,I是回歸系數(shù),當進行轉(zhuǎn)換時,表示每個變量在解釋概率方面的重要性;

X_{{i}},i=1,...,I是自變量。

我們將使用之前博文中的鳶尾花數(shù)據(jù)集來說明邏輯回歸是如何工作的。這些數(shù)據(jù)由150種鳶尾花組成,按照植物種類(這個數(shù)據(jù)集中有三種不同的種類)、萼片和花瓣長度、萼片和花瓣寬度等特征進行分類,我們僅使用萼片和花瓣來描述每朵鳶尾花。我們還將建立一個分類規(guī)則來判斷數(shù)據(jù)集中引入的新植物的種類。圖1展示了一朵鳶尾的萼片和花瓣的尺寸。

首先,我們必須將數(shù)據(jù)集分成兩個子集:訓練和測試。訓練集占整個數(shù)據(jù)集的60%,用于使模型與數(shù)據(jù)相匹配,測試集占其余40%的數(shù)據(jù),用于檢查模型是否與給定的數(shù)據(jù)正確匹配。

利用上述公式,我們將數(shù)據(jù)擬合到邏輯回歸模型中。在這種情況下,因變量為植物種類,類別數(shù)等于3,自變量(x_{{i}},i=1,...4\right)是萼片和花瓣的長度和寬度。圖2顯示了數(shù)據(jù)的一個子集。

表1給出了三種植物中每個自變量系數(shù)的估計。顯而易見,花瓣的長度和寬度是特征描述過程中最重要的變量。因此,在每個物種的特征重要性圖中強調(diào)了這兩個變量(圖3)。

接下來,我們創(chuàng)建了一個混淆矩陣(誤差矩陣)來檢驗?zāi)P偷男阅?。這個矩陣把測試數(shù)據(jù)集中已知的鳶尾花植物類別與擬合模型預(yù)測的鳶尾花植物類別進行比較,我們的目標是兩者相同。在表2中,我們看到模型的性能相對較好,只有兩種花色植物被錯誤分類。

基于這些結(jié)果,我們能夠?qū)?shù)據(jù)集中的各種鳶尾植物進行正確的分類。然而,正如前面提到的,我們現(xiàn)在必須制定一個分類規(guī)則。接著是通過新鳶尾屬植物的自變量值乘以表1中的系數(shù)估計來計算新鳶尾植物屬于給定類別的概率,新鳶尾的結(jié)果如下表3所示:

然后,我們使用前面的公式計算了鳶尾植物為各個類別的概率。結(jié)果證實上述鳶尾植物很可能屬于維吉尼亞鳶尾。

總結(jié)

邏輯回歸的優(yōu)點:

1.可解釋性;

2.模型簡單;

3.可擴展性;

邏輯回歸的缺點:

1.假設(shè)特征之間的相對獨立性;

以上為譯文。

本文由阿里云云棲社區(qū)組織翻譯。

文章原標題《machine-learning-algorithms-explained-random-forests》,

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ML之mlxtend:基于iris鳶尾花數(shù)據(jù)集利用邏輯回歸LoR/隨機森林RF/支持向量機SVM/集成學習算法結(jié)合mlxtend庫實現(xiàn)模型可解釋性
【ML基礎(chǔ)】隨機森林全解 (從bagging到variance)
機器學習建模中的 Bagging 思想
前沿: 統(tǒng)計學習的隨機森林算法詳解, 通過示例, code和結(jié)果全方位解析!
阿里云工程師:用機器學習破解霧霾成因
盤點 | 機器學習入門算法:從線性模型到神經(jīng)網(wǎng)絡(luò)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服