在生物學(xué)中,神經(jīng)元細(xì)胞有興奮與抑制兩種狀態(tài)。大多數(shù)神經(jīng)元細(xì)胞在正常情況下處于抑制狀態(tài),一旦某個(gè)神經(jīng)元受到刺激并且電位超過一定的閾值后,這個(gè)神經(jīng)元細(xì)胞就被激活,處于興奮狀態(tài),并向其他神經(jīng)元傳遞信息?;谏窠?jīng)元細(xì)胞的結(jié)構(gòu)特性與傳遞信息方式,神經(jīng)科學(xué)家 Warren McCulloch 和邏輯學(xué)家 Walter Pitts 合作提出了“McCulloch–Pitts (MCP) neuron”模型。在人工神經(jīng)網(wǎng)絡(luò)中,MCP模型成為人工神經(jīng)網(wǎng)絡(luò)中的最基本結(jié)構(gòu)。MCP模型結(jié)構(gòu)如 圖1 所示。
圖1 MCP 模型結(jié)構(gòu)
從 圖1 可見,給定 n 個(gè)二值化(0或1)的輸入數(shù)據(jù) (1≤i≤n)與連接參數(shù) (1≤i≤n),MCP 神經(jīng)元模型對(duì)輸入數(shù)據(jù)線性加權(quán)求和,然后使用函數(shù) Φ()將加權(quán)累加結(jié)果映射為 0 或 1 ,以完成兩類分類的任務(wù):
其中 為預(yù)先設(shè)定的連接權(quán)重值(一般在 0 和 1 中取一個(gè)值或者 1 和 -1 中取一個(gè)值),用來表示其所對(duì)應(yīng)輸入數(shù)據(jù)對(duì)輸出結(jié)果的影響(即權(quán)重)。Φ()將輸入端數(shù)據(jù)與連接權(quán)重所得線性加權(quán)累加結(jié)果與預(yù)先設(shè)定閾值 θ進(jìn)行比較,根據(jù)比較結(jié)果輸出 1 或 0。
具體而言,如果線性加權(quán)累加結(jié)果(即 ∑mi=1wixi)大于閾值 θ,則函數(shù) Φ()的輸出為1、否則為0。也就是說,如果線性加權(quán)累加結(jié)果大于閾值 θ,則神經(jīng)元細(xì)胞處于興奮狀態(tài),向后傳遞 1 的信息,否則該神經(jīng)元細(xì)胞處于抑制狀態(tài)而不向后傳遞信息。
從另外一個(gè)角度來看,對(duì)于任何輸入數(shù)據(jù) (1≤i≤n),MCP 模型可得到 1 或 0 這樣的輸出結(jié)果,實(shí)現(xiàn)了將輸入數(shù)據(jù)分類到 1 或 0 兩個(gè)類別中,解決了二分類問題。
1957年 Frank Rosenblatt 提出了一種簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò),被稱之為感知機(jī)。早期的感知機(jī)結(jié)構(gòu)和 MCP 模型相似,由一個(gè)輸入層和一個(gè)輸出層構(gòu)成,因此也被稱為“單層感知機(jī)”。感知機(jī)的輸入層負(fù)責(zé)接收實(shí)數(shù)值的輸入向量,輸出層則為1或-1兩個(gè)值。單層感知機(jī)可作為一種二分類線性分類模型,結(jié)構(gòu)如 圖2 所示。
單層感知機(jī)的模型可以簡(jiǎn)單表示為:
對(duì)于具有 n個(gè)輸入 以及對(duì)應(yīng)連接權(quán)重系數(shù)為 的感知機(jī),首先通過線性加權(quán)得到輸入數(shù)據(jù)的累加結(jié)果 :。這里 為感知機(jī)的輸入,w1,w2,...,wn 為網(wǎng)絡(luò)的權(quán)重系數(shù),b為偏置項(xiàng)()。然后將 作為激活函數(shù) Φ(?)的輸入,這里激活函數(shù) Φ(?)為 函數(shù),其表達(dá)式為:
Φ(?)會(huì)將 與某一閾值(此例中,閾值為0)進(jìn)行比較,如果大于等于該閾值則感知器輸出為 1,否則輸出為 ?1。通過這樣的操作,輸入數(shù)據(jù)被分類為 1或 ?1這兩個(gè)不同類別。
給定一個(gè) n維數(shù)據(jù)集,如果它可以被一個(gè)超平面完全分割,那么我們稱這個(gè)數(shù)據(jù)集為線性可分?jǐn)?shù)據(jù)集,否則,則為線性不可分的數(shù)據(jù)集。單層感知機(jī)只能處理線性可分?jǐn)?shù)據(jù)集,其任務(wù)是尋找一個(gè)線性可分的超平面將所有的正類和負(fù)類劃分到超平面兩側(cè)。單層感知機(jī)與 模型在連接權(quán)重設(shè)置上是不同的,即感知機(jī)中連接權(quán)重參數(shù)并不是預(yù)先設(shè)定好的,而是通過多次迭代訓(xùn)練而得到的。單層感知機(jī)通過構(gòu)建損失函數(shù)來計(jì)算模型預(yù)測(cè)值與數(shù)據(jù)真實(shí)值間的誤差,通過最小化代價(jià)函數(shù)來優(yōu)化模型參數(shù)。
其具體的訓(xùn)練過程為:
圖4 單層感知機(jī)模擬不同邏輯函數(shù)功能的示意圖
單層感知機(jī)可被用來區(qū)分線性可分?jǐn)?shù)據(jù)。在 圖3 中,邏輯與(AND)、邏輯與非(NAND)和邏輯或(OR)為線性可分函數(shù),所以可利用單層感知機(jī)來模擬這些邏輯函數(shù)。但是,由于邏輯異或(XOR)是非線性可分的邏輯函數(shù),因此單層感知機(jī)無法模擬邏輯異或函數(shù)的功能。
由于無法模擬諸如異或以及其他復(fù)雜函數(shù)的功能,使得單層感知機(jī)的應(yīng)用較為單一。一個(gè)簡(jiǎn)單的想法是,如果能在感知機(jī)模型中增加若干隱藏層,增強(qiáng)神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,就會(huì)讓神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)擬合能力。因此,由多個(gè)隱藏層構(gòu)成的多層感知機(jī)被提出。
如 圖5所示,多層感知機(jī)由輸入層、輸出層和至少一層的隱藏層構(gòu)成。網(wǎng)絡(luò)中各個(gè)隱藏層中神經(jīng)元可接收相鄰前序隱藏層中所有神經(jīng)元傳遞而來的信息,經(jīng)過加工處理后將信息輸出給相鄰后續(xù)隱藏層中所有神經(jīng)元。
在多層感知機(jī)中,相鄰層所包含的神經(jīng)元之間通常使用“全連接”方式進(jìn)行連接。所謂“全連接”是指兩個(gè)相鄰層之間的神經(jīng)元相互成對(duì)連接,但同一層內(nèi)神經(jīng)元之間沒有連接。多層感知機(jī)可以模擬復(fù)雜非線性函數(shù)功能,所模擬函數(shù)的復(fù)雜性取決于網(wǎng)絡(luò)隱藏層數(shù)目和各層中神經(jīng)元數(shù)目。
假設(shè)當(dāng)前有兩個(gè)維向量和(除非特別說明,本文默認(rèn)依此寫法表示向量),可以通過兩個(gè)向量之間的距離或者相似度來判定這兩個(gè)向量的相近程度,顯然兩個(gè)向量之間距離越小,相似度越高;兩個(gè)向量之間距離越大,相似度越低。
Minkowski Distane 是對(duì)多個(gè)距離度量公式概括性的表述,當(dāng)p=1時(shí),Minkowski Distane 便是曼哈頓距離;當(dāng)p=2時(shí),Minkowski Distane 便是歐式距離;Minkowski Distane 取極限的形式便是切比雪夫距離。
在信息論中,兩個(gè)等長(zhǎng)字符串之間的海明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)。假設(shè)有兩個(gè)字符串分別是:和,則兩者的距離為:
\text { Hamming Distance }=\sum_{i=1}^n \mathrm{II}\left(x_i=y_i\right)
其中表示指示函數(shù),兩者相同為1,否則為0。
給定隨機(jī)變量和兩個(gè)概率分布和,KL散度可以用來衡量?jī)蓚€(gè)分布之間的差異性,其公式如下:
給定兩個(gè)隨機(jī)變量X和Y,皮爾遜相關(guān)系數(shù)可以用來衡量?jī)烧叩南嚓P(guān)程度,公式如下:
其中和分別表示向量X和Y的均值,和分別表示向量X和Y的標(biāo)準(zhǔn)差。
假設(shè)有兩個(gè)集合X和Y(注意這里的兩者不是向量),則其計(jì)算公式為:
聯(lián)系客服