攝影|Chevanon Photography 來(lái)源|Pexels
什么是深度學(xué)習(xí)?
簡(jiǎn)單來(lái)說(shuō),深度學(xué)習(xí)就是樣本研究。
從最基本的概念上看,深度學(xué)習(xí)就是機(jī)器學(xué)習(xí)的一種方法,教計(jì)算機(jī)篩選輸入的信息,進(jìn)而對(duì)信息進(jìn)行預(yù)測(cè)和分類(lèi)。其觀察結(jié)果可以通過(guò)圖片、文字或聲音的方式呈現(xiàn)。
深度學(xué)習(xí)的靈感來(lái)源于人腦過(guò)濾信息的方式。其初衷是通過(guò)模擬人腦運(yùn)行模式來(lái)做些不一樣的事情。
GIF來(lái)源:GIPHY
這是正兒八經(jīng)/真實(shí)的人工神經(jīng)網(wǎng)絡(luò)。
人腦中有大約1億個(gè)神經(jīng)元。每個(gè)神經(jīng)元都與另外約10萬(wàn)個(gè)同類(lèi)相連,人類(lèi)現(xiàn)在正試圖將類(lèi)似的工作原理應(yīng)用到機(jī)器上。
人腦中的神經(jīng)元分為胞體(body),樹(shù)突(dendrites)和軸突(axon)。神經(jīng)元發(fā)出的信號(hào)經(jīng)由軸突和傳送到下一個(gè)神經(jīng)元的樹(shù)突。這種信號(hào)連接被稱(chēng)作神經(jīng)元突觸(synapse)。
單個(gè)的神經(jīng)元其實(shí)沒(méi)多大用。但如果有很多神經(jīng)元互相合作就能發(fā)揮奇效。這就是深度學(xué)習(xí)算法背后的理念!從觀察中獲得輸入數(shù)據(jù),再將輸入數(shù)據(jù)進(jìn)行篩選。這類(lèi)篩選產(chǎn)生的輸出數(shù)據(jù)就是下一層篩選的輸入數(shù)據(jù),這個(gè)過(guò)程不斷進(jìn)行,直到獲得最后的輸出信號(hào)!
神經(jīng)元(結(jié)點(diǎn))會(huì)收到一個(gè)或多個(gè)數(shù)據(jù)(輸入值),經(jīng)神經(jīng)元繼續(xù)傳播。該神經(jīng)元傳遞的信號(hào)就是輸出信號(hào)。
讀者可以將輸入信號(hào)的篩選看作是自己的感官:比如說(shuō)你看到、聞到或是感覺(jué)到的東西。這些是一個(gè)信號(hào)觀察中獨(dú)立的變量。該信息會(huì)被拆分成數(shù)字,變成電腦可以讀取的二進(jìn)制數(shù)據(jù)。最好給這些變量設(shè)置統(tǒng)一標(biāo)準(zhǔn)或格式,確保都在同一范圍內(nèi)。
程序員會(huì)使用很多非線性處理單位來(lái)提取、轉(zhuǎn)換數(shù)據(jù)特征。每道篩選步驟都會(huì)使用上一步的輸出數(shù)據(jù)作為輸入數(shù)據(jù)。其獲取的數(shù)據(jù)所支撐的概念分為三六九等。在這一個(gè)等級(jí)上,每層都需要學(xué)習(xí)如何將輸入數(shù)據(jù)轉(zhuǎn)換成更加抽象、內(nèi)容更豐富的表達(dá)形式。
圖片|ahmedged 來(lái)源|Pixabay
對(duì)圖片來(lái)說(shuō),這就意味著輸入數(shù)據(jù)可能是一個(gè)像素矩陣。第一層篩選可能為邊界加密,并形成一些像素。第二層篩選可能會(huì)再加上鼻子眼睛。下一層篩選可能捕捉到圖像中有人臉,如此往復(fù)。
神經(jīng)元內(nèi)部在發(fā)生著什么?
輸入結(jié)點(diǎn)會(huì)按數(shù)字排序輸入信息。該信息表現(xiàn)為激活值,其中每個(gè)神經(jīng)元結(jié)點(diǎn)都會(huì)被賦予一個(gè)數(shù)字。數(shù)字越大,激活的程度就越深。
根據(jù)連接強(qiáng)度(權(quán)重)和轉(zhuǎn)換函數(shù),激活值會(huì)被傳送到下一個(gè)結(jié)點(diǎn)。每次接收一個(gè)激活值,每個(gè)結(jié)點(diǎn)都會(huì)計(jì)算激活值的總和(權(quán)重總和),再根據(jù)轉(zhuǎn)換函數(shù)進(jìn)行編輯。接著,結(jié)點(diǎn)會(huì)使用激活函數(shù)。激活函數(shù)是應(yīng)用于某一特定神經(jīng)元的。這一步之后,神經(jīng)元就知道它要不要再繼續(xù)傳播這個(gè)信號(hào)。
每個(gè)神經(jīng)元突觸都會(huì)被賦予一定的權(quán)重,這一步對(duì)人工神經(jīng)網(wǎng)絡(luò)(ANNs, Artificial Neural Networks)至關(guān)重要。人工神經(jīng)網(wǎng)絡(luò)通過(guò)調(diào)整權(quán)重來(lái)決定信號(hào)傳播的程度。程序員在調(diào)試自己的網(wǎng)絡(luò)時(shí),如何調(diào)整權(quán)重這一決定權(quán)就握在自己手里。
整個(gè)激活過(guò)程貫穿整個(gè)網(wǎng)絡(luò),直到它突破輸出結(jié)點(diǎn)。輸出結(jié)點(diǎn)會(huì)以人類(lèi)可理解的方式給出信息。程序員的設(shè)計(jì)的網(wǎng)絡(luò)會(huì)使用成本函數(shù)對(duì)輸出值和預(yù)計(jì)輸出值進(jìn)行對(duì)比,并對(duì)模型的表現(xiàn)進(jìn)行評(píng)估,表示為真實(shí)值和預(yù)測(cè)值之間的差異。針對(duì)各自網(wǎng)絡(luò)的具體錯(cuò)誤,有不同類(lèi)型的成本函數(shù)可供選擇。程序員要盡量減少使用損失函數(shù)。從本質(zhì)上講,損失函數(shù)得出的值越低,得到的結(jié)果就越接近預(yù)期值。獲得信息反饋后,神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)調(diào)整權(quán)重的方式學(xué)習(xí)盡可能少使用損失函數(shù)的方法。這個(gè)過(guò)程叫做反向傳播。
在前向傳播中,信息進(jìn)入輸入層,通過(guò)網(wǎng)絡(luò)傳播以獲取輸出值,將這個(gè)值和預(yù)期結(jié)果進(jìn)行對(duì)比。接著計(jì)算錯(cuò)誤,再使信息反向傳播。這樣做既能訓(xùn)練網(wǎng)絡(luò),又能更新權(quán)重。得益于算法設(shè)計(jì),程序員可以通過(guò)反向傳播的方式實(shí)現(xiàn)同時(shí)調(diào)整所有權(quán)重。這樣如果出現(xiàn)任何錯(cuò)誤,就能找到是網(wǎng)絡(luò)的哪部分在負(fù)責(zé)。
將權(quán)重調(diào)整到最優(yōu)級(jí)別,我們進(jìn)入下一步測(cè)試階段。
圖|Yogendra Singh 圖源|Pexels
人工神經(jīng)網(wǎng)絡(luò)是如何學(xué)習(xí)的呢?
想讓程序按你的意愿行事,有兩種方法。第一種是硬植程序(hard-programmed)。直接告訴程序你想讓它為你做什么。第二種就是神經(jīng)網(wǎng)絡(luò)。給它輸入信息以及期待的輸出信息,讓它自己去學(xué)習(xí)。
讓網(wǎng)絡(luò)自己學(xué)習(xí)就省去了輸入規(guī)則這個(gè)步驟。一旦網(wǎng)絡(luò)訓(xùn)練成熟,給它一張圖片就能輕松區(qū)分輸出信息。
前饋和反饋網(wǎng)絡(luò)
前饋網(wǎng)絡(luò)包括輸入數(shù)據(jù)、輸出數(shù)據(jù)以及隱藏的篩選層。信號(hào)只能單向傳播(向前)。輸入數(shù)據(jù)經(jīng)過(guò)不斷進(jìn)行計(jì)算的篩選層,每個(gè)處理元素都根據(jù)輸入數(shù)據(jù)的權(quán)重總和來(lái)進(jìn)行運(yùn)算,其結(jié)果就變?yōu)樾碌妮斎霐?shù)據(jù)進(jìn)入到下一個(gè)篩選層(前饋)。前饋網(wǎng)絡(luò)常用于數(shù)據(jù)挖掘中。
如循環(huán)神經(jīng)網(wǎng)絡(luò)之類(lèi)的反饋網(wǎng)絡(luò)有反饋通道。這意味著信號(hào)能通過(guò)循環(huán)進(jìn)行雙向傳播。所有神經(jīng)元都可以隨意進(jìn)行連接。因?yàn)檠h(huán)的參與,這種類(lèi)型的神經(jīng)網(wǎng)絡(luò)變?yōu)橐环N非線性的動(dòng)態(tài)系統(tǒng),不斷變化直到達(dá)到一種平衡。網(wǎng)絡(luò)為互相連接的各個(gè)元素尋找最佳安排方案時(shí),通常用反饋網(wǎng)絡(luò)來(lái)找到問(wèn)題的最優(yōu)解。
什么是加權(quán)和?
神經(jīng)元的輸入數(shù)據(jù)可以是一組數(shù)據(jù)特征,也可以是上一個(gè)篩選層里神經(jīng)元的輸出數(shù)據(jù)。每?jī)蓚€(gè)神經(jīng)元之間有一種特殊的突觸,并有其特殊的權(quán)重。若數(shù)據(jù)要從一個(gè)神經(jīng)元傳輸?shù)搅硪粋€(gè)神經(jīng)元,必須要經(jīng)過(guò)突觸,給“過(guò)路費(fèi)”(權(quán)重)。對(duì)于突觸傳來(lái)的輸入數(shù)據(jù),神經(jīng)元會(huì)應(yīng)用激活函數(shù)到加權(quán)和,并將計(jì)算結(jié)果傳輸?shù)较乱粚拥纳窠?jīng)元。在談?wù)撛谝粋€(gè)網(wǎng)絡(luò)中更新權(quán)重時(shí),通常是指在突觸環(huán)節(jié)調(diào)整權(quán)重。
神經(jīng)元的輸入數(shù)據(jù)是上一個(gè)篩選層所有神經(jīng)元產(chǎn)出的調(diào)整權(quán)重后的輸出數(shù)據(jù)。與當(dāng)前神經(jīng)元相連接的突觸會(huì)有權(quán)重,每個(gè)輸入數(shù)據(jù)會(huì)與之相乘。如果上一個(gè)神經(jīng)元有三個(gè)輸入數(shù)據(jù)或神經(jīng)元,當(dāng)前篩選層的每一個(gè)神經(jīng)元就會(huì)有三個(gè)不同的權(quán)重:每個(gè)突觸都有不一樣的權(quán)重。
長(zhǎng)話(huà)短說(shuō),一個(gè)結(jié)點(diǎn)的激活函數(shù)決定該結(jié)點(diǎn)的輸出數(shù)據(jù)。
激活函數(shù)(或轉(zhuǎn)換函數(shù))將輸入數(shù)據(jù)轉(zhuǎn)換成輸出數(shù)據(jù),在一定范圍內(nèi)映射輸出數(shù)據(jù),比如0到1或者-1到1。在細(xì)胞里,激活函數(shù)通常被看作動(dòng)作電位發(fā)放率的抽象形式。其數(shù)字代表了神經(jīng)元發(fā)射的可能性。簡(jiǎn)而言之,這個(gè)函數(shù)是二元的,只有是(神經(jīng)元會(huì)發(fā)射),或否(神經(jīng)元不會(huì)發(fā)射)兩種情況。輸出數(shù)據(jù)要么是0或者1(代表開(kāi)或關(guān),是或否),要么是范圍內(nèi)的任何值。如果圖像中的物體是一只貓,定義在0到1之間,比如說(shuō),輸出數(shù)據(jù)是0.9就代表有90%的幾率證明圖像中的物體是一只貓。
如何選擇?有很多激活函數(shù),下文舉四個(gè)常用例子:
閥函數(shù)(Threshold Function)
這是一個(gè)階梯函數(shù)。如果輸入數(shù)據(jù)的總和達(dá)到閥值,該函數(shù)結(jié)果為0。如果總和大于等于0,那么函數(shù)結(jié)果為1。閥函數(shù)的結(jié)果非??陀^,只有是非之分。
例:閥函數(shù)
雙彎曲函數(shù)(Sigmoid Function)
該方程通常應(yīng)用于邏輯回歸。與閥函數(shù)不同的是,它是從0到1的緩慢發(fā)展。雙彎曲函數(shù)在輸出數(shù)據(jù)的篩選層非常實(shí)用,也廣泛用于線性回歸。
例:雙彎曲函數(shù)
雙曲線正切函數(shù)(Hyperbolic Tangent Function)
雙曲線正切函數(shù)和雙彎曲函數(shù)非常相似。但其不同點(diǎn)在于,雙彎曲函數(shù)的范圍是從0到1,它的值可以小于0,也就是說(shuō)它的范圍在-1到1之間。雖然這和人腦的工作方式不太一樣,但使用雙曲線正切函數(shù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)可以得到更好的效果。在使用雙曲線函數(shù)時(shí),神經(jīng)網(wǎng)絡(luò)有時(shí)候會(huì)突然卡住,特別是輸入數(shù)據(jù)中有很多負(fù)數(shù),輸出數(shù)據(jù)接近0的時(shí)候,會(huì)擾亂網(wǎng)絡(luò)的學(xué)習(xí)進(jìn)程。
例:雙曲線正切函數(shù)(tanh)
線性整流函數(shù)(Rectifier Function)
在神經(jīng)網(wǎng)絡(luò)宇宙中,這可能是最受歡迎的激活函數(shù)了。它效率最高,并且在生物學(xué)角度上也是可行的。雖然曲線上有一個(gè)節(jié)點(diǎn),但節(jié)點(diǎn)之后的曲線是平滑并且緩慢發(fā)展的。也就是說(shuō),輸出數(shù)據(jù)要么是0,要么是一定比例的“是”。線性整流函數(shù)不需要進(jìn)行標(biāo)準(zhǔn)化或者其他復(fù)雜的計(jì)算。
例:線性整流函數(shù)
假如說(shuō)預(yù)期值是以二進(jìn)制表示的,要么是,要么否。你想使用哪個(gè)激活函數(shù)呢?
從上述例子,你可以使用閥函數(shù)或雙彎曲函數(shù)。閥函數(shù)會(huì)給出“是”或“否”的反饋(對(duì)應(yīng)1或0)。雙曲線函數(shù)會(huì)給出“是”的可能性。
如果使用雙曲線函數(shù)來(lái)決定圖像是一只貓的概率,比如說(shuō),輸出數(shù)據(jù)0.9就表示有90%的概率證明圖像上就是一只貓。
圖|minanafoto 圖源|Pixabay
如何調(diào)整權(quán)重?
硬剛也不是不可以,但即便是只有5個(gè)值的輸入數(shù)據(jù)和一個(gè)隱藏的篩選層,也有10??種可能的組合方式。
世界上運(yùn)算最快的超級(jí)計(jì)算機(jī)的計(jì)算時(shí)間也會(huì)超過(guò)宇宙存在的時(shí)間。
梯度下降閃亮登場(chǎng)
如果使用梯度下降算法,可以查看權(quán)重斜率的角度,找出正負(fù),再順藤摸瓜找到最佳權(quán)重,以達(dá)到全局最小值。
攝影|RANJAN SIMKHADA 圖源 |Pexels
梯度下降算法能算出一個(gè)函數(shù)的最小值。就好比困在山頂?shù)娜嗽囍律剑ㄕ业阶钚≈担?,路上迷霧重重,根本看不見(jiàn)道,這種情況下梯度下降就能派上用場(chǎng)??粗盖偷纳狡?,沿著坡度最大的方向繼續(xù)走,可以假設(shè)這樣的陡坡也不是立馬就能看清楚的。幸好,有梯度下降這個(gè)工具可以幫助測(cè)量!
然而,使用這個(gè)工具時(shí)間太久了。
她想在天黑之前下山,盡可能少使用這個(gè)辦法。真正的挑戰(zhàn)是多久使用一次梯度下降函數(shù)來(lái)確保不會(huì)迷路。
在這個(gè)例子中,主人公就是算法。山坡的傾斜度就是該點(diǎn)所在平面的錯(cuò)誤值。小人前進(jìn)的方向就是平面錯(cuò)誤的傾斜度。她使用了微分法來(lái)幫助自己解決問(wèn)題,平面的坡度可以通過(guò)該點(diǎn)錯(cuò)誤函數(shù)平方的衍生結(jié)果來(lái)進(jìn)行計(jì)算。小人使用另一種測(cè)量方法之前的速度就是這個(gè)算法的學(xué)習(xí)速度。雖然這個(gè)比方不是完全恰當(dāng)?shù)?,但它能讓讀者對(duì)梯度下降算法有一個(gè)大概了解。機(jī)器也在學(xué)習(xí)這個(gè)梯度下降算法(方向),或許模型可以采用這種方法來(lái)降低錯(cuò)誤率。
坡度下降算法(簡(jiǎn)化版!)
坡度下降算法要求成本函數(shù)呈凸字型,但萬(wàn)一不是呢?
現(xiàn)在呢?
一般來(lái)說(shuō),梯度下降算法會(huì)限于本地最小值而不是全局最小值,導(dǎo)致最終的網(wǎng)絡(luò)低于平均值。這種情況下,通常將每一行的數(shù)據(jù)輸入到同樣的神經(jīng)網(wǎng)絡(luò),先看一眼權(quán)重是多少,再進(jìn)行調(diào)整。這個(gè)過(guò)程叫做批量梯度下降。在隨機(jī)梯度下降法中,需要逐行檢查,輸入進(jìn)神經(jīng)網(wǎng)絡(luò),調(diào)整權(quán)重,再換到下一行。也就是說(shuō)你要一行一行地調(diào)整權(quán)重。
隨機(jī)梯度下降法波動(dòng)更大,這樣能幫助定位全局最小值。顧名思義,樣本順序是隨機(jī)的,而不是一個(gè)數(shù)據(jù)集中單獨(dú)的數(shù)據(jù)組。雖然看起來(lái)可能會(huì)很慢,但實(shí)際操作起來(lái)速度很快,因?yàn)椴恍枰阉袛?shù)據(jù)都導(dǎo)入內(nèi)存再等所有數(shù)據(jù)一起運(yùn)行。這個(gè)方法最大的優(yōu)勢(shì)就在于它是確定性算法。也就是說(shuō)如果每次初始權(quán)重都一樣,每次運(yùn)行網(wǎng)絡(luò)得到的結(jié)果都是一樣的。隨機(jī)梯度下降法永遠(yuǎn)都是在隨機(jī)的狀態(tài)下運(yùn)作,也可以用體量較小的數(shù)據(jù)用梯度下降的方式來(lái)計(jì)算,在同一時(shí)間運(yùn)行很多行數(shù)據(jù),再更新權(quán)重。
程序員們提出并使用了很多改進(jìn)隨機(jī)梯度下降法的算法,包括隱式更新(ISDG)、動(dòng)量算法、平均隨機(jī)梯度下降法、自適應(yīng)梯度算法(AdaGrad),均方根傳播算法(RMSProp),自適應(yīng)動(dòng)量法(Adam),等等。
下面總結(jié)一下用隨機(jī)梯度下降法訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的技術(shù)要點(diǎn):
· 隨機(jī)生成權(quán)重,其值為接近0的小數(shù)字。
· 將數(shù)據(jù)集的首次觀察數(shù)據(jù)當(dāng)作輸入數(shù)據(jù)導(dǎo)入篩選層,保證每一個(gè)輸入節(jié)點(diǎn)都保留數(shù)據(jù)特征。
· 前向傳播——從左到右,每個(gè)神經(jīng)元的激活都受制于權(quán)重,在沒(méi)有得到預(yù)測(cè)結(jié)果之前一直進(jìn)行這個(gè)過(guò)程。
· 將預(yù)測(cè)結(jié)果和實(shí)際結(jié)果相比較再對(duì)生成的錯(cuò)誤進(jìn)行評(píng)估。
· 反向傳播——從右到左,錯(cuò)誤是反向傳播的。權(quán)重會(huì)根據(jù)各自對(duì)錯(cuò)誤的占比不斷更新。(機(jī)器學(xué)習(xí)的速率決定更新權(quán)重的頻率)。
· 強(qiáng)化學(xué)習(xí)(重復(fù)步驟1—5,每次觀察后更新權(quán)重),或者批量學(xué)習(xí)(重復(fù)步驟1—5,但完成一批數(shù)據(jù)的觀察后再更新權(quán)重)。
· 當(dāng)整個(gè)測(cè)試數(shù)據(jù)組都通過(guò)了人工神經(jīng)網(wǎng)絡(luò)后,就能打開(kāi)新世界的大門(mén)。重復(fù)上述步驟,開(kāi)啟更多大門(mén)吧。
聯(lián)系客服