感謝本次邀請嘉賓 - 楊東平博士的貢獻(xiàn)。楊東平博士在復(fù)雜系統(tǒng),平衡態(tài)神經(jīng)網(wǎng)絡(luò)領(lǐng)域均有建樹, 目前在悉尼大學(xué)從事博士后工作。
神經(jīng)網(wǎng)絡(luò)這個東西,隨著最近阿法狗和深度學(xué)習(xí)的熱絡(luò), 真是火遍全球, 人們已經(jīng)快把它看成一種新興生物 , 卻忘記了它的真實(shí)出處, 我在巡洋艦的此次講座, 從物理學(xué),復(fù)雜科學(xué) ,計算神經(jīng)科學(xué)與人工智能的角度綜合分析了神經(jīng)網(wǎng)絡(luò)這個玩意。(結(jié)尾插有一條廣告)
從物理角度看神經(jīng)網(wǎng)絡(luò): 自組織涌現(xiàn)與復(fù)雜科學(xué)
要說物理學(xué)家看神經(jīng)網(wǎng)絡(luò), 就不能離開統(tǒng)計物理。 物理學(xué)家把神經(jīng)網(wǎng)絡(luò)看成無數(shù)神經(jīng)細(xì)胞相互作用組成的一個整體。就如同理想氣體是無數(shù)分子的組合或金屬晶體是原子的組合類似。 雖然單個神經(jīng)細(xì)胞只有一個簡單的作用, 就是把接收到的信號(stimulus)轉(zhuǎn)化為一定的輸出(spike) 。 但是這樣一個簡單的東西通過大量加和的網(wǎng)絡(luò)效應(yīng)卻可以產(chǎn)生智能這種十分復(fù)雜的現(xiàn)象,這正是物理里說的涌現(xiàn)性。所謂簡單的東西堆在一起足夠多, 突然之間產(chǎn)生了一個更加復(fù)雜和高級的現(xiàn)象。 這種由于尺度跨越造成的飛躍性變化。 物理學(xué)認(rèn)為是自然界各種復(fù)雜的東西形成秘密之所在。
然而和神經(jīng)網(wǎng)絡(luò)最接近的物理恐怕是易辛模型。易辛模型特別簡單易懂,說的是在一個網(wǎng)絡(luò)里,每個單元都只受到自己鄰居的影響,大家在一個集體里, 每個個體都有到與周圍人做類似行為的趨勢(趨同力), 同時也受到各種隨機(jī)性的影響來破壞這種趨同效應(yīng)(溫度, 熱擾動), 最終整個網(wǎng)絡(luò)的狀態(tài)是這兩種力量平衡的結(jié)果。 如果溫度比較低的話, 最終網(wǎng)絡(luò)將會呈現(xiàn)一種整體一致的狀態(tài),因?yàn)檫@個時候系統(tǒng)總體能量最低。而溫度高的時候,系統(tǒng)更加趨于無序。 這種從有序到無序,無序到有序的變化在某個溫度上突然發(fā)生。 易辛模型解釋了大規(guī)模宏觀秩序是如何從自由散漫的群體中涌現(xiàn)的, 還真的被用在了生物神經(jīng)網(wǎng)路的研究上, 大名鼎鼎的Hopefield網(wǎng)絡(luò)的理論就是用這種機(jī)制解釋大量神經(jīng)元在一起如何通過微弱的相互作用來實(shí)現(xiàn)集體編碼和儲存一個信息的。在此處物理系統(tǒng)喜歡呆在能量極小點(diǎn)的原理忽然變成了神經(jīng)網(wǎng)絡(luò)進(jìn)行決策的物理基礎(chǔ)。 那個使得網(wǎng)絡(luò)總體能量最小的狀態(tài),對應(yīng)你做的決策。
從相變的角度看神經(jīng)網(wǎng)絡(luò), 我們可以理解很多我們常常百思不得其解的問題, 如我們是如何睡覺的。 從醒著到睡覺, 人腦會發(fā)生一個劇烈的變化, 這個變化其實(shí)跟物理里面水結(jié)冰的現(xiàn)象很像。 是從自由的狀態(tài), 到極為有序的狀態(tài)。 如果你觀察從醒著到睡著的腦電波變化,你會發(fā)現(xiàn)波形湊某一點(diǎn)上一下子變掉了,這過程與相變是多么相似。 睡眠,冥想,愛上一個人, 或許都可以看做這種大量神經(jīng)單元 在某種條件下從一個整體狀態(tài)跳到另一個整體狀態(tài)的相變。
多種多樣的腦電波反應(yīng)大腦的宏觀狀態(tài)
物理學(xué)角度對神經(jīng)網(wǎng)絡(luò)的貢獻(xiàn)當(dāng)然不止于相變和涌現(xiàn)性 , 更主要的貢獻(xiàn)是非線性動力學(xué)。非線性動力學(xué)的方程式甚至精準(zhǔn)的預(yù)測了神經(jīng)細(xì)胞放電這個極為復(fù)雜的理化過程, 這就是大名鼎鼎的Hodykin-Hulex 模型, 在這個模型中, 巨多繁瑣的實(shí)驗(yàn)現(xiàn)象被一組精心編排的微分方程同時消滅掉, 堪稱物理解釋生物的神跡。你如果在電腦上跑一些這個方程,得到的現(xiàn)象近乎和細(xì)胞真正放電時候不可區(qū)分。
Hodykin Huley model預(yù)測的神經(jīng)元放電動力學(xué)模型: 左圖是復(fù)雜的方程,右圖是神經(jīng)元放電電位隨時間的變化,我們可以看到這組復(fù)雜的方程把神經(jīng)元的離子通道變化進(jìn)行了精確的定量描述。
對于神經(jīng)網(wǎng)絡(luò)的動力學(xué)解釋主要基于物理的混沌理論。 因?yàn)樯窠?jīng)網(wǎng)絡(luò)作為一個高維系統(tǒng), 它的行為正好符合混沌的框架, 你去擾動任何一個神經(jīng)元, 則產(chǎn)生的后果不可預(yù)料, 符合南美洲的蝴蝶扇扇翅膀引來北美的颶風(fēng)這個比喻。 我們都知道生物的神經(jīng)網(wǎng)絡(luò)可以極為精準(zhǔn)而穩(wěn)定的決定動物的各種行為, 這樣一個混沌充滿隨機(jī)性,看似不可控的網(wǎng)絡(luò), 是如何給出那么精準(zhǔn)確定的行為的? 這就與物理里降維的思想暗自相通。高維度的網(wǎng)絡(luò)系統(tǒng)在某個任務(wù)的時候, 可以被化解到更低的維度里用動力學(xué)完全解釋,這個過程暗自通向人工智能的核心。
從生物角度看神經(jīng)網(wǎng)絡(luò)
生物學(xué)眼里的神經(jīng)網(wǎng)絡(luò)估計是最復(fù)雜的,生物學(xué)家注重細(xì)節(jié)和功能, 我們要理解網(wǎng)絡(luò),就要去解剖, 做電生理實(shí)驗(yàn), 做各種神經(jīng)成像。 首先我們關(guān)注神經(jīng)細(xì)胞之間的具體鏈接,然后我們關(guān)注這些連接實(shí)現(xiàn)的載體- 突觸的性質(zhì)。研究細(xì)胞之間通訊的關(guān)鍵,神經(jīng)遞質(zhì)。 神經(jīng)遞質(zhì)又是由一定的DNA編碼的,最后我們又回到了遺傳學(xué)。 跑完一圈我們得到感知, 到?jīng)Q策,從而心理現(xiàn)象的生物解釋。懂得吃哪一種藥可以讓你春心大作。
再次強(qiáng)調(diào)生物學(xué)家是特別重視細(xì)節(jié)的, 因?yàn)樯锷窠?jīng)網(wǎng)絡(luò)的研究思維也是一個一個搞清楚網(wǎng)絡(luò)的連接,搞清哪個細(xì)胞是輸入, 哪個是輸出。 來自這方面的觀點(diǎn)認(rèn)為, 如果我們能繪制一個神經(jīng)元之間聯(lián)系的精密地圖, 我們就搞清楚了大腦是怎么回事。 這種觀點(diǎn)又叫connectionsim。可惜的是這個工作太艱巨,目前離這個目標(biāo)還非常遙遠(yuǎn)。
生物對神經(jīng)網(wǎng)絡(luò)解釋最有意思的現(xiàn)象還是學(xué)習(xí),神經(jīng)細(xì)胞之間的連接-神經(jīng)突觸是隨時間不停變化,這種微妙的變化由神經(jīng)活動所致,一個細(xì)胞經(jīng)常和另一個細(xì)胞一起放電,他們的聯(lián)系就加強(qiáng),因而他們所代表的信息就聯(lián)系起來,這就是學(xué)習(xí)的基礎(chǔ)(Hebbian learning)。
生物學(xué)家的工作是整個學(xué)科的脊梁,尤其是有關(guān)神經(jīng)活動成像的工具。 沒有光遺傳這些生物技術(shù)的開發(fā), 人是無論如何可以直接看清大腦網(wǎng)絡(luò)里到底在干什么的。 還有鈣離子成像, 神經(jīng)白質(zhì)成像等, 沒有神經(jīng)生物學(xué)家日復(fù)一日的工作, 我們對神經(jīng)網(wǎng)絡(luò)的思考只能是一種YY, 而人工智能也難以有更長遠(yuǎn)的發(fā)展。
光遺傳, 即用光對神經(jīng)細(xì)胞的離子通道進(jìn)行有效控制而操縱神經(jīng)元的手段,是研究神經(jīng)網(wǎng)絡(luò)的神器之一
從信息角度看神經(jīng)網(wǎng)絡(luò)
從信息學(xué)的角度看, 神經(jīng)網(wǎng)絡(luò)這個東西就是整合各種信息的工具。 生物進(jìn)化出神經(jīng)網(wǎng)絡(luò), 是因?yàn)樗麄兯媾R的信息錯綜復(fù)雜, 而如何把不同的信息整合在一起, 判斷誰是獵物誰是天地什么時候該走什么時候該留, 事關(guān)生死。 那么整合信息, 就是第一要務(wù)。
信息學(xué)喜歡從貝葉斯分析的角度看神經(jīng)網(wǎng)絡(luò)。所謂貝葉斯分析, 就是把新增加的證據(jù)和之前形成的信念不停進(jìn)行綜合,來做當(dāng)下的決斷。要做這種綜合, 顯然一要能夠不停收集新的信息,二要儲存和調(diào)用之前信息,三要根據(jù)前兩者對未來做出預(yù)測并行動, 最后要能夠根據(jù)之前信息改變現(xiàn)有網(wǎng)絡(luò)的狀態(tài) , 這三種分別對應(yīng)感知,記憶,行為和學(xué)習(xí)。
感知信息要做到盡量精準(zhǔn)的反應(yīng)與決策相關(guān)的外界信號的特征,如在人海中抓取出一個美女。 處理信息在做的把之前的經(jīng)驗(yàn)和現(xiàn)在的信息結(jié)合在一起預(yù)測未來,如你知道根據(jù)以往的經(jīng)驗(yàn)美女難追, 但是這一次美女特別熱情所以你預(yù)測她和之前人不同。 最后根據(jù)這個預(yù)測進(jìn)行有效的行動,并根據(jù)反饋進(jìn)行學(xué)習(xí),比如還是失敗了或被騙了錢, 那就加固你的信仰-美女難追,如果成功了,就修改之前的信仰-美女也是可以追的。 這樣一個精美的框架不僅給生物神經(jīng)網(wǎng)絡(luò)的運(yùn)轉(zhuǎn)提供了天衣無縫的解釋,而且也與機(jī)器學(xué)習(xí)里的統(tǒng)計學(xué)習(xí)理論不謀而合 。 用這個框架我們可以很好的推測大腦是如何把所謂視覺聽覺嗅覺信號綜合在一起的,我們?yōu)槭裁匆伎家斫馐澜?,我們?yōu)槭裁醇汝P(guān)注過去也關(guān)注未來,一切都是為了形成一個更準(zhǔn)確的對世界的建模, 來預(yù)測, 預(yù)測,預(yù)測。
貝葉斯公式- 把新的證據(jù)和舊經(jīng)驗(yàn)結(jié)合的概率方法
作為AI基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)
AI這個東西, 的確是靠著神經(jīng)網(wǎng)絡(luò)的功力得以發(fā)展壯大, 不過它最初倒不是模擬神經(jīng)網(wǎng)絡(luò), 而是想要直接做出一臺會思維的機(jī)器, 可惜人類的思維畢竟有瓶頸。 我們發(fā)現(xiàn)還是要借助仿生,從生物那里吸取營養(yǎng), 于是有了人工神經(jīng)網(wǎng)絡(luò)。因此, 無論人工智能無論如何吹它和其他門類神經(jīng)網(wǎng)絡(luò)的不同, 都不可擺脫其仿生基礎(chǔ)。
人工神經(jīng)網(wǎng)絡(luò)的第一個里程碑是感知機(jī)perceptron, 這個名字其實(shí)有點(diǎn)誤導(dǎo), 因?yàn)樗旧鲜亲鰶Q策的。 一個感知機(jī)其實(shí)是對神經(jīng)元最基本概念的模擬 ,都未必有多少網(wǎng)絡(luò)概念,他就是一個自動做決策的機(jī)器。
比如說你要決定今天出不出去看電影, 你要考慮3個因素, 一個是女朋友在不在, 一個是電影好不好看, 另一個是今天有沒有工作, 這三個因素每個人的權(quán)重都不同,有的人看重女朋友, 有的人看重工作,所以權(quán)重就不等, 最后每個人根據(jù)自己的權(quán)重做出0或1,去或不去, to be or not to be的決策。那么你怎么做呢? 你把三個要素按照它們需要的權(quán)重加和在一起, 在把這個分?jǐn)?shù)送到一個叫sigmoid的門面前得到去或不去的決定, 工作原理如上圖。
比單層感知機(jī)更復(fù)雜的多層感知機(jī)-或者我們常說的深度網(wǎng)絡(luò), 是進(jìn)行數(shù)據(jù)處理和模式識別的利器。 深度神經(jīng)網(wǎng)絡(luò)之所以能夠處理這些數(shù)據(jù)類型,主要是因?yàn)檫@些數(shù)據(jù)本身具有的復(fù)雜結(jié)構(gòu)很適合被NN識別, 而人類不需要預(yù)先設(shè)計識別這些結(jié)構(gòu)的函數(shù)而是任由網(wǎng)絡(luò)學(xué)習(xí), D-CNN 深度卷積網(wǎng)絡(luò)能夠同時看到一個圖像從細(xì)節(jié)到抽象的結(jié)構(gòu),所以能夠抓住一些我們?nèi)祟惗颊f不出的細(xì)節(jié)。
DCNN 深度卷積網(wǎng)絡(luò),信號在多級網(wǎng)絡(luò)里一級級傳遞, 從而使得從微觀到宏觀的特征都得到分辨 。 每一層神經(jīng)元之間沒有相互連接。
而RNN- 反饋式神經(jīng)網(wǎng)絡(luò)(每一層神經(jīng)元之間有相互連接)則適合處理sequnce序列類的數(shù)據(jù), 發(fā)現(xiàn)序列內(nèi)部的時間結(jié)構(gòu)。
RNN 之所以具有這個能力,就是因?yàn)榫W(wǎng)絡(luò)內(nèi)部通過自反饋, 具有之前各個時間點(diǎn)的輸入信息, 因此它可以從無限久遠(yuǎn)的歷史里推測系統(tǒng)的未來,RNN與之前的卷積網(wǎng)絡(luò)相比最大的特點(diǎn)是它包含了動力學(xué)特性,如果說卷積網(wǎng)絡(luò)是任意函數(shù)逼近器,那么RNN就是任意程序逼近器。 猶如包含某種工作記憶。用一個比喻來說, 就是RNN猶如一個寬闊的池塘寧靜的水面, 當(dāng)你投入一個石子, 激起的漣漪會在水池里不停反射傳播, 這是對石頭進(jìn)入那一時刻信息的保存, 如果之后在落入一個石頭, 那么它再度激起的漣漪會和之前的水波疊加作用, 形成更復(fù)雜的相互作用和紋樣。
RNN示意圖, 同層神經(jīng)元之間有相互連接,從而使得歷史信息在網(wǎng)絡(luò)里向回聲一般交替?zhèn)鬟f
RNN 具有相互連接的反饋式神經(jīng)網(wǎng)絡(luò)也是最接近生物組織神經(jīng)網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò), 具有更多的未來潛力,只是它的訓(xùn)練比feed forward network更復(fù)雜。
人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就如同生物神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí), 都是一個不停試錯并減少錯誤的原理, 不過人工神經(jīng)網(wǎng)絡(luò)的方法更加簡單化, 比如gradient descent,就是說在參數(shù)空間里尋找使得錯誤減少最快的方法改進(jìn)。
人工神經(jīng)網(wǎng)絡(luò)對于生物神經(jīng)網(wǎng)絡(luò)的奇妙之處在于, 它反過來啟迪了生物神經(jīng)網(wǎng)絡(luò)是在干什么的, 就好像費(fèi)曼的那句話“ 你要想真正理解一個東西, 就造出一臺”。
不同領(lǐng)域的神經(jīng)網(wǎng)絡(luò)的交叉
神經(jīng)網(wǎng)絡(luò)這個東西是最能體現(xiàn)跨學(xué)科交叉的概念之一。既然自然界選擇這樣一種結(jié)構(gòu)作為生物決策和智能的必殺器, 必有其道理, 人類只模擬了十之一二,配以強(qiáng)大的計算機(jī)集群,就能夠產(chǎn)生阿法狗這樣的利器, 其未來潛能未曾可知。
其實(shí)各種角度的神經(jīng)網(wǎng)絡(luò),是互相交叉, 你中有我, 我中有你的。比如物理的神經(jīng)網(wǎng)絡(luò), 和信息論的神經(jīng)網(wǎng)絡(luò)有非常緊密的關(guān)系。 而它們都與生物神經(jīng)網(wǎng)絡(luò)和AI有千絲萬縷的聯(lián)系。AI里最近引入的注意力,記憶等算法, 也都能找到其生物學(xué)對應(yīng)。區(qū)別只是AI并不關(guān)注那些生物的限制, 而可以通過任意虐計算機(jī)在一些局部領(lǐng)域超越生物。
各個領(lǐng)域的神經(jīng)網(wǎng)絡(luò)都以“學(xué)習(xí)理論”為核心, 物理里叫做尋找能量最低的解, 生物里叫神經(jīng)可塑性, AI里叫深度學(xué)習(xí),其實(shí)都是把網(wǎng)絡(luò)理解成一個根據(jù)外界輸入不停調(diào)整的變化過程,不同學(xué)科對這過程的最終目的提出不同的解讀。
各個學(xué)科眼里的神經(jīng)網(wǎng)絡(luò)你中有我,我中有你的關(guān)系在AI里體現(xiàn)特別深刻。 比如, 目前的人工神經(jīng)網(wǎng)絡(luò)不僅加入了記憶, 還加入了注意力, 甚至加入了好奇心, 一個不懂AI的人很可能誤解為這是心理學(xué)研究, 而事實(shí)上, 心理學(xué)研究的人也可以從這些AI里得到啟迪。
回到那個深刻的問題, 神經(jīng)網(wǎng)絡(luò)為什么有作用? 單獨(dú)站在一個學(xué)科的角度絕不可能明白。 人工智能的人研究了半個世紀(jì), 最終回到類似生物網(wǎng)絡(luò)的結(jié)構(gòu), 忍受因此帶來的復(fù)雜度, 這背后必有其深刻的原因。 這個深刻的原因只能通過物理和復(fù)雜科學(xué)揭示。 為了一個簡單的任務(wù),生物進(jìn)化出那個復(fù)雜的網(wǎng)絡(luò),為什么? 這就與生物要適應(yīng)多種而非一種復(fù)雜的環(huán)境有關(guān), 或者說適應(yīng)性, 或者說魯棒性, 一個沒有適應(yīng)性的生物是沒有前途的。 同理,一個沒有類似生物的適應(yīng)性和魯棒性的AI也走不了多遠(yuǎn)。 神經(jīng)網(wǎng)絡(luò)的功用正是由于它引入了生物復(fù)雜系統(tǒng)的基本原理, 雖然只是冰山一角。
也正如前文不斷提到的, 從各個角度對神經(jīng)網(wǎng)絡(luò)理解的突破, 會很好的促進(jìn)其他領(lǐng)域的理解。現(xiàn)在人們對AI的熱情容易讓人忽略了其他幾個角度, 而單純把神經(jīng)網(wǎng)絡(luò)變成一場集體調(diào)參數(shù)的盛宴, 則對整個領(lǐng)域來說是某種損失, 減少了許多發(fā)展的可能性。
結(jié)尾放一則廣告:
鐵哥正在和一個因特爾出來的神經(jīng)網(wǎng)絡(luò)高手合作一個RNN的項(xiàng)目, 訓(xùn)練一個生成語言的RNN模型,并利用鐵哥導(dǎo)師的核心技術(shù)高維數(shù)據(jù)分析與非線性動力學(xué)理解網(wǎng)絡(luò)處理語言的機(jī)制。 最后還會在這個網(wǎng)絡(luò)里嵌套一個仿生物動態(tài)神經(jīng)細(xì)胞連接的模型, 看這樣的網(wǎng)絡(luò)是否具有類似大腦工作記憶的功能從而可以更靈活的處理信息,以及是否在自然語言理解上具有優(yōu)勢。 希望有興趣的同學(xué)與我聯(lián)系視情況加入項(xiàng)目,從中學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和高維數(shù)據(jù)分析的核心技術(shù)。 不過需要有一定基礎(chǔ)哦。
聯(lián)系客服