(圖片來(lái)自網(wǎng)絡(luò))
近期,一個(gè)“Master”賬號(hào)先后出現(xiàn)在弈城、野狐兩個(gè)網(wǎng)站,橫掃世界一流圍棋高手,其中包括棋圣聶衛(wèi)平、曾經(jīng)吊打過(guò)李世石的柯潔及世界圍棋八冠王古力。最后Master被證實(shí)為AlphaGo,并且是一個(gè)更強(qiáng)大、升級(jí)版的AlphaGo。
有兩個(gè)事實(shí)著實(shí)微妙:
一是Master唯一的一場(chǎng)和局,是因?yàn)閷?duì)手掉線,為什么不是Master?
一是人類非常無(wú)奈地意識(shí)到李世石在2016年3月贏下AlphaGo的一局,居然是人類贏下AI的最后一局。
一開(kāi)始棋手們?yōu)樽饑?yán)甚至為人類而戰(zhàn),而后不過(guò)短短幾天,在強(qiáng)大的事實(shí)面前,我們開(kāi)始接受,并思考如何通過(guò)與AlphaGo合作去解決更復(fù)雜的現(xiàn)實(shí)問(wèn)題。正如谷歌董事長(zhǎng)施密特所說(shuō)無(wú)論輸贏,都是人類的勝利。
AlphaGo本體
AlphaGo由谷歌旗下DeepMind公司的戴米斯·哈薩比斯、大衛(wèi)·席爾瓦、黃士杰和與他們的團(tuán)隊(duì)開(kāi)發(fā)。其主要工作原理是“深度學(xué)習(xí)”?!?span>深度學(xué)習(xí)”是指多層的人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法。
AlphaGo通過(guò)兩個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來(lái)改進(jìn)下棋。
這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識(shí)別圖片在結(jié)構(gòu)上是相似的。
它們從多層啟發(fā)式二維過(guò)濾器開(kāi)始,去處理圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。
經(jīng)過(guò)過(guò)濾,13 個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對(duì)它們看到的局面判斷。
這些層能夠做分類和邏輯推理。能通過(guò)反復(fù)訓(xùn)練來(lái)檢查結(jié)果,再去校對(duì)調(diào)整參數(shù),讓下次更好。這個(gè)處理器有大量的隨機(jī)性元素,所以人們是不可能精確知道網(wǎng)絡(luò)是如何“思考”的。
對(duì)人工智能來(lái)說(shuō),圍棋游戲的難度在于,決策空間實(shí)在太大。決策(Decision Making)是人工智能的關(guān)鍵要素,使得機(jī)器能夠在人類的世界中發(fā)揮作用。
人工智能的關(guān)鍵就是在決策空間中搜索達(dá)到最大效益的路徑,最終體現(xiàn)在當(dāng)前決策中。圍棋棋盤上棋子可能的組合方式的數(shù)量就有10的170次方之多,超過(guò)宇宙原子總數(shù)。在近乎無(wú)窮的決策空間中,去暴力搜索出當(dāng)前棋盤的下一步最優(yōu)定子是絕對(duì)不可能的事情。
2006年一種叫做蒙特卡洛樹(shù)的搜索法被發(fā)明,它使用概率模擬方法(類似模擬投擲骰子)只需要判斷終盤勝負(fù),彌補(bǔ)了圍棋不能設(shè)定確定走法函數(shù)的缺陷。AlphaGo正是拋棄了暴力搜索,使用了蒙特卡洛樹(shù)方法。
AlphaGo決策程序如下:
1. 走棋網(wǎng)絡(luò):給定當(dāng)前局面,預(yù)測(cè)/采樣下一步的走棋。
2. 快速走子:目標(biāo)和1一樣,但在適當(dāng)犧牲走棋質(zhì)量的條件下,速度要比1快1000倍。
3. 估值網(wǎng)絡(luò):給定當(dāng)前局面,估計(jì)是白勝還是黑勝。
4. 蒙特卡羅樹(shù)搜索:把以上這三個(gè)部分連起來(lái),形成一個(gè)完整的系統(tǒng)。
AlphaGo背后的人類
AlphaGo的主要?jiǎng)?chuàng)造者是兩個(gè)英國(guó)人,大衛(wèi)·席爾瓦(David Silver)和戴米斯·哈薩比斯(Demis Hassabis),他們是劍橋同學(xué),專業(yè)都是計(jì)算神經(jīng)科學(xué)。1998年畢業(yè)后,兩人合開(kāi)了一家電子游戲公司。
哈薩比斯經(jīng)常和一名同事下圍棋,席爾瓦在他的影響下也開(kāi)始自學(xué)圍棋。他們還加入了當(dāng)?shù)貒寰銟?lè)部,和二三段棋手對(duì)弈,這是圍棋中非常低的水平,兩個(gè)高智商的家伙并不滿足于此。他們?nèi)滩蛔∷伎?,為什?span>電腦可以打敗西洋跳棋、國(guó)際象棋的選手,卻從未破解圍棋。
2010年,哈薩比斯在倫敦成立了一個(gè)名為DeepMind的人工智能公司,席爾瓦隨后而來(lái),在這里他們開(kāi)始了真正的人工智能之旅。這家公司之后被谷歌收購(gòu),這也解決了他們的資金問(wèn)題。
在倫敦國(guó)王十字車站附近的DeepMind辦公室中,AlphaGo的設(shè)計(jì)團(tuán)隊(duì)逐步形成。
團(tuán)隊(duì)概況見(jiàn)下:
戴米斯·哈薩比斯,人工智能企業(yè)家,DeepMindTechnologies公司創(chuàng)始人。4歲開(kāi)始下國(guó)際象棋,8歲自學(xué)編程,13歲獲得國(guó)際象棋大師稱號(hào)。17歲進(jìn)入劍橋大學(xué)攻讀計(jì)算機(jī)科學(xué)專業(yè)。在大學(xué)里,他開(kāi)始學(xué)習(xí)圍棋。2005年進(jìn)入倫敦大學(xué)學(xué)院攻讀神經(jīng)科學(xué)博士,選擇大腦中的海馬體作為研究對(duì)象。兩年后,他證明了5位因?yàn)楹qR體受傷而患上健忘癥的病人,在暢想未來(lái)時(shí)也會(huì)面臨障礙,并憑這項(xiàng)研究入選《科學(xué)》雜志的“年度突破獎(jiǎng)”。2011年創(chuàng)辦DeepMind Technologies公司,以“解決智能”為公司的終極目標(biāo)。
大衛(wèi)·席爾瓦 (David Silver),劍橋大學(xué)計(jì)算機(jī)科學(xué)學(xué)士、碩士,加拿大阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)博士,倫敦大學(xué)學(xué)院講師,Google DeepMind研究員。
黃士杰(Aja Huang),臺(tái)灣交通大學(xué)計(jì)算機(jī)科學(xué)學(xué)士,臺(tái)灣師范大學(xué)計(jì)算機(jī)科學(xué)碩士和博士,加拿大阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)博士后,Google DeepMind研究員。
除上述人員之外,阿爾法圍棋設(shè)計(jì)團(tuán)隊(duì)核心人員還有DeepMind Technologies公司聯(lián)合創(chuàng)始人施恩·萊格(Shane Legg)和穆斯塔法·蘇萊曼(Mustafa Suleyman)等。
科技推動(dòng)人類進(jìn)步,同樣科技也是把雙刃劍。AlphaGo已來(lái),AI正以超出認(rèn)知的姿態(tài)強(qiáng)勢(shì)介入,盡管恐慌難避,我們?nèi)砸f(shuō)聲:Hello,AlphaGo。
以上內(nèi)容綜合自百科、Vista看天下、新浪財(cái)經(jīng)等。
上大咖說(shuō),約見(jiàn)AI大咖,走起!
--END--
大咖說(shuō)是一個(gè)基于共享經(jīng)濟(jì)模式,連接公司和專家的新型顧問(wèn)平臺(tái),致力于構(gòu)建中國(guó)頂級(jí)的行業(yè)專家?guī)?。原則上,專家入駐標(biāo)準(zhǔn)是35歲以上、從業(yè)經(jīng)驗(yàn)超過(guò)十年、公司職務(wù)VP(副總裁)以上,歡迎符合條件的您申請(qǐng)加入。
聯(lián)系客服