來自德國弗萊堡大學的研究團隊,最近有了一個好玩的發(fā)現(xiàn)。
AI又在打游戲時掌握了新技能。
這個游戲是雅達利平臺上的經(jīng)典游戲Qbert:一個偽3D游戲,玩家需要控制角色(橙色章魚)在立方體金字塔中跳躍,每成功一次,立方體就會變色。全部變色之后,就會進入下一關(guān)。而在這個過程中,需要躲避開障礙物和敵人。
研究團隊開發(fā)的AI智能體(agent)玩這個游戲時,開始還是普通玩法,按照規(guī)則累積積分。然后,智能體突然對過關(guān)失去興趣。
相反,智能體開始“釣魚”:站住不動,吸引敵人(紫色小球)來到身邊,然后智能體操縱角色跳到敵人頭上。這是一種殺敵的方法,也是自殺的方法。但是主動殺敵之后,能夠產(chǎn)生足夠多的分數(shù)來獲得額外的生命獎勵。
于是智能體開始一遍遍的重復(fù)這種向死而生的手法,如上圖所示。
不止如此。
AI智能體還發(fā)現(xiàn)了一個Bug。在完成第一關(guān)之后,智能體操縱角色從一個立方體跳到另一個立方體,這似乎是一種隨機的跳躍。但由于某種人類不了解的原因,游戲沒有進入下一關(guān),整個立方體金字塔開始閃爍。
然后智能體平白無故開始獲得大量積分。如下圖所示。
同樣有意思的是,智能體也不是每次都能利用好這個bug。嗯,不是每次都能成。
當然還有其他的好玩的事兒,暫時按下不表。
當然,搞研究不是為了好玩。
弗萊堡大學的這個研究,主要關(guān)注的是進化策略(ES)。而且是一種非常基本的進化策略算法,沒用鏡像采樣,沒有衰減參數(shù),沒有任何高級優(yōu)化。
在研究實驗中,基于OpenAI Gym評估了八個雅達利游戲中的性能表現(xiàn),這些游戲難度等級不同,簡單的如Pong(乒乓)和Breakout(打磚塊),復(fù)雜的如Qbert、Alien。此前,強化學習也都是在這些游戲上取得驚人的進展。
這個基于ES算法的AI,網(wǎng)絡(luò)結(jié)構(gòu)與原始DQN相同。變化之處,是把激活函數(shù)從ReLU變成了ELU,并增加了批量標準化層。
詳細的研究過程,可以參考如下論文:Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari
https://arxiv.org/abs/1802.08842
總之,研究團隊得出結(jié)論:即便是非常基礎(chǔ)的規(guī)范ES算法,也能實現(xiàn)和強化學習相同甚至更好的性能。
而且他們還定性地證明了,ES算法與傳統(tǒng)的強化學習算法相比,也有非常不同的性能特征。在某些游戲中,ES算法能更好的學會探索環(huán)境,并能更好的執(zhí)行任務(wù)。
當然在另外的一些游戲中,ES算法有可能陷入次優(yōu)局部最小值。
研究團隊表示,如果能把ES算法與傳統(tǒng)強化學習算法結(jié)合,可能會出現(xiàn)強強聯(lián)手的局面,并推動現(xiàn)有人工智能相關(guān)技術(shù)的新進展。
基于ES算法搭建的AI智能體,在上述幾個游戲中的表現(xiàn),可以在下面這個視頻中感受一下,除了開頭提到的一些案例,期間也有其他有趣的游戲策略出現(xiàn)。
附一個劇透:0:00 Alien,0:29 BeamRider,2:30 Breakout,3:15 Enduro,4:44 Pong,5:38,Qbert exploit,6:12 Qbert bug,6:47 Seaquest,8:36 SpaceInvaders。
這次弗萊堡大學的研究,基于OpenAI此前發(fā)布的ES算法。當然,弗萊堡大學公布的成績表明,他們的AI玩游戲更勝一籌。并且用了一張表進行了詳細的對比。
他們把相關(guān)代碼也公布在了GitHub上,地址如下:https://github.com/PatrykChrabaszcz/Canonical_ES_Atari
進化策略(ES)是一種已經(jīng)發(fā)展了數(shù)十年的優(yōu)化技術(shù),去年OpenAI發(fā)表論文Evolution Strategies as a Scalable Alternative to Reinforcement Learning中指出,ES算法可以與強化學習方法媲美,耗時更少而且代碼簡單。
對這個理論感興趣的同學,閱讀論文請前往:https://arxiv.org/abs/1703.03864,以及GitHub地址在此:https://github.com/openai/evolution-strategies-starter 。
不過,當時這個理論遭遇Yann LeCun的正面硬剛。
大意是說:
1、基于梯度的優(yōu)化,遠比黑箱優(yōu)化更有效率
2、黑箱優(yōu)化應(yīng)該是最后的辦法,無法基于梯度優(yōu)化時才用
3、對于知道強化學習和黑箱優(yōu)化的人來說,OpenAI這篇東西沒什么用
聯(lián)系客服