“向死而生”

這個游戲是雅達利平臺上的經(jīng)典游戲Qbert：一個偽3D游戲，玩家需要控制角色（橙色章魚）在立方體金字塔中跳躍，每成功一次，立方體就會變色。全部變色之后，就會進入下一關(guān)。而在這個過程中，需要躲避開障礙物和敵人。

研究團隊開發(fā)的AI智能體（agent）玩這個游戲時，開始還是普通玩法，按照規(guī)則累積積分。然后，智能體突然對過關(guān)失去興趣。

相反，智能體開始“釣魚”：站住不動，吸引敵人（紫色小球）來到身邊，然后智能體操縱角色跳到敵人頭上。這是一種殺敵的方法，也是自殺的方法。但是主動殺敵之后，能夠產(chǎn)生足夠多的分數(shù)來獲得額外的生命獎勵。

于是智能體開始一遍遍的重復(fù)這種向死而生的手法，如上圖所示。

不止如此。

AI智能體還發(fā)現(xiàn)了一個Bug。在完成第一關(guān)之后，智能體操縱角色從一個立方體跳到另一個立方體，這似乎是一種隨機的跳躍。但由于某種人類不了解的原因，游戲沒有進入下一關(guān)，整個立方體金字塔開始閃爍。

然后智能體平白無故開始獲得大量積分。如下圖所示。

同樣有意思的是，智能體也不是每次都能利用好這個bug。嗯，不是每次都能成。

當然還有其他的好玩的事兒，暫時按下不表。

不虛強化學習

當然，搞研究不是為了好玩。

弗萊堡大學的這個研究，主要關(guān)注的是進化策略（ES）。而且是一種非常基本的進化策略算法，沒用鏡像采樣，沒有衰減參數(shù)，沒有任何高級優(yōu)化。

在研究實驗中，基于OpenAI Gym評估了八個雅達利游戲中的性能表現(xiàn)，這些游戲難度等級不同，簡單的如Pong（乒乓）和Breakout（打磚塊），復(fù)雜的如Qbert、Alien。此前，強化學習也都是在這些游戲上取得驚人的進展。

這個基于ES算法的AI，網(wǎng)絡(luò)結(jié)構(gòu)與原始DQN相同。變化之處，是把激活函數(shù)從ReLU變成了ELU，并增加了批量標準化層。

詳細的研究過程，可以參考如下論文：Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari

https://arxiv.org/abs/1802.08842

總之，研究團隊得出結(jié)論：即便是非常基礎(chǔ)的規(guī)范ES算法，也能實現(xiàn)和強化學習相同甚至更好的性能。

而且他們還定性地證明了，ES算法與傳統(tǒng)的強化學習算法相比，也有非常不同的性能特征。在某些游戲中，ES算法能更好的學會探索環(huán)境，并能更好的執(zhí)行任務(wù)。

當然在另外的一些游戲中，ES算法有可能陷入次優(yōu)局部最小值。

研究團隊表示，如果能把ES算法與傳統(tǒng)強化學習算法結(jié)合，可能會出現(xiàn)強強聯(lián)手的局面，并推動現(xiàn)有人工智能相關(guān)技術(shù)的新進展。

基于ES算法搭建的AI智能體，在上述幾個游戲中的表現(xiàn)，可以在下面這個視頻中感受一下，除了開頭提到的一些案例，期間也有其他有趣的游戲策略出現(xiàn)。

附一個劇透：0:00 Alien，0:29 BeamRider，2:30 Breakout，3:15 Enduro，4:44 Pong，5:38，Qbert exploit，6:12 Qbert bug，6:47 Seaquest，8:36 SpaceInvaders。

曾被LeCun硬懟

這次弗萊堡大學的研究，基于OpenAI此前發(fā)布的ES算法。當然，弗萊堡大學公布的成績表明，他們的AI玩游戲更勝一籌。并且用了一張表進行了詳細的對比。

他們把相關(guān)代碼也公布在了GitHub上，地址如下：https://github.com/PatrykChrabaszcz/Canonical_ES_Atari

進化策略（ES）是一種已經(jīng)發(fā)展了數(shù)十年的優(yōu)化技術(shù)，去年OpenAI發(fā)表論文Evolution Strategies as a Scalable Alternative to Reinforcement Learning中指出，ES算法可以與強化學習方法媲美，耗時更少而且代碼簡單。

對這個理論感興趣的同學，閱讀論文請前往：https://arxiv.org/abs/1703.03864，以及GitHub地址在此：https://github.com/openai/evolution-strategies-starter 。

不過，當時這個理論遭遇Yann LeCun的正面硬剛。

大意是說：

1、基于梯度的優(yōu)化，遠比黑箱優(yōu)化更有效率

2、黑箱優(yōu)化應(yīng)該是最后的辦法，無法基于梯度優(yōu)化時才用

3、對于知道強化學習和黑箱優(yōu)化的人來說，OpenAI這篇東西沒什么用

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

谷歌、OpenAI 做了一個“魔性AI顯微鏡”，打算撬開人工智能黑箱

OpenAI機器手自學解魔方，下一步要實現(xiàn)「自主機器人」

Dota2“人機大戰(zhàn)”吊打人類玩家，成精的機械手到底有何“獨門絕技”?

通過游戲讓 AI 更智能，科技巨頭為什么都在這么做？

這個小AI后來學會了一些奇技淫巧，我們看到以后就第二次地崩潰了 | 吳翼一席第811位講者

DeepMind 擬通過游戲來訓練AI

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

“向死而生”

不虛強化學習

曾被LeCun硬懟