迁移学习比赛:OpenAI喊你玩怀旧跑酷游戏「索尼克」

迁移学习比赛:OpenAI喊你玩怀旧跑酷游戏「索尼克」

首页动作格斗地铁刺猬跑酷更新时间:2024-11-20

Root 编译自 OpenAI

量子位 出品 | 公众号 QbitAI

一直以来,在典型的强化学习研究里,常拿怀旧小游戏训练算法。

可算法的训练和测试环境都是同一个,这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。

为了解决这个问题,OpenAI办了一个迁移学习的比赛,让大家训练出的AI智能体去玩世嘉经典「音速小子索尼克」,看哪个智能体能在从没见过的关卡里获得最佳的表现。

OpenAI会给你一个训练集,是一系列刺猬索尼克的关卡。然后用特定为这次比赛制作的测试集来评估你的算法。

这个比赛从4月5号开始,到6月5号截止,为期两个月。

比赛用的数据集Gym Retro,是一个整合经典电动游戏到Gym的全新平台,目前已包含30个世嘉创世的游戏。

为了方便大家上手,OpenAI放出了Retro的基线表现,这样大家就能get到怎么用强化算法去跑这些比赛的任务了。

Retro比赛测试集的基线结果显示,即使用了迁移学习,强化学习算法的表现依然比人类水平差很远。红色那根水平虚线是人类玩家的表现,这还是人类玩了一小时的结果,而算法已经玩了18个小时。

在训练的时候,你可以用任何环境和数据集。但测试期间只有18个小时(100万时步)去过每个没见过的关卡。听起来,18个小时过一关很长,但对现在比人类玩家弱鸡的强化学习模型来说,这个训练时间捉襟见肘。

音速小子索尼克

为了把基准表现描述得更具体些,以及提供一些基线结果,OpenAI给出了一份技术报告:Gotta Learn Fast:A New Benchmark for Generalization in RL。

地址:https://storage.googleapis.com/agi-data/blog/gym-retro/contest-tech-report.pdf

从这份报告里除了能看到基准表现,还可以看到跑彩虹DQN,PRO和简单随机猜测算法JERK的结果。

JERK的表现代表了专门为刺猬索尼克作出优化尝试而采取的一系列随机行为,随着训练时间增长,索尼克会更频繁地使用那些能拿高分的行为。

同时,OpenAI也发现,通过训练时获得的经验可以显著提高PRO在测试中的表现。

尤其是在训练阶段有预训练网络以及测试阶段有精细地微调的话,它的表现能翻番,甚至比最强的基线结果还要好。

虽然这并不是首个把迁移学习成功用在强化学习的例子,但是能看到迁移学习能有那么厉害和稳定的作用也是很让人亦可赛艇的事儿。

要算法达到人类的表现,还有很长的一段路要走。

像上面提到的,人类玩家只要训练两个小时,测试时玩个一小时所拿到的分数都远远高于用了迁移学习的强化学习算法。

Gym Retro的Beta版

OpenAI放出的Gym Retro是一个打包了一堆经典的电子游戏的系统,给强化学习模型提供一个环境。最初放出的这一版里有从世嘉创世Steam的老游戏大包里挑出的30个游戏,还有雅达利2600里Arcade Learning Environment里的62个游戏。

近五年来,Arcade Learning Environment是强化学习研究的主要驱动力。它是一个强化学习和雅达利2600的交互界面集合。这些雅达利的游戏,相比于之前强化学习的基准来说,要更复杂多变,也是之前设计来挑战人类玩家的运动控制技能和解决问题的能力。

Gym Retro的Beta版采用了比雅达利更先进的控制台,拓展了适合强化学习研究的游戏的数量和复杂度。世嘉创世里的游戏很多关在很多维度上都类似,比方是物理层面,物体的外观等等,而在材质上不同。

对迁移学习来说,这就是非常理想的测试环境了。它还有一点比雅达利游戏要好的是,能够用上更好的创世里的硬件,比方说,内存容量是雅达利的500倍,可以获得更大范围的控制输入,以及支持更好的画面。

Gym Retro系统是受到怀旧学习环境的启发,不过会更加复杂。比方说,如果你想更细致地定义环境,可以不再用C 了,用JSON文件就能搞定。这对新游戏整合来说更容易了。

Gym Retro是OpenAI团队第二次尝试搭建大型的强化学习环境数据集。其中一些理念出自于2016年下半年的Universe,不过因为Universe环境的运行不是同步,而是实时的,所以OpenAI团队无法取到满意的结果。

Universe简介:https://blog.openai.com/universe

Gym Retro就拓展了Arcade Learning Environment的模型,使其适配更多的游戏。

Gym Retro系统GitHub地址:https://github.com/openai/retro#gym-retro

有些时候,算法也很鸡贼。像经PRO训练的策略就发现索尼克不断往右挪就能直接穿墙,这样可以获得更高的分数。

这就是一个典型的,奖赏机制是怎么导致AI智能体做出些奇奇怪怪的行为例子。

BTW,测试集一共有两个,一个是能影响比赛进行过程中的排行榜,另外一个是只用于最后排名的。另外,OpenAI建议参赛者采用分开的训练集、测试集的默认关卡,大家可以从技术报告中看到所有的训练测试结果以及学习曲线。

参赛规则

训练你码好的AI智能体去玩刺猬索尼克,然后向OpenAI提交你的成果(用Docker容器)。然后OpenAI会用上述的神秘测试集去测你AI的表现,你将会在排行榜上看到你AI的分数。整个过程看下图。

最后,附比赛报名地址:

https://contest.openai.com/

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved