强化栗 发自 凹非寺
量子位 报道 | 公众号 QbitAI
《我的世界》,也要变成AI的世界了。
顶会NeurIPS 2019,为普天之下的强化学习AI,举办了一场Minecraft大赛,并广邀各路英豪参赛。
赛会名曰MineRL,任务就是挖钻石。
组委会还说,这是为科学之崛起而挖钻 (Play to Benefit Science) 。
带着你家的AI来参加吧,这里有丰盛的数据集吃:来自人类玩家的6,000万帧实况。
成绩优异的选手,可能获得赞助商英伟达爸爸提供的GPU,还有许多没公布的神秘奖励。
你的钻石,不,是我的钻石AI想要挖到钻石,并不简单:历经八个步骤,每一步都要自行探索。
△ 第一步 & 第二步
第一步,收集木材。
第二步,用收来的木料造一只木镐。
△ 第三步 & 第四步
第三步,拿着木镐去挖石矿,然后造一只石镐。
第四步,用新的石镐挖铁矿。
走到这里,就没有上面那样容易了。铁镐并不是挖来铁就能造的:
△ 第五步 & 第六步
第五步,打一个炉子。
第六步,把铁熔了造个铁镐。有了铁镐,才挖得动钻石。
△ 第七步 & 第八步
第七步,找钻石。并不容易,AI要慢慢摸索,才知道钻石常常出没的地方。
第八步,挖挖挖挖挖钻石。任务完结。
问题是,强化学习AI的学习效率很低,要找到各种步骤只间的逻辑关系,可能要打上几百万/几千万局比赛。
俗话说,人间一天,AI两百年;可AI又不止训练一天,可能几星期,可能几个月。
而现在,NeurIPS组委会想要寻找能够高效训练的强化学习AI。
在奖励非常稀疏的游戏环境里,效率更加难得。所以选定了《我的世界》作为赛场。
比赛规定,每位选手只能训练4天。时限一到,便要上场比试。
所以,数据集一定要提供充足的营养,模型才能跑出优秀的成绩:
6,000万帧,对症下药比赛数据集叫做MineRL-v0。就像开头提到的那样,这里有6,000万帧数据,全部来自人类玩家。
四大类
数据分四类,各自针对《我的世界里》不同的任务。
一是导航,各种任务的基础。分为两类,一类是正常导航,另一类是极端的山丘导航,需要跨越崎岖地形的那一种。数据长这样:
二是砍树,木材是许多任务都需要的原材料。
智能体从森林出发,拿着一把铁斧去砍树。砍倒一棵,奖励值就 1,直到砍倒64棵,一个Episode就结束了。
三是捡装备,这个部分比较复杂。物品种类丰富,而有些并不能直接获取,比如钻石,就要用上面的方法才能挖来,一步一步更新自己的工具。
四是生存,这里并没有具体的任务,没有已知的奖励,但AI要活下去。也就是最终比赛时的游戏模式。
玩家从随机的地点出生,然后自己确定高级目标,再解锁各种工具来达成这些目标。所以,要依靠更丰满的数据:
各种技能修炼完成,就可以加入比赛了。
赛程分两轮
第一轮是海选,大家把自己训练好的模型传上排行榜。最多上传20次。
然后,主办方筛选出排名靠前的模型,让选手提交源代码,在官方设备上统一训练4天,排行榜前10名进入决赛,还能获得赞助商爸爸微软提供的Azure额度。
第二轮是决赛,选手上传源代码,依然是官方统一训练4天。最多上传4次,取最好成绩。
至于奖励,除了英伟达会提供三台GPU之外,最终方案还没有完全公布。
不过,所有决赛选手都会获得前往NeurIPS的旅行补助。没进决赛的选手,也有机会获得补助。
决赛前两名,还会在NeurIPS的Workshop上介绍自己的方法。
你也来参加吧比赛6月1日开启,那是一个充满生机的日子。
详情页在此:
minerl.io/
报名请从这里前往,点击“Participate”:
https://www.aicrowd.com/challenges/neurips-2019-minerl-competition
数据集论文在此:
https://arxiv.org/abs/1904.10079
如果想帮AI丰富数据集,身为人类的你也可以来玩一下:
http://minerl.io/play/
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved