关注AI算法的朋友对 OpenAI一定不会陌生,这是由伊隆·马斯克(Elon Musk)发起的,由诸多硅谷大亨联合建立的人工智能非营利组织。今年6月份,OpenAI Five曾击败DOTA2业余人类玩家,达到4000分水平,轰动游戏圈和AI圈,连比尔·盖茨都忍不住发推特点赞,称之为“里程碑事件”。Metamind高级研究科学家Stephen Merity在OpenAI Five的研究发布当天,连发数条twitter,高度评价了这项成果。
Smerity本身是一名DOTA的深度玩家,他从WC3时代开始并且已经打了830小时的DOTA2,他认为这一影响远远超出了DOTA本身。
北京时间昨日凌晨,OpenAI Five又以 2:1 的战绩击败了准职业玩家,以爆表的执行力轻松击败7000分大神组成的队伍。在最后一局中,人类玩家用神器的BP才挽回一局。目前OpenAI Five的水平至少是6600以上。
想看比赛的盆友可以复制粘贴下面链接到网页里
https://m.twitch.tv/videos/293517383
与围棋和国际象棋等回合制的游戏模式不同,Dota2更需要大量的实时决策以及队友之间的默契合作。在AlphaGo与柯洁那场围棋之战中,人工智能在运筹帷幄的时候也总有几分钟的思考时间。但如果谁在Dota2中深思片刻,那么很有可能被对手gank。OpenAI表示,游戏的平均运行时间为每秒30帧,也就是说,在平均45分钟的游戏中会产生大约80000帧,而AI大约分析了其中的四分之一。
纽约大学人工智能教授Julian Togelius表示:游戏对于人工智能来说是一个很好的学习途径,因为它们模拟现实世界,还带有任务目标。但这种方法的缺陷在于,机器人学习做什么完全取决于奖励。算法对游戏的工作原理完全没有概念,因此,如果游戏中存在漏洞或故障,机器人还是只会做最简单的、会给它奖励的事情。
值得一提的是,OpenAI打Dota2这种超高效的训练模式不仅能运用在虚拟 AI 模型上,还可以应用于物理机器人上型,比如教导如何移动机械手。
最近,OpenAI向我们展示了一项新的研究成果:让ShadowDexterous机械手可以像人手一样抓取和操纵物体。虽然这种仿真造型的手掌我们已经见过很多了,但是如何让它像人类一样高效地控制物体一直都是机器人控制领域的老大难问题,能让“手指”能够如此逼真灵活,还是头一次!
这套名为 Dactyl 的机械手系统能够按照指令要求,轻松完成转动立方体的动作,而且这种包含各种技巧的指尖操作。科研人员表示,经过完整训练的Dactyl能连续旋转立方体而不掉落的次数达50次,还能够自然地应对并握住不同形状的物体。此外,在训练机器手旋转立方体的过程中,Dactyl甚至学会了与人类相似的行为,尽管科研人员没有给Dactyl下达任何指示,只是让它在相当于几十年的时间里反复试错。
Dactyl之所以能够实现这么高效的运作,依赖于Open AI使用的强化学习算法。对于真实存在的物理机器人来说,研究人员往往要耗费大量的现实时间对其进行指导练习。但 OpenAI 现在的做法,则是完全在虚拟环境中对 AI 机器人进行训练,然后再把 AI 应用在实体机器人身上。他们还会在训练的过程中增加大量的动态随机事件,让 AI 在这个过程中自己领悟出完成任务的诀窍。
OpenAI的训练技巧具体来说是「任务随机化」(domain randomization),它并不追求建模的最佳拟真化,而是在充满了丰富的变化的环境中学习到各种知识和经验。这样的做法兼备了模拟器和真实环境学习两种做法的优点:在模拟器环境中学习,可以让模拟器运行速度高于真实世界速度,快速积累经验;同时它也可以在模拟器只能近似建模的任务中得到更好的表现。
研究人员首先会教导机械手臂按照指令,将六面立方体中的正确颜色翻转出来,然后会改变机械手周围环境的灯光和噪声,以及六面体的颜色、重量、纹理和摩擦力等;甚至还会改变训练过程中的重力环境因素。
(在模拟器环境中训练出的策略可以直接成功地操控真实世界中的物体)
由于系统最初并不具备任何方块抓取概念或者操纵方法认知。因此,必须从零开始总结经验,包括手指旋转、多指协调、配合重力条件的力量控制与调整等。该系统整合了人类在进行手动操作时使用的所有技术,并对其做出了一系列细小且有趣的修改,比如对于精确抓取,其策略倾向于使用小指而非食指或中指。这可能是因为与食指、中指以及无名指相比,ShadowDexterous机械手的小指具有额外的自由活动空间,因此更加灵巧。
整个Dactyl系统的伟大之处在于它运动的自然性,以及它是通过机器反复试验而独立完成的,与任何特定的形状或物体类型无关。这种虚拟环境的训练模式还有一个好处,就是不会耗费现实世界的时间。目前 Dactyl 已经积累了大约 100 年的训练经验,尝试用无数种方法来控制立方体的转动,但实际上这个过程只相当于我们现实世界中的50个小时而已。
OpenAI表示将继续努力,帮助机器人实现更复杂的行为能力。从长远角度来看,他们希望为机器人提供一般性的操控能力,以便它们通过把玩附近的物体理解周遭环境。同时,他们认为,智能的基础在于与现实世界的互动,为了完成构建安全人工智能的使命,必须能够从现实世界的感官体验与模拟数据当中汲取经验,从而完成学习目标。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved