文:薄荷
记得小时候,我的一个亲戚抱养了一只小土狗,小家伙很可爱,但可能也是由于一出生就被人抱走的原因,它有些不太规矩,额……具体来说,就是在家里随地大小便。
面对这种情况,我那个并没有多少训狗经验的亲戚是这样处理的:
如果小土狗在指定地点便溺,那么便能换来一点儿好吃的,而如果便溺的地方是沙发,床上甚至花盆里,那么换来的就是拖鞋板子抽屁股。
这个方法很是简单粗暴,但却相当有效,没过多久我再去亲戚家,他便高兴地告诉我现在小土狗已经基本能在指定的地方便溺了。
给小土狗确定一个目标,然后放任它去做,做到了就奖励,做不到就惩罚,这便是我那个亲戚用来训狗的核心概念。
而多年后,在人工智能的领域,我接触到了与之高度类似的概念,只不过这一次,训练的人变成了研究者,训练的对象变成了AI,而训练的项目则变成了玩电子游戏。
在游戏中使用AI,这个概念倒是不新奇。毕竟,我们都曾有过在游戏中调戏“小龙虾”敌人或者被电脑队友卡在某个地方出不来的经历。也因此,对我们玩家而言,与游戏有关的AI似乎大多是傻傻的,只要稍微动一动歪脑筋,便能吊打他们。
然而,被训练去玩游戏的AI则完全不同,因为借由当代人工智能技术的发展,他们被人类赋予了一种极其强大的能力:强化学习(加粗)。
让我们来看一个具体例子。
油管上有一个叫Andrew Wang的哥们决定让AI学习玩《QWOP》。
是的,就是那个极其蛋疼的,操作无比难受的奥运会跑步游戏,做这个游戏的人后来还做了臭名昭著的《和班尼特福迪一起攻克难关》。
Andrew Wang的思路是这样的:
通过算法,给AI制定一系列目标——让它通过键位操纵运动员向前移动一定的距离,如果目标达成,那就会触发一个“奖励”的指令,而如果目标没有达成,那便会触发一个“惩罚”的指令。
设置好这一切后,Andrew Wang便运行了指令,让AI按着算法自己折腾去了。
在一开始,AI的表现就和许多第一次接触这款游戏的朋友一样差,在它的控制下,运动员欢乐地在起跑线抽搐着,没走几米就以骨折的姿势结束了比赛。
然而没过多久,AI似乎就找到了玩《QWOP》的诀窍,伴随着《viva la vida》的音乐,AI操纵着运动员以单膝摩擦地面的姿势前行了10m,20m,30m……
最终,在数次失败后,AI成功地达成了Andrew Wang在一开始所设定的终极目标:跑100米。而看一看视频的进度条,从开始学习到达成目标,AI一共只用了12分钟左右。
这便是利用强化学习去玩游戏的方式:
在强大的算法与算力的支持下,只给AI确定具体的目标和奖惩机制,之后就让它们沿着算法去“自由”发挥。
如果你还是觉得《QWOP》这个游戏本身并没有挑战性,那么再来看看接下来的这个例子:
另一位油管博主Code Bullet尝试让AI挑战《全世界最难的游戏(the Worlds Hardest Game)》(对,真的就叫这名字)。
关于这游戏,有兴趣的朋友可以去试一试,虽然只是一个简单的躲避移动式小游戏,但玩起来确实非常虐心。
面对这种情况,Code Bullet同样采用了强化学习的方式,只不过,他所使用的不是一名AI玩家,而是上百名AI玩家,因而,我们便看到了接下来的画面:
大量的红块一起涌出,在很短的时间内因碰到障碍而悉数消失,积累下了一批数据,并以人类无法感知的速度传递给了下一代红块,之后以此类推。
于是,在“进化”到第五十代的时候,终于有一枚红块绕开了所有阻碍,颤颤巍巍地碰到了终点线,艰难地通过了第一关。而在它成功通关的背后,是上千个被“牺牲”掉的“同类”,以及大量通过“死亡”所积累的共享数据。
可见,只要有足够的尝试次数和时间,AI总会实现人类当初所制定的小目标,就像经典的无限猴子定理(加粗)所表达的那样:
一只猴子乱敲键盘,只要时间足够,它总有一天会敲出一部《莎士比亚全集》。
同样的,只要时间和尝试的次数足够,AI也同样可以“学会”打各种各样的游戏,更何况相对于猴子混沌的无规律敲击,AI的行为还有着算法与经验的辅助。
油管上让AI学习打游戏的视频可以说是多如牛毛,但他们大多都是个人博主所做的技术展示,其所使用的设备也基本停留在个人级别,所以运算能力的限制便让AI所学习的游戏基本都局限在了机制简单的游戏或者老游戏上。
而当训练者从个人变成了大型机构,由于硬件上的巨大提升,AI便有了学习更加复杂游戏的可能。
继2017年5月AlphaGo击败柯洁后,各大专注于AI学习的机构便将目标投向了游戏,尤其是电竞游戏这块。
在FPS领域,缔造了AlphaGo的谷歌技术团队DeepMind将AI训练成了《雷神之锤3》的高手。
面对这个超高战斗节奏的射击游戏,AI表现出了惊人的适应性——它们的胜率不仅远高于同时参与比赛的人类,AI与AI之间还会出现一些简单的配合。
而在RTS领域,DeepMind则选择了时下最火的《星际争霸2》。
今年年初的时候,谷歌旗下的AlphaStar便以10:1的成绩击败了两名世界级的《星际2》选手:TLO与MaNa。并且有趣的是,与对面的人类相比,AlphaStar的APM(每分钟操作率)并不算高,这或许和它能够做出更多有效的决策有关。
而在MOBA领域,则是《Dota 2》选手与OpenAI的战斗。
首先,在2017年8月的TI7邀请赛中,OpenAI所开发的DotaAI就在与乌克兰顶尖选手Dendi的1V1 Solo中胜出。
不过由于当时许多人认为单凭1V1并不能说明什么问题,所以OpenAI便用不到一年的时间又开发出了能够进行5V5 对抗的DotaAI Five。
在18年的TI8中,DotaAI Five分别挑战了南美强队paiN Gaming和来自中国的五位前职业选手。不过不同于TI7,这次的两场挑战均以惨败告终,人类扳回一城。
然后,就在前些日子,回炉又“修炼”了大半年的DotaAI Five卷土重来,挑战了去年的TI8的冠军OG,而这次,人类以0:2完败给了AI。
在那之后,《Dota 2》开放了OpenAI的对战功能,全世界的玩家都能对其进行挑战。
尽管在4月19日,VioletEvergarden和qwerty两支队伍终于终结了OpenAI的长达500多场的连胜纪录,结束了人工智能对于《Dota 2》的统治,但所有玩家都不得不承认:
DotaAI Five的进步速度实在是相当惊人。
毕竟,只要硬件本身跟得上,AI的成长空间理论上就是无限的。
早在AlphaStar击败《星际2》的选手时,就有报道指出,AlphaStar在战前曾花了两周时间进行训练,而这两周的训练量相当于人类选手不间断地打了200年实时对抗。
而到了今天的《Dota 2》,在12.8万个CPU核心和256块GPU的加持下,DotaAI Five用不到1年的时间完成了人类需要花整整45000年才能达到的训练量!
这就好比一名后生被一名武学高手击败后,遁入某个虚空,放弃了生理需求与感情,不眠不休的修炼了45000年,然后出来再与那武学高手交手,而此时世间却只过了不到一年。
而如果这样推算下去,那么截止到现在,DotaAI Five已经完成了至少10万年左右的比赛训练量,
诚然,相对于普通游戏,电竞类游戏要更加复杂,在每秒内所要面对的变数也会更多,但正如我们在之前提到的无限猴子定理一样,只要能够积累足够的尝试与失败,AI便能对这片看似混沌的情形做出相应的反馈,并最终学会在游戏中取胜的方式。
不止如此,不论是在《雷神之锤3》,《星际2》还是在《Dota 2》的对抗中,人们都发现AI会采用许多人类从来不会考虑的打法。
比如在《星际2》的比赛中,AlphaStar就放弃使用常见的“建筑物堵基地坡道”战术,而在《Dota 2》的比赛中,相对于人类惯常的出装,DotaAI Five却表现出了对买补给品的非凡执着……
诚然,虽然强化学习本身与人类真正学习的方式还相距甚远,如今的人工智能所拥有的也绝不是人类那个层级的“智能”。但我们不得不承认,或许是因为自身不会产生技术性失误的缘故,这些AI确实在学习玩电竞的过程中“思考”出了一套人类所无法理解的游玩方式。或者说得再科幻一些,这些电竞AI已经产生一套与人类完全不同的,对于游戏的“认知”和“理解”,而且相对于人类,这套AI的“认知”与“理解”可能会更加理性,更加高效,更加功利主义。
不过,因为就像在“虚空”中训练了万年之久,后生依然没有参悟到破解武学高手绝招的方式一样,有些东西,也确实是AI在现阶段没法学到的:
所以,不论在哪个电竞比赛中,AI都会或多或少地做一些无意义的操作,并且只要稍稍动脑子,人类也能发现AI在逻辑上的漏洞。
比如,在《星际2》的比赛中,选手MaNa就发现了AlphaStar默认调动整个军团的逻辑,并利用反复地*扰在比赛中获得优势,而在《Dota 2》的比赛里,选手Ceb也靠着在树林里复杂的移动将DotaAI Five绕“晕”,进而保住了一条命。
因此,现在就断言在不远的未来,AI能在电竞这个领域完虐人类确实还是为时过早。而且就算那一天真的到来了,其实也没什么值得担忧与恐慌的。
毕竟,合金不是为了比血肉更坚硬才被锻造出来的,汽车也不是为了比双腿跑的更快才被发明出来的,同样,AI也不是为了能在各个领域打败人类才被开发出来的。
对于DeepMind和OpenAI这样的机构而言,他们的目的并不仅仅是开发出能在电竞中对抗的AI,更多的是将从中所积累的宝贵经验用在帮助人类的方面。
比如,除了进行电竞比赛,DotaAI Five的许多功能还被广泛运用于机械和医疗等非游戏领域。
并且,在这次《Dota 2》的人机对抗后,OpenAI也让DotaAI Five与人类“化敌为友”——通过组队的方式来上一场人机混合的对抗赛。
此外,许多人也预言,伴随着强化学习的广泛应用,未来我们玩家也会在游戏中看到更“聪明”,更富有互动性的NPC,而PVE的乐趣也将会被大大地提升……
所以,对于AI是否会在未来的某一天统治电竞和游戏领域,我们其实并不需要过多的纠结和担忧。毕竟,归根结底,就算AI在这两个领域再强大,电竞的精彩还在于人与人之间激烈的对抗,游戏的乐趣最终所反馈的还是身为玩家的我们啊。
本文系作者个人观点,不代表杉果游戏的立场。
该文章属于杉果新媒体团队的深度原创文章栏目,除此之外我们还有原创视频节目(AB 站)。如果你喜欢我们的文章,可以关注公众号「杉果游戏」以及微博 @杉果游戏官方微博、@杉果娘 Sonkwo。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved