电竞是不是人类的最后高地?
作者 | 邢逸帆 编辑 | Vicky
今天上午,由 Google 子公司 DeepMind 开发的《星际争霸2》电竞AI AlphaStar 和人类职业选手同台竞技,DeepMind 也在直播中公布了此前 AlphaStar 与职业玩家对打的比赛视频。
其中,在12月进行的全部的 10 场比赛中,AlphaStar 10:0 完胜人类,让来自液体(Liquid)战队的两位职业选手颗粒无收。而最后一场现场直播赛中,星际争霸职业选手 MaNa 力克 AI,成功“复仇”。
其实,在第一次和 AlphaStar 比赛之前,MaNa 已经有了被打败的心理准备。
“我觉得自己不可能 5 场都赢。在我的假设里,我会和 AI 打成 4:1。”
尽管在迎战 MaNa 之前,AlphaStar 已经以 5:0 的比分完胜了他的队友——虫族职业玩家 TLO,但 MaNa 依然觉得自己赢面比较大。
“毕竟我从 5 岁就开始打星际争霸了。TLO 已经输了,我绝对不能再输。”
目前世界排名第 13 的波兰选手 MaNa
然而在前两场比赛中,AlphaStar 表现出了惊人的操作水准和果断的战术,两次都在半小时内拿下了 MaNa 的高地。
在第三场比赛开始前,MaNa 沮丧地说,“我现在只有一个念头:活着就行。”
最终,MaNa 还是输掉了全部的 5 场比赛。人类与 AlphaStar 的首次交锋以 10 局全败而告终。
星际争霸2:AI 难以跨过的坎儿
实际上,在比赛时,DeepMind 的科学家可能比 MaNa 更紧张。因为这场比赛对于 AlphaStar 而言,实在是太复杂了。
在此之前,DeepMind 开发的 AI AlphaGo 已经在围棋中击败了人类,但《星际争霸2》比围棋复杂的多。
雅达利游戏机,围棋和《星际》的难度对比
第一,在围棋比赛中,AI 可以看到人类对手的每一步行动和全部的棋盘,但在《星际争霸2》中,由于有“战争迷雾”的视野限制,AI只能观察到部分地图。如果 AI 想要知道对手的行动,就必须派资源去侦察。
因此,在这场信息残缺的博弈中,AI 对全局的掌握能力受到了极大的挑战。
视野受限
其次,在围棋比赛中,棋子一共只有 361 个落点,而在《星际争霸2》中,每个单位可以选择 300 多项基本行动。除此之外,《星际》中的许多动作需要精确到屏幕上的一个点,即使屏幕的尺寸小到 84x84,也有大约 1 亿种可能的动作。
在比赛中,AI 需要同时选择和控制上百个单位,而且稍有失误,就很难再翻盘。
人类和 AI 对一个单位采取的操作
最后,也是最重要的一点,就是《星际争霸2》本身在策略上的复杂性。
身为一款火了 20 多年的即时战略类游戏,《星际》非常重视长期的策略。在这个游戏里,玩家需要不断收集和分配资源,然后建造不同的建筑物和兵种,逐步扩张推进。玩家如果在开局时没有一个成型的策略,很容易就会因为资源短缺而在后期被打崩。
对于 AI 而言,这是一项非常难以理解的任务。
举个例子,在打砖块游戏中,AI 只需要打碎更多的砖块就能获得更高的分数,而在《星际》中,情况就非常复杂了。哪个分数才是最重要的?是气矿还是水晶?是建筑还是兵?因此,想要赢得游戏,AI 还要学会根据对手的行动“权衡利弊”。
这一切,都让《星际争霸2》AI 的开发难度比围棋高出了一大截。
好在 DeepMind 没有让我们等太久。
AlphaStar 如何打败人类
想要让 AlphaStar 打败人类,首先要让它理解游戏中正在发生什么。
DeepMind 的科学家与《星际》的制作方暴雪娱乐合作,将游戏界面分解为若干个“特征层”。其中各种游戏元素(比如不同类型的单元、血量和地图)被以色块的形式区分开来,同时保留了游戏中的空间元素。
接着,为了让 AI 理解游戏中的各项任务,DeepMind 将《星际》拆解成了多个小游戏:比如说移动视角、选择单位、采集和建造。通过这种方式,研究人员希望更直观地看到 AI 在各项任务上的表现。
然而,尽管通过一系列深度强化学习的训练,AI 已经能优秀地完成独立任务,但在游戏实战中,AI 还是会陷入琐碎的任务里而无法顾全大局,被人类玩家完爆。
于是,DeepMind 又引入了另一种训练方式——模仿学习(imitation learning)。
通过学习暴雪提供的十万多个真实玩家录像和比赛回放,AlphaStar 开始模仿人类玩家在某种环境下的行为,理解游戏的基本机制。通过这种方式,AlphaStar 学会了人类的围观操作和宏观策略。
通过这种方式,DeepMind 得到了多个版本的 AlphaStar,这些 AlphaStar 不断地彼此竞争,最终得出了胜率最高的一个版本。
这种被称为“Alpha League”的训练方式效率很高。在一两周的训练时间结束时,AlphaStar 已经玩了 200 年的《星际争霸2》。
在实际比赛中,AlphaStar 会不断分析对手行动,做出胜率最高的决策。从直播中展示的录像来看,在游戏进行到一半时,AlphaStar 已经预测自己有八成的可能性打败 MaNa。
尽管 DeepMind 已经做了一切尝试,让 AlphaStar 变得更厉害,但在直播中,DeepMind 科学家 Oriol Vinyals 还是坦言自己非常忐忑。Vinyals 说:“老实说,我们也非常紧张。直到 TLO 第一次败给 AlphaStar 后对我们说,‘你们真的做到了’,我才得以放松。”
人类还没有被打败
在第一次对战中 10 胜人类,就说明 AlphaStar 完胜了吗?恐怕不是这样的。
上午,人机大战直播中最大的反转出现在最后一场 MaNa 对决 AlphaStar 的直播赛。MaNa 非常紧张,觉得自己是在为液体战队和人类的尊严而战。
在这场比赛中,MaNa 不停空投不朽*扰 AlphaStar 基地,拉扯AlphaStar 的兵力在老家和前线之间跑来跑去,活生生变成上古游戏里的人工智障。在逼迫 AI 不停消耗资源的同时,MaNa 兵力成型,一举复仇。
“如果对手是人类,一定不会犯这样的错误。”
看完这场复仇之战,主持人和 MaNa 都发出了同样的感慨。
不难看出,AlphaStar 在实战中仍然和人类选手间存在差距,很容易被人类找到固定套路钻空子,然后被击败。
但是最终,像 AlphaStar 这样的 AI 的目标并不是在电竞中击败人类,而是摸索出一套加强 AI 训练的方法,为应对更复杂的虚拟环境做准备。
你听说了吗?我们有播客了!
“硅星人FM”是这档音频节目的名字。它完全免费,支持所有泛用型播客客户端。网址是 gxr.fireside.fm,也欢迎你在 Himalaya.app 里关注我们。
从科技到文化,有深度也有段子,在声波里,跟我们一起探索硅谷吧!
硅星人:(ID:guixingren123)
从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved