完胜星际顶级人类职业选手，AI“星际指挥官”究竟是何来历？（星际指挥官）

启元“智能体训练云平台”发布现场

继AlphaGo之后，AI在世界人机大战中再一次获胜。

6月21日，在启元世界举办的国内首届《星际AI顶级职业选手挑战赛》中，启元“AI星际指挥官”以2:0的成绩战胜《星际争霸I/II》全国冠军黄慧明（TooDming）和黄金总决赛冠军、最强人族选手李培楠（Time）。

本次比赛是全国首次现场直播星际AI与人类顶级职业选手的对战。

与围棋相比，《星际争霸》属于不完全信息博弈，战争迷雾对AI的战略规划、布局、决策提出了更高的要求。而且在决策空间上，围棋只有361种，星际2大约有1026。因此，更具挑战性的《星际争霸》成为了AI与人类较量的下一个竞技场。

“星际指挥官”是什么？

据了解，“星际指挥官”是由启元世界（北京）信息技术服务有限公司（以下简称：启元世界）围绕智能体训练云开展技术、研发型产品。

公开资料显示，启元世界成立于2017年，是一家认知决策智能技术研发公司，基于深度学习、强化学习、超大规模并行计算等技术，搭建了深度强化学习算法平台，以在线游戏为实验平台，快速验证智能体算法，致力于打造决策智能、构建平行世界、激发人类潜能。

2018年12月，启元世界完成知名投资机构Pre-A轮融资。目前，启元“智能体训练云平台”已在全国数十家商业组织和机构进行合作，其覆盖了数字娱乐、公共科技、机器人等行业。

启元世界创始人袁泉向钛媒体表示，《星际争霸》无论从战斗、战役、战略经济等层面，都蕴含了人类感知、认知决策的训练环境，所以在公司成立的第一天他就确定以《星际争霸》为研究环境，并且坚信它是孕育下一代新人工智能体非常好的训练平台。

事实上，在此次比赛之前，自2018年在第38届ACM全球总决赛亮相并发布AI人机协作挑战赛以来，“星际指挥官”不断收获优异成绩：

2019年9月达到白金水平，3:0击败人类黄金级选手；2019年12月达到钻石级水平，并在人工智能顶级峰会NeurlPS上现场展示。

究竟“星际指挥官”与围棋有何不同，启元世界CTO龙海涛从博弈和决策空间的角度作出了解释，“从博弈的角度来看，围棋是一个完全信息的博弈，棋子之中黑子、白子都可以看到；而《星际争霸》则属于非完全信息博弈，像猜拳一样，人类选手需要不停地猜测对方在干什么，下一步动作是什么。”

龙海涛介绍，从决策空间来看，围棋是回合制，在19乘19的格子之中，每次决策在361个点进行选择动作；《星际争霸》则是有决策主体、决策目标，每分钟的决策次数在300-400次频率，整个空间加起来有10的26次方，这是每次AI作决策可能性的来源，而且要做两千、三千次决策，才有可能战胜顶级的人类选手，这是对AI训练的巨大考验。

启元世界也在从工程和算法两个层面各进行了深层次的优化，通过乘数效应的叠加最终实现了看似不可能的“奇迹”。