阿尔法狗闭关5月后归来秒杀所有人类棋手，下个对手是谁？（阿尔法归来）

文｜ AI财经社王鸿宇

编｜杨舒芳

10月19日，谷歌旗下的DeepMind团队公布了进化后的最强版“阿尔法狗” ，代号AlphaGo Zero。DeepMind联合创始人兼CEO 、阿尔法狗之父戴密斯·哈萨比斯称，“升级后的阿尔法狗更为强大，可以一争史上最强围棋手。”

阿尔法狗上一次出现在公众视野中，还是今年5月在浙江乌镇围棋峰会的现场。阿尔法狗直落三盘战胜世界排名第一的中国棋手柯洁，这位年仅20岁的天才少年曾被认为是狙击阿尔法狗的唯一可能。

“我输得没什么脾气。”在赛后新闻发布会上，柯洁说，“AlphaGo跟去年比完全是两个‘人’，第一次时很接近人，现在越来越像上帝了。”

就连戴密斯·哈萨比斯都没有想到阿法尔狗能达到这样的高度，“写出围棋的评估函数是一件不可能的事情”。因为更多时候，围棋与棋手的一些类似于“直觉”的东西有关，“围棋游戏更像是艺术，而非科学”。

不少网友嘲笑柯洁，因为他曾经此前说过“阿尔法狗能赢下李世石，但是未必能赢我”，“和阿尔法狗下棋，我的胜率在六成”类似的话语。但在与阿尔法狗战败后，柯洁豪取22连胜，大家才意识到不是柯洁说大话，而是阿尔法狗太强了。

第一次升级后，就未尝败绩

正如柯洁所言，阿尔法狗的确换了一个“人”——系统升级后，AlphaGoLee变成了AlphaGoMaster。

在野狐围棋网横扫中日韩多位人类围棋高手后，它取得了60胜0负1平的恐怖战绩。其中的1平，还是因为在与陈耀烨的快棋赛中，陈耀烨意外掉线，系统自动判和。

2016年3月，AlphaGoLee以4:1的比分了战胜韩国名将李世石九段，引发了围棋圈的震惊。此前，阿尔法狗的成名战是5:0战胜欧洲冠军、法国国家队主教练樊麾，但当时，樊麾和外界都认为阿尔法狗并没有那么强，至少他是有机会拿下一盘的。

“围棋有很多不确定的因素，机器的局限性是很多的，在下棋过程中也会出现漏洞，因此之前观看阿尔法狗跟樊麾的比赛，让我以为计算机达不到围棋选手的最高水平。结果大家都知道，我输了。”惨败让李世石改变了他对阿尔法狗的看法。

《南方周末》的报道中提到：阿尔法狗对阵樊麾时，“吃过”的棋谱是3000万个，但到了挑战世界棋坛16冠王李世石的时候，嚼进肚子里的棋谱已经达到1亿。

“吃棋谱”正是AlphaGo的主要训练模式之一，开发者能做的就是尽可能多地把棋谱塞给程序。

此外，Deep Mind团队在AlphaGo程序中加入了“策略网络”和“值网络”的技术。所谓策略网络，是指程序在吃下过亿棋谱后，能够分析出下一步棋在不同下法时得出的不同胜率。值网络则是对盘面优势的判断机制，以便及时止损和改变下法。

学习3天打之前版本，比分高达100比0

在输给阿尔法狗后，柯洁豪取22场连胜，拿下全运会围棋比赛冠军。但再次升级的阿法尔狗，已经不需要柯洁的棋谱了。

根据《自然》杂志的最新介绍，Alpha Zero的设计理念和系统配置和Lee/Master完全不同。

此前，Lee/Master都是用上千盘人类业余和专业棋手的棋谱进行训练，而升级后的阿尔法狗不依托于人类的先验成果，不靠“吃棋谱”进步，完全靠自我对弈学习下棋。

AlphaGo Zero之所以能当自己的老师，是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜率。

仅仅经过3天的训练，这套系统已经可以击败AlphaGoLee，也就是去年击败韩国顶尖棋手李世石的那套系统，而且比分高达100比0。

40天训练后，AlphaGo Zero总计运行了大约2900万次自我对弈，使得AlphaGoZero得以击败AlphaGoMaster，比分为89比11。

在系统配置方面，AlphaGoZero也比前几代系统更加节能，AlphaGoLee需要使用几台机器和48个谷歌TPU机器学习加速芯片，AlphaGoZero只需要使用一台配有4个TPU的机器即可。

阿尔法狗赢了李世石后，哈萨比斯说，“阿尔法狗从来都不是我们的唯一，甚至不是我们最重要的研发，我们希望将此应用于更大的真实世界的问题。”升级过后融入了Deep Mind最新技术的新阿尔法狗，目标已经不再只是打败人类棋手，而是将目光转向了实际应用方面。

【想看更多，请移步“AI财经社（ID:aicjnews）”微信公众号】