从“深蓝”到“深思”（互博国际象棋）

2016年围棋人机大战第4局，全局被动时李世石妙手逆转局面。（视觉中国/图）

如今40岁以上的人——尤其是象棋或科技的爱好者——也许大都对发生在1997年5月的一个有趣事件留有记忆。在那个月里，国际象棋世界冠军加里·卡斯帕罗夫与IBM公司名叫“深蓝”的超级电脑进行了总计六盘棋的对决，结果“深蓝”以3.5∶2.5（二胜三和一负）的总比分胜出。

这是人工智能首次在国际象棋领域以总比分胜出的方式击败人类顶尖棋手。

服还是不服

“深蓝”在人工智能的发展史上有很大的象征意义，甚至可以说是一个里程碑。对这一里程碑，起码在最初一段时间，很多人心理上难以承受，而且也不甚服气。不服气的一条理由是“深蓝”与卡斯帕罗夫只赛了六盘棋，数量太少，胜负有较大的偶然性。卡斯帕罗夫本人同样不甚服气，提议跟“深蓝”再次对决。

不幸为这种不服气推波助澜的是：IBM公司不仅拒绝了卡斯帕罗夫提议的再次对决，甚至干脆将“深蓝”大卸八块，以一种消极的方式保持了胜果。

这种有失气派的做法无可避免地给人留下了侥幸获胜、见好就收的印象，可以说是公关上的失败。但另一方面，计算机领域有一个著名的“摩尔定律”，与硬件指数式发展齐头并进的，则是软件的突飞猛进。两者共同发展的必然推论是：人工智能作为以这种发展为后盾的技术，其演进速度绝非人类智能的演进速度可比。也因此，人工智能一旦在某个领域击败人类，那么这种击败就是不可逆转的。任何心理上或公关上的因素都改变不了这一宿命。事实上，尽管IBM公司的公关有落人口实之处，能让人在心理上以此为由“阿Q”一番，但人工智能在国际象棋领域击败人类仍很快变成了铁的事实。

这一事实在2015年以一种特别悲剧性的方式得到了体现。

那年4月，在迪拜国际象棋公开赛上，格鲁吉亚国际特级大师盖奥兹·尼加利泽被发现利用手机上的国际象棋程序作弊。尼加利泽当即被逐出了比赛，其国际特级大师的头衔也遭撤销。但国际特级大师居然用手机上的国际象棋程序作弊，实在是特别悲剧性地揭示出了人工智能在国际象棋领域已何等地超越人类。要知道，昔日的“深蓝”可是位列世界500强之内的超级电脑。不到20年的时间，人工智能在国际象棋领域的硬件门槛居然从超级电脑降为了手机，甚至有人戏称说哪怕用微波炉芯片也能打败世界冠军，对人类真是情何以堪啊。

宿命论

人工智能在国际象棋领域击败人类，也自动意味着人类在一系列更简单的同类游戏中“全军尽墨”。从数学上讲，这类游戏的“沦陷”几乎是必然的。因为从数学上讲，这类游戏属于所谓的“有完全信息的组合游戏”——这其中“有完全信息”指的是不带概率（即不带骰子之类），也不带隐藏信息（即不像扑克那样只能看到自己的而非全部的牌），“组合游戏”则是指游戏的难度源自巨大的组合数（即源自每一步都必须从数量巨大的可能性中作出选择这一特点）。

在软硬件不够发达的年代，这类游戏所包含的巨大的组合数是人类直觉的驰骋空间，对人工智能则是门槛，阻挡了它的“入侵”。但这种阻挡注定是暂时的，因为在数学上可以证明，只要有足够强大的计算能力，任何“有完全信息的组合游戏”要么双方都有必和策略，要么其中一方有必胜策略。这个结果在很大程度上意味着，对任何“有完全信息的组合游戏”来说，一旦人工智能的计算能力超过某个门槛，游戏的胜负就会变得越来越“宿命”。这其中，计算能力远逊于人工智能的人类的宿命只能是落败——虽然游戏越复杂，宿命可以越推迟。

最后的面子

既然这样，那么一个自然的问题就是：国际象棋“沦陷”后，在人类流行的“有完全信息的组合游戏”中，还有哪个能暂时阻挡人工智能的“入侵”，将人类落败的宿命尽可能推迟呢？

答案是围棋。

围棋是一种远比国际象棋更复杂的游戏，两者——及很多其他棋盘类游戏——的复杂度可以共同地用一个粗略而有效的方式来描述。这个描述只取决于游戏的两个基本特征：一是平均每步棋有多少种可能的下法——这被称为游戏的“广度”，二是平均每盘棋会下多少步——这被称为游戏的“深度”。如果用b表示前者，d表示后者，则简单的组合估算告诉我们，游戏所涉及的可能的下法总计约有b^d种。对国际象棋来说，棋盘较小，棋子移动的限定较多，b约为35；每盘棋则平均可在80步左右下完，即d约为80。由此得出的可能的下法有35^80≈3×10^123种，这也就是国际象棋的复杂度，它是一个天文数字，比可观测宇宙中的原子数目还多1,000亿亿亿亿倍。那么围棋呢？它的棋盘比国际象棋的棋盘大得多，落子的限制则小得多，b约为250；同时，一盘围棋往往能下到一两百手，因此d也比国际象棋的大得多，约为150。由此得出的可能的下法有250^150≈5×10^359种，这也就是围棋的复杂度，它比国际象棋的复杂度高出约1万亿……亿（总共要写29个“亿”！）倍。

由于围棋远比国际象棋更复杂，因此在“深蓝”击败卡斯帕罗夫之后的十几年里，人工智能在围棋领域依然无法逾越巨大的组合数带来的门槛，至多能跟业余棋手一较高下，却无法捋职业棋手的“虎须”（除非被让四到五子）。

狗拿围棋

但这一局面在2015年开始出现转变——而且很快转为“雪崩”式的快速转变。那一年，总部位于英国的“深思”公司研发的一个名为“阿尔法狗”（AlphaGo，译名中的“狗”系代表围棋的“Go”的谐音，更文雅的译名是“阿尔法围棋”）的人工智能围棋系统脱颖而出，以499胜1负的压倒性优势，战胜了其他几种同类系统，成为人工智能围棋系统的“霸主”。同年10月，“阿尔法狗”在跟法籍华裔职业二段棋手樊麾的“五番棋”较量中，以5∶0的总比分横扫后者，取得了人工智能在围棋领域平手对决人类职业棋手的首度胜利。

而真正轰动世界的，则是一个跟昔日“深蓝”击败卡斯帕罗夫完全类似的对决。

这一对决发生在2016年3月，距离“阿尔法狗”击败樊麾还不到半年。在这一对决中，进一步优化后的“阿尔法狗”以4:1的总比分击败了人类顶尖棋手之一，曾经14次荣膺世界冠军的韩国职业九段棋手李世石，正式攀上了围棋世界的巅峰，并被韩国棋院授予了荣誉九段。这个版本的“阿尔法狗”则被纪念性地称为了“阿尔法狗·李”。李世石在唯一的胜局——第四局——之后曾经表示：“这次胜利是如此珍贵，用世上的任何东西来换我都不会换”。如今回味这句话，李世石说得简直太对了，那一局确实弥足珍贵，不仅对他，而且也是对人类。因为那是“阿尔法狗”与人类职业棋手的74次正式对决中人类的唯一胜利，并且实际上也是人类最后一次在围棋领域战胜人工智能。

横扫一切高手

跟昔日“深蓝”的见好就收不同，“阿尔法狗”在击败李世石后并未“退隐”，而是在继续优化后批上“大师”的马甲，于2016年底开始，与人类顶尖棋手展开了为期数天的一系列网络快棋对决。

这一系列对决极好地演示了我们的前文所言，即人工智能一旦在某个领域击败人类，那种击败就是不可逆转的。这一系列对决的对手几乎囊括了所有的人类顶尖棋手，其中包括大家熟悉的中国“棋圣”聂卫平、与李世石并称“绝代双骄”的古力，及当时排名犹在李世石之上的柯洁。对决的结果则创下了围棋史上罕见的秋风扫落叶的战绩：60∶0，也完全证实了“大师”这一马甲的名副其实。这个优化版的“阿尔法狗”如今被称为了“阿尔法狗·大师”。2017年5月，作为给人类棋手的最后机会，“阿尔法狗·大师”与当时的人类围棋第一高手柯洁进行了一场正式的（即并非快棋的）“三番棋”较量，结果以3∶0的总比分胜出，并被中国围棋协会授予了职业九段。

在“阿尔法狗”的强大战力和辉煌战绩面前，我们再也听不到像昔日“深蓝”获胜之后的那种不服气了。2019年11月，36岁的李世石宣布退役，并在退役感言中坦承自己永远无法击败人工智能：“我意识到……即便成为世界第一，我也不可能站在围棋的巅峰”，因为“即便我成为世界第一，有一种东西（人工智能）依然无法被击败”。

“阿尔法狗”之所以有如此强大的战力，能取得如此辉煌的战绩，除计算能力超卓外，还有一个很具“智能”色彩的特点，那就是：它有很强的自我训练能力，能从自我对弈中学习并优化自己。经过这种“左右手互博”式的自我训练，“阿尔法狗”能自创出连它的设计者都无法预测的新招。其中的某些新招人类棋手不仅从未下过，甚至从未意识到能够那样下。

在“阿尔法狗”与李世石的对决接近尾声时，凤凰卫视的“锵锵三人行”节目曾邀请到中国九段棋手江铸久评论“阿尔法狗”与李世石的对决，江铸久在评论中表示，“阿尔法狗”的某些新招简直让他热烈盈眶。自我训练、自创新招，这些无疑都深具“智能”色彩，使这种色彩更为鲜明的，则是“阿尔法狗”甚至有自己的“棋品”，在局势足够无望时不会死缠到底，而是会像人类棋手那样中盘认输。当然，这种模拟人类棋手的风度和礼貌的背后实际上是一个有关胜率的数学条件——比如“阿尔法狗·李”一旦发现胜率低于20%，就会中盘认输。

除自创新招外，“阿尔法狗”在下棋策略上也有新颖之处。具体地说，“阿尔法狗”的下棋策略是注重取胜概率大过取胜幅度。如果有两个棋招，一个能比另一个能取得更大幅度的优势，但整盘棋的取胜概率低于后者，“阿尔法狗”会青睐后者。用“深思”公司首席执行官杰米斯·哈萨比斯的话说，“跟人类不同，‘阿尔法狗’的目标是使取胜概率最大化，而不是尽可能扩大赢面”。“阿尔法狗”的这一特点一度使人迷惑过。江铸久在前述“锵锵三人行”节目中曾经提到，“阿尔法狗”击败樊麾后，很多高段位的职业棋手不以为然，因为“阿尔法狗”虽然赢了，但看上去似乎并不比樊麾厉害很多。由于樊麾只不过是职业二段，跟李世石那样的顶尖棋手相差很远，因此很多人——包括李世石本人——起初并不认为“阿尔法狗”能对像李世石那样的人类顶尖棋手造成威胁。江铸久同时也提到，他当时看“阿尔法狗”的棋却有一种不同的观感，觉得“阿尔法狗”似乎是遇强则强，让人看不出真实水平。这个观感若确系当时的观感而非事后诸葛，可以说是目光如炬了。

从零开始

在“阿尔法狗”的强大战力和辉煌战绩面前，如果说仍有什么东西能让人类棋手“阿Q”一下的话，也许是“阿尔法狗”的程序之中包含了大量的人类棋谱，并在自我训练时用到过那些棋谱。从这个意义上讲，“阿尔法狗”的“军功章”上可以说是有人类棋手的一半。不过，人工智能的飞速发展很快将这“一半”洗涤一空。继“阿尔法狗·李”和“阿尔法狗·大师”之后，“深思”公司又研发出了一个新版本的人工智能围棋系统，叫作“阿尔法狗·零”。这个版本如它的名字所预示，可以从“零”开始，在只知晓围棋规则的情形下，完全不依赖人类棋谱，通过单纯的自我对弈学习围棋，堪称是彻底的“自学成才”。而它所达到的水平，则不仅人类棋手望尘莫及，就连横扫人类棋界的前两条“阿尔法狗”也无法抗衡。2017年10月，距离“阿尔法狗·大师”在“三番棋”较量中击败柯洁还不到半年，经过短短3天“自学”的“阿尔法狗·零”就以100∶0的全胜比分拿下了“阿尔法狗·李”。稍后，“自学”21天的“阿尔法狗·零”又以89∶11的压倒性比分战胜了“阿尔法狗·大师”。

这还不是故事的终结，2017年12月，距离“阿尔法狗·零”的推出才两个月，“深思”公司的又一个新颖的人工智能系统问世了，这个取名为“阿尔法零”的新系统采用了跟“阿尔法狗·零”相类似的算法，也能够从“零”开始“自学成才”，但与“阿尔法狗·零”只会玩围棋不同，“阿尔法零”有更大的普适性，不仅会玩围棋，而且能玩包括国际象棋在内的其他几十种棋盘类游戏（因此把名字中代表围棋的“狗”字去掉了）。更厉害的是，在所有“阿尔法零”能玩的游戏里，它都显示了“王者之风”。比如拿国际象棋来说，“阿尔法零”只训练了4小时就达到了“鱼干”的水平，训练到9小时后，在跟“鱼干”的100场对决中，“阿尔法零”取得了28胜72和的不败战绩，在后来进行的多达千盘的更大规模的对决中，也以压倒性的优势胜出。只有围棋，因为有算法相似的“阿尔法狗·零”坐镇，情势不那么一边倒，但战果依然可观：只训练了30个小时就超过了“阿尔法狗·李”，训练到13天后，则在跟训练程度相同的“阿尔法狗·零”的对决中以60%左右的胜率占优。

所有这些后续对决——无论国际象棋还是围棋——都发生在水平远远超出人类的人工智能系统之间，仿佛九天之上的诸神之战，其中再也不会有人类棋手的踪迹了。对人类来说，这也许是有些伤感的，但另一方面，这也是一件很能满足人类好奇心的事。

由于“阿尔法狗·零”和“阿尔法零”都是从“零”学起的，完全脱离了人类棋手的经验，这些人工智能系统的游戏风格也因此在很大程度上变得独立于人类。设想一个有趣的问题：倘若一种具有极高智慧的外星生命拿到了人类的游戏，在他们的世界里用同样的规则玩那些游戏，他们的游戏风格会是怎样的？我觉得，“阿尔法狗·零”和“阿尔法零”也许就是一种答案（虽然不是唯一答案），甚至不完全从“零”玩起的“阿尔法狗”也在一定程度上可算是一种近似答案。事实上，已有不止一位人类棋手在跟这些人工智能系统对决或看过棋谱后，不约而同地用“外星生命”或“外星人”来形容后者的游戏风格。比如丹麦国际象棋特级大师彼得·尼尔森表示“阿尔法零”仿佛是一个超越人类的外星生命；韩国九段围棋手睦镇硕也表示自己喜欢“阿尔法狗”的棋风，因为“我几乎觉得自己在跟外星人玩”。

而这一切从“阿尔法狗·李”算起，只经过了不到两年的时间，确实是“雪崩”式的快速转变。

连规则也不要了

人工智能游戏系统发展到“阿尔法零”，在大方向上是否仍有改进空间？或者换个问法：“阿尔法零”作为人工智能游戏系统是否仍有局限性？使劲找的话，确实还能找到一条，那就是它必须事先知晓游戏规则。将这条列为局限性其实有些吹毛求疵，因为多数人类玩家在玩游戏之前也是事先知晓游戏规则的。

但随着人工智能的飞速发展，就连这个吹毛求疵的局限性也被突破了。2019，“深思”公司推出了一个更加新颖的人工智能系统，称为“MuZero”。“MuZero”甚至连游戏规则都无需事先知晓，而可以通过“观察”、对弈、试错，从无到有地构建起来。这种构建规则的能力让人联想到一部近来很热门的影片：《后翼弃兵》。

在那部影片中，一位天才的小女孩通过看人下棋归纳出了国际象棋的规则。由于连游戏规则都无需事先知晓，“MuZero”的适用面甚至比“阿尔法零”更广，除了能玩“阿尔法零”能玩的那些棋盘类的游戏外，还“自学”掌握了几十种图像游戏。（注：“MuZero”这一名字在一定程度上效仿了“阿尔法零”，体现在两者都有一个“零”，代表从“零”开始，不依赖人类棋谱。“MuZero”中的“Mu”近于日文“無”的发音，代表的是连游戏规则也可以从“无”到有地构建起来。如果要为“MuZero”取一个译名的话，或可译为“无零”。）

更令人印象深刻的是，从“阿尔法狗·李”到“阿尔法狗·大师”“阿尔法狗·零”“阿尔法零”，再到“MuZero”，所有这些进展都不是“失之东隅，收之桑榆”那样的有得有失，而是纯粹的推进。“MuZero”能玩更多的游戏，却并不是以牺牲水准为代价的“博而不精”。相反，在几乎所有“阿尔法零”能玩的游戏上，“MuZero”都达到甚至超过了“阿尔法零”的水准。

就人工智能游戏系统而论，推进到“MuZero”的程度，已基本达到甚至超越了对人类玩家的终极模拟，在大方向上差不多可以算穷尽了，剩下的也许只是算法细节上的追求——那自然是永无止境的。但人工智能若只能玩游戏，恐怕免不了仍会被讥讽，就像一个只懂得玩耍的人，再聪明也会被认为没什么大出息。

阿尔法折叠

正如聪明人早晚会超越只懂得玩耍的年纪，人工智能也并非只能玩游戏。2020年底，继游戏领域的连串新闻之后，“深思”公司一个名叫“阿尔法折叠”的人工智能系统（确切地说，是该系统的第二代）再次刷了很多人的屏——但这回不是玩游戏，而是做科研，是研究蛋白质的三维结构。

具体地说，“阿尔法折叠”用人工智能的手段挑战了生物学领域中一个被称为“蛋白质折叠问题”的知名难题。由于这个难题的阻亘，确定一种复杂的蛋白质结构往往要耗时一年以上，耗资也不菲。在已知的蛋白质中，生物学界经过半个多世纪的努力，能确定结构的仍只占不到千分之一。而“阿尔法折叠”确定一种蛋白质结构只需几天时间，准确率也达到了能与传统方法相比拟的程度，有望成为强大助益。有人甚至大胆预测，人工智能距离摘取第一个诺贝尔科学奖已为时不远了。

从“深蓝”到“深思”，是人工智能飞速发展的一个缩影。在不到一代人的时间内，人工智能跨越了好几个里程碑，其中的某些甚至超出了最大胆的预期，可谓前途无量。

南方周末特约撰稿卢昌海