人工智能了没？AI的发展史和局限性（魔狩战纪2023）

2006年，微软发布了WINDOWS vista，其游戏开发工具（DirectX 10）大幅提高了3D图形的表现，使得电子游戏进入了“显卡危机”时代。作为消费级显卡的主要开发者，英伟达和AMD的军备竞赛随之进入白热化。而在PC玩家享受高端显卡的同时，为了利用日新月异的显卡性能，两家公司各自推出了并行计算显卡（英伟达 Tesla 和 AMD FireStream），及其并行计算系统（CUDA，OpenCL）。这一水到渠成的创新，却无意中打通了象牙塔中一门绝技的任督二脉，它就是机器学习的神经网络算法。

2010年代，神经网络所向披靡。2012年，深度学习在图像识别挑战赛（ImageNet）中大获全胜，成为机器学习方向处理复杂数据的最佳算法。2014年，脸书公司推出DeepFace换脸技术，人工智能成为了日常话题。2016年，谷歌旗下DeepMind团队的AlphaGo战胜了围棋世界冠军李世石，再次震撼了社会舆论。2020年，OpenAI实验室开发了语言生成预训练转换器 GPT-3，它正在改变多个行业的工作方式。

2016年的李世石 vs AlphaGo

如果你觉得，AI绘画是“不务正业”，AI换脸是“奇技淫巧”，那么我认为，2022年11月ChatGPT的正式发布，应该引起所有人的重视。因为基于机器学习算法的现代人工智能，正在对人类社会造成广泛影响。而曾经造成这种影响的技术，是计算机和内燃机。

2017年7月，国务院印发《新一代人工智能发展规划的通知》，明确提出人工智能是“引领未来的战略性技术”，是“新一轮产业变革的核心驱动力”。2021年的十四五规划纲要六次提到人工智能，并将其定义为“重大创新领域”和“关键数字技术”。

在专业人士争分夺秒的同时，机器学习到底是什么，我们又应该怎样面对这个历史机遇呢？这篇文章将会从头到尾，梳理人工智能的历史和局限性。

机械人

自古以来，无论是上帝造人还是女娲抟土，创造新的智慧物种，都是神的专属技能。而人类最大的特点，就是始终觊觎神的权力。所以“人造人”，是我们最早的理想之一。然而，在工业时代以前，生产能力和数学工具十分匮乏，人类距离“人工智能”过于遥远。古人当中的天才，要怎样走出第一步呢？答案很简单，就是将人工智能拆解成多个小目标，并攻破其中最容易实现的方面。对古代文明来说，这个小目标，就是固定规则之下的执行能力。

在道家著作《列子汤问》中，一位叫偃师的工匠，向周穆王进献了一个机器艺人，偃师拨动机关，艺人就唱歌跳舞，演出结束时，机器人居然向王的侍妾暗送秋波。周穆王大怒，认为这是真人，于是偃师当场拆解了机器人，里面果然是革木胶漆等人造物。于是王叹为观止。

周穆王西巡狩，越昆仑，不至弇山。反还，未及中国，道有献工人名偃师，穆王荐之，问曰： “若有何能？”偃师曰： “臣唯命所试。然臣已有所造，愿王先观之。”穆王曰： “日以俱来，吾与若俱观之。”越日偃师谒见王。王荐之，曰： “若与偕来者何人邪？”对曰： “臣之所造能倡者。”穆王惊视之，趣步俯仰，信人也。巧夫顉其颐，则歌合律；捧其手，则舞应节。千变万化，惟意所适。王以为实人也，与盛姬内御并观之。技将终，倡者瞬其目而招王之左右侍妾。王大怒，立欲诛偃师。偃师大慑，立剖散倡者以示王，皆傅会革、木、胶、漆、白、黑、丹、青之所为。王谛料之，内则肝、胆、心、肺、脾、肾、肠、胃，外则筋骨、支节、皮毛、齿发，皆假物也，而无不毕具者，合会复如初见。王试废其心，则口不能言；废其肝，则目不能视；废其肾，则足不能步。穆王始悦而叹曰： “人之巧乃可与造化者同功乎？”诏贰车载之以归。夫班输之云梯，墨翟之飞鸢，自谓能之极也。弟子东门贾禽滑釐闻偃师之巧以告二子，二子终身不敢语艺，而时执规矩。——《列子汤问》

同样，在希腊神话《阿尔戈英雄纪》中，火神和工匠之神赫菲斯托斯在克里特岛铸造了一个青铜巨人，它有流着“灵液”特殊血管，可以自动抛掷巨石。人类放走了巨人的灵液，才终于成功上岸。

这些青铜时代的传说，展示了古人对人造人的最早构思，即通过精巧的机械结构，模拟人类的某些动作。工匠的技艺越是高超，拟人的机关就越像真人，比如张衡的鼓车、达芬奇的机械武士，都让古代传奇变为现实。在故宫博物院的钟表馆中，我们收藏了一件“铜镀金写字人钟”，每当机关启动，金人就会用毛笔写出（八方向化，九土来王），这就是18世纪西方手工业的代表作品。

铜镀金写字人钟，现藏于故宫博物院钟表馆

而蒸汽机的改良和电力的应用，更催生了蒸汽朋克和电气朋克。1920年代英国的机器人Eric项目，通过最早的电机遥控系统，构建了一个可以站立、挥手和发音的机器人。这就是电气朋克的经典产品，也是游戏《荒野大镖客2》中，一个机器人彩蛋的原型。

1920年代，英国的Eric机器人

人类精巧的机械，是古代长期积累和前两次工业革命的共同成果，也是大量文学作品中机器人的主要载体。但是，照这种思路发展下去，可以实现人造智慧吗？答案显然是否定的。机械人的本质，是执行人类的规定动作，它不但跟智慧毫无关系，甚至不具备完整的执行能力。这一思路最大的问题，是高度依赖原始设计，不能切换既定的功能。

而要接近“人工智能”这座高山，人类需要实现下一个目标，就是没有既定程序的，具体情况具体分析的完整执行力。在让机器说出人话之前，我们要先让机器听懂人类指令。

图灵机

数学计算，是智慧生物的特有行为之一，也是人造机械最早攻克的领域。在天文测算和商品经济中，人们很早就发明了计算工具。因为双手的天然特性，早期计算工具都逢五进位。其中逻辑最简洁的，是中国的筹算体系，而最符合人机功效的，是巴比伦的原始算盘。两种工具在中国的宋元时期结合，就出现了符合筹算原理的一四珠算盘。到了明朝，人们进而发明了二五珠算盘和超规格算盘，促成了东方机械数学的顶峰。比如嘉靖时期的朱载堉，就可以使用超级算盘计算2的12次根号，从而推导出了人类的第一版十二平均律。

朱载堉的81档算盘将2的12次根算到小数点后25位，为彼时西方数学界所不能及

朱载堉《乐律全书》中的十二律律管，解决了人类音乐史的“黄钟不能还原”问题

筹算类工具包含四则运算，也可以通过迭代法开根号，完全适用于古代社会，也是东方代数学相对发达的原因。但由于结构简单，需要背诵口诀，它难以进行三角函数、微积分等复杂运算。缺乏随心所欲的执行力，限制了机械数学的进一步发展。

对西方数学家来说，罗马式算盘的相对低效，和以逻辑学、几何学为核心的数学体系。让他们追求更加精妙的计算工具，以运用数学上的复杂概念。在文艺复兴之后，欧洲手工业突飞猛进，就催生了西方特有的机械式计算器。1642年，帕斯卡发明了滚轮式加法器，实现了加减法的自动化。1672年，数学家莱布尼茨发明了步进式乘法器，实现了四则运算的自动化。

如果说加减乘除平淡无奇，那么机械式计算器的真正突破，来自于英国发明家巴贝奇。1822年，巴贝奇在其论文《论机械在天文及数学用表计算中的应用》中提出了差分机，它可以利用牛顿差分公式，为小于七阶的多项式生成查询表。这一概念很快轰动一时，因为理论上说，任何解析函数都可以进行泰勒级数展开，并利用差分机求解。这在当时的数学应用中，几乎相当于无所不能。1822-1832年，差分机项目完成了七分之一，但因为工艺复杂、造价昂贵，英国政府最终放弃了支持。后来1991年，为了庆祝巴贝奇200周年诞辰，伦敦科学博物馆复刻了这一机器，验证了巴贝奇的原始方案。

差分机（复刻版），其原版完成度为七分之一

虽然差分机项目并不成功，但它启发了人类思考一个问题，就是是否存在一种机器，可以彻底重复人的计算行为。1837年，作为先驱者，巴贝奇提出了他的终极答案：分析机。分析机使用蒸汽驱动、打孔卡输入、打印机输出，拥有运算单元和存储单元。它使用指令集控制运算过程。使用者需要编写程序，根据具体要求解决计算问题。在经费不足的困境中，巴贝奇完成了分析机的基本方案和24个算数程序。

分析机的图纸

后来的事实证明，分析机找到了正确的方向，但其做工要求超前于制造业水平，也没有从逻辑学的高度总结设计思路。随着电气革命继续进行，分析机的瓶颈才逐渐解决。1847年，布尔提出了二元逻辑代数。1891年，电话交换系统的改进，推动了逻辑电路的发展。1904年，弗莱明发明了真空二极管，它最终成为了电路的核心逻辑元件。1936年，24岁的图灵在论文《论可计算数，及其在判定问题上的应用》中，通过定义图灵机，规范了什么是完整的计算能力，开创了计算机科学。所谓图灵机，就是可以在存储介质的任意位置写入或擦除符号的概念机器，它复刻了人在纸张上的演算行为。当一个指令集具有条件语句、循环语句、写入数据等功能时，它就可以实现图灵机的全部功效，这叫作图灵完备性。

图灵机的概念

在图灵机概念提出之后，现代电子计算机就呼之欲出了。在二次大战期间，德国研发了机电计算机Z系列，最终毁于战火。英美两国也研发了电子计算机巨人和ABC，但它们缺乏图灵完备性。人类第一台图灵完备的纯电子计算机，是美国1946年发布的电子数值积分计算机，ENIAC (埃尼阿克)。随后电子计算机先后引入了冯诺依曼结构，晶体管和集成电路，成为了今天的日常用品。

第一台纯电子计算机：埃尼阿克

电子计算机是人类第三次工业革命的核心硬件，它通过研究机器是否具有可编程性，实现了人造工具的完整计算能力。而通过对输入输出进行调整，电子计算机就可以实现完整的执行能力，成为人工智能的硬件平台。这不得不说是一个伟大成就。

然而，如果我们思考人造智慧这一宏伟目标。电子计算机的发明，也只是前进了一小步。因为电脑始终听命于人，还没有进行思考和判断。要让人类的宏图伟业继续前进，我们还要完成下一个目标：让机器开始思考。

推理机

在人的各种智慧当中，最难以描述的也许是自我意识，而最容易模仿的是逻辑推理。逻辑推理有演绎和归纳两大分支，演绎法从规则出发，归纳法从数据出发。

由于“机器服从于人”的思维定势，在人工智能的早期尝试中，人们倾向于把大量知识和规则灌输给机器，再让机器进行推演，这就是20世纪中后期专家系统。专家系统的原理是，任何智慧都建立在知识体系之上，只要我们把足够多的经验教给机器，它就可以重现人类的推理判断，甚至骗过图灵测试。基于这一思路，人类在1970年代开发了大量专家系统，包括有机化学领域的DENDRAL，医疗领域的MYCIN，计算机销售领域的XCON，以及地质勘探领域的PROSPECTOR。由于电脑的计算速度和可靠性，这一类人工智能软件大幅提高了相关行业的效率。

早期人工智能：MYCIN医疗系统

而90年代的IBM公司，也从这个方向对人工智能发起了挑战。实际上，第一个战胜棋类游戏冠军的AI算法并不是2016年的AlphaGo，而是早在1997年就险胜卡斯帕罗夫的国际象棋软件深蓝。在深蓝系统中，有象棋专家对大量人类棋谱的评价，不同棋子的战斗力，和一个启发式算法。在对弈中，深蓝会不断地给所有可能性打分，并选择分数最高的处理方式。而IBM使用了大量的专属芯片，来保证这一复杂系统的计算速度。

1996-1997年的深蓝 vs 卡斯帕罗夫

深蓝并不能对卡斯帕罗夫形成碾压优势，也不能进行自我升级，但它确实是人工智能领域的里程碑。早期的语言处理、图像识别，智能导航和游戏AI，都采用了基于启发式算法的智能系统，这跟深蓝的原理是类似的。

以专家系统为核心的推理机，是人工智能的第一组尝试，也取得了显著的成就。但这个思路的缺点显而易见，就是它只能从规则出发，不能从数据出发，不具备完整的推理能力。在大量实际应用中，人类无法事先制定规则，而要根据观察和数据总结规则。推理机的这种硬伤，间接导致了1990年之前的AI投资的两次寒冬。所以归纳推理，才是复刻推理能力的难点，也是人工智能的下一个目标。

学习机

这里我们终于说到了今天的主角，就是模拟归纳推理的机器学习算法。而在阐述之前，我们先要思考一下，归纳推理可以解决哪些问题？比如说，医学家通过案例，总结疾病种类，叫作分类问题（Classification）。科学家通过数据，进行参数估计，叫作回归问题（Regression）。文学家通过经验，创作小说故事，属于生成问题（Generation）。机器学习的主要目标，就是复刻人类从数据出发，解决分类、回归、生成等问题的方式。比如自动驾驶的图像识别是分类算法。AI股市预测是回归算法。AI下棋是强化学习算法。而AI的绘画、语音、聊天等明星产品属于生成算法。

机器学习解决的三种问题

在所有问题中，分类是大部分归纳算法的基础，也是最容易解决的问题。因为类别本身是一种非此即彼的离散变量。只要我们用分类算法生成连续变量，就可以解决回归问题。而对数据点的全部特征同步回归，就可以解决生成问题。所以机器学习的早期研究，集中于分类算法的开发。一个极简的案例是，如果一张棋盘上同时有黑子和白子，它们的分布满足某种神秘规律，那么一个电脑程序要怎样通过归纳推理，掌握这个未知分布呢？

分类问题的极简案例：区分黑白子

首先，归纳推理从数据出发。我们就把所有棋子一分为二。第一组叫训练样本，第二组叫测试样本。其次，我们定义并优化一个分类模型，使它尽可能区分训练样本中的黑白子。最后，我们将调整好的模型应用到测试样本中，看它是否仍然保持分类能力。这就是分类算法的一般流程，它的核心是模型的选择。

举例来说，如果我们给训练样本的每一个黑子周围画一个圈，然后说圈内属于黑子，圈外属于白子。我们就建立了最近邻（kNN）模型。如果我们对棋盘进行横向和纵向的不断切割，然后试图规定不同区域的归属，我们就选择了决策树（Decision Tree）模型。这样的算法经常简单有效，但由于训练样本的统计涨落，它们也可能顾此失彼，掌握不到真正的规律。而要使用智能的方式划定边界，我们需要在棋盘上画出特定的线条，甚至复杂的曲线。这就引出了高级的机器学习算法。

简单的分类算法更容易受到统计涨落的干扰

在任何平面上，我们都可以定义直线函数，它由平面的两个维度，各维度的权重，以及一个偏置常数组成，如果我们规定这条直线是黑白子的分界，我们就建立了一个线性回归模型，当棋子的坐标使直线函数大于或小于0时，这个模型就会被激活，返回不同的分类代号。

线性回归模型

由于该模型具有输入、权重、偏置、累加和激活的结构，它很像生物神经元的树突、突触强度、静息电位、信号累加、和动作电位。因此线性回归模型，被称为单个的感知器（Perceptron）或神经元（Neuron）。

线性回归模型的逻辑

生物神经元的逻辑，它跟线性回归模型很相似

而如果使用多个神经元和整流函数进行激活，就等价于在决策之前，先用多条线性边界划定决策区域，这叫作插入隐藏层。当隐藏层的结构比较复杂时，决策区域的边界就会形成优美的曲线，与目标区域重合，从而解决分类问题。这就是多层感知器（MLP），即前向神经网络（NN）的基本原理。

多层感知器（前向神经网路）的原理

当我们改变隐藏层的深度、功能和信息传递方向时，就产生了今天市面上的各类神经网络。而当我们改变神经网络的输出层时，就可以把目标从分类问题，转移到回归或生成问题了。

目前流行的神经网络算法

机器学习的真实应用，通常有特定的神经网络架构。比如AI换脸就属于生成对抗网络（GAN），它用一个神经网络作为生成器，产生两种人脸的区别，另一个网络作为鉴别器，区分真假人脸，两个模块互相对抗，就可以提高自身的效能。而ChatGPT，使用了包含注意力机制的转换器架构（Transformer），它可以对大量输入数据进行全局考量，从而特别适合语言的生成。总而言之，在2023年所流行的，凡是处理复杂数据的AI，大多来自于神经网络。

AI换脸使用的生成对抗网络（GAN）

然而，当我们回顾历史，就会发现一个神奇的事实。就是人类早就发明了神经网络，及各类机器学习算法。早在1943年，人们就提出了神经网络的麦卡洛克-皮茨模型（《A logical calculus of the ideas immanent in nervous activity》）。1957年，美国心理学家罗森布拉特发明了感知器算法。1986年，人们已经提出了多层神经网络的反向传播（Backpropagation），确立了现代神经网络的理论基石。而其他算法也不遑多让，同样能解决非线性问题的决策树和向量机（SVM），都是在1970年前后提出，1990年前后成熟的。

既然机器学习是模拟归纳推理的关键工具，为什么在1990年代成熟之后，它没有马上获得足够重视呢？很简单，第一，计算机没有足够的算力，第二，互联网没有足够的数据。在外界条件的限制下，早期机器学习并不能高效地处理复杂数据，以至于较为简单的算法反而能获得更好的效果。所以在1985-1995年之间，人们更喜欢决策树算法，在1995-2005年之间，人们更偏好向量机算法。神经网络则长期被雪藏。

但是，神经网络有一个独特优势，就是它每一层的多个神经元支持并行计算。到了2006年，由于显卡效率的提高和并行计算的开放，神经网络的算力出现爆发，使得机器学习变得比任何算法都适合复杂数据，从而改变了人工智能领域的面貌。在2010年之后，对神经网络架构的创新犹如雨后春笋，就促成了我们今天面对的一大堆AI应用和“新一轮产业变革”。

神经网络脱颖而出的关键：支持并行计算

以神经网络为核心的机器学习，是对人类归纳推理能力的统计模拟，也是人工智能目前达到的最高水平。但这个炙手可热的创新领域，是否可以复制人类的智慧，即实现通用人工智能呢。如果你愿意跟ChatGPT多聊几句，就可以发现，即使是复刻人类的全部推理能力，人工智能也还有很长的路要走。

人工智能了吗？

在天龙八部中，有一个经典情节，叫作珍珑棋局。面对一个围棋棋局，人类却出现了奇怪的联想：段誉想到了爱心，慕容复想到了权力，段延庆想到了身世。如果这三个人穿越到今天，恐怕都不是AlphaGo的对手。但这个故事显示了人类独特的推理优势，即触类旁通的泛化思考能力。

人脑的特点之一：泛化思考能力

一个小孩看过孙悟空，就能在动物园里找到猴子；一个苏联人开过拖拉机，就可以开T34坦克；一个程序员熟悉c ，就可以勉强写出python；而一个厨子看过兵法，就能开通防忽悠热线。这些对人类来说很正常的推理，对机器来说就是无中生有的魔术。因为人可以在记忆中提取抽象概念，进行少样本，乃至无样本学习。换句话说，人脑从娘胎里面就已经开始了它漫无目的地预训练（Pre-training），而电脑只能根据具体任务临时抱佛脚。当一个任务中的数据类型和目标不断变化，比如一种棋类游戏会随时改变规则时，人脑就会利用其转移学习（Transfer learning）能力轻松取胜了。

而强行要求电脑对一切可能的目标暴力训练，虽然理论上可以解决问题，但实际上会造成算力的崩溃。所以要实现强人工智能，电脑仍需理解人脑的学习方式，这就是人工智能的元学习（Meta-Learning）方向。

当前机器和人脑的不同学习方式

在元学习能力的基础之上，人脑的第二个优势，是对抽象概念的创新和整合，也就是康德哲学中的先天综合判断。无论是数学上的费马大定理，还是哲学上的辩证法，发明新概念，都是人类智慧的核心。而这又是当代人工智能无法涉足的领域。

在专家系统中，电脑可以用人类规定的概念进行推理，但不可能发明新的概念，因此它只能进行先天分析判断。在深度神经网络中，电脑优化了成千上万个参数，但这些参数同最终结果的联系不具备可解释性，因此它只能进行后天综合判断。可以想像，在元学习能力出现之后，实现先天综合判断，从而复刻人类的思辨过程，是通用人工智能的第二个难题。

人工智能尚不能实现康德的“先天综合判断”

而即使拥有了思辨能力，人工智能还有最后一座高山，它就是人类的自我意识和真情实感。这个终极问题并不属于人工智能领域，而是生物学、心理学、和伦理学的一个未解之谜。至少在今天，人类根本就不了解意识和情感的产生机制，也不知道假如机器也有意识和情感，我们应该怎样面对。我们只能说，如果没有意识和情感，人类就不再是万物之灵，人生也会失去意义，所以这是人造智慧早晚不能回避的问题。但由于人工智能的前两个问题已经足够困难，这个终极问题已经是空中楼阁，也就没必要展开讨论了。

结语

高山仰止，景行行止，虽不能至，然心向往之。千百年来，人类对人造智慧的追求虽然十分缓慢，但从机械人、图灵机、推理机到学习机，我们的努力也一直在取得长足进展。在2023年的今天，我们可以让AI生成绘画、语音、文本，让AI在竞技游戏中战胜人类，这已经是巨大的成就，也无疑正在改变人类的生产方式。