人工智能的未来之路（方块问路）

人工智能的未来之路

演讲人：刘嘉演讲地点：清华大学人文清华讲坛演讲时间：2022年11月

演讲人简介：

刘嘉，麻省理工学院博士，心理学家，长期从事心理学、脑科学与人工智能研究。清华大学基础科学讲席教授、心理学系系主任、清华大学脑与智能实验室首席研究员、北京智源人工智能研究院首席科学家。

人的认知与大脑构造

为什么人如此难以理解？为什么这个世界总是让我们产生很多困惑？这是人类从有文明开始就一直存在的问题，道理其实非常简单。

首先，我们看见的世界只是这个世界中非常小的一部分，我们忽略了绝大部分的东西。

我们在清华做过一个小实验：一位戴黑色渔夫帽的女士在清华问路，在她问路的时候，我们安排一块隔板从戴黑色渔夫帽的女士和被问路的人之间穿过。当板子过来时，原来问路的女士抬着板子走开了，而原来抬板子过来的另一位戴蓝色渔夫帽的女士留了下来，由她继续问路。在7个被问路的人中，只有一个人注意到了提问人的变化。这个小实验的问路场景里，人们其实只看见了世界上非常小的一部分，由于这些是不重要的信息，人们就容易忽略掉这些信息。

但更可能发生的是，人们的认知还会扭曲这个世界。比如图1这一组图里，有两个拼在一起的方块图，一个颜色深一点，一个颜色浅一点，还有一个圆环，它的灰度介于两者之间，圆环左右两半颜色一样。但如果把两个方块图分开，大家一般都会觉得圆环的颜色一边变浅了，一边变深了，事实上，它们的颜色仍是完全一样的。再把这个圆环分开，变成上下移动，这时看见的东西有立体感了，好像是深灰色的东西盖上了一层浅色的毛玻璃，以及浅色的板盖上了深色的毛玻璃。

我们无时无刻不在观察这个世界，但又无时无刻不在扭曲这个世界，这到底是为什么？

这其实取决于我们的视觉系统。假如外部世界存在一个绿苹果，它会以大约100亿比特/秒的信息量进入我们的视网膜，视网膜通过约100万个神经连接，连接到视觉皮层，这个时候我们的信息流就从百亿比特/秒变成600万比特/秒；经过视觉初级皮层加工再传到高级皮层来决定看到的东西是什么时，信息流又变成了100比特/秒。这时信息量衰减了1亿倍。可见，当我们做决策时，我们获得的信息其实是非常有限的，所以我们就需要构造出新的东西，把缺失的信息补上，而我们的大脑就像魔术师一样来弥补这些缺失的信息。这一方面可以解释为什么有很多东西我们看不见——因为传输过程中已经被人脑衰减掉、过滤掉了；同时也可以解释，为什么有的人看见一个绿苹果会认为是红苹果——因为这个重构的过程是创造性的，不是简单复制。正是基于这个构造，我们也可以把一个苹果看成一个梨子，这是我们大脑构造的过程，是一个正常的现象。

人脑重构的意义

为什么我们的大脑不能像摄像机、照相机一样忠实客观地反映物理世界，为什么非要自己来重构这个世界？这样的人脑重构究竟有什么好处？

正如康德所言：“没有感觉支撑的知识是空的，没有知识引导的感觉是瞎的。”这句话的前半句说的是，如果没有外部的输入，我们很难构建自己的心理世界，但我想强调的是下半句“没有知识引导的感觉是瞎的”。如果你不知道你看的是什么东西，那你就等于什么都看不见。这是因为，这个世界是模棱两可的，需要我们去构造，把我们的理解加进去，只有这样我们才能真正知道这个世界究竟发生了什么。

与理解相比，更重要的是创造。当大脑没有被外部信息填满而留下空间时，我们能够在这空间里创造出自己想要创造的东西。正如《小王子》的作者圣·德克旭贝里所言：“一堆岩石在有人对着它思考时就不再是岩石了，它将化身为大教堂。”这就是人类了不起的创造——当我们的祖先跋山涉水来到一片荒原，他们看见的不是一堆乱石，而是未来的家园。所以，在过去的300万年里，人和猴子分开进化，人的大脑体积增加了3倍；但是，这体积并不是平均增加的，增加最大的地方在额叶：与200万年前的祖先能人相比，我们的头骨往前突出，以容纳更大体积的额叶，而强大的额叶使我们能构造出不存在的东西。比如我们的祖先准备去打猎，不用等看见猎物才做出反应，他只需要提前想象狩猎的情景，就可以把一切安排好。如此一来，人可以把未来在脑海里“演”一遍，构建出一个个可能的未来，从而对未来做出行动方案，这是人类能够战胜其他比我们更强大更凶猛的动物，成为万物之灵的关键。这也印证了荀子的一句话：“然则人之所以为人者，非特以二足而无毛也，以其有辨也。”

重构心理世界的知识从何而来

人脑对世界的构造，总是需要先验知识，而先验知识一部分来自基因的烙印。换言之，我们来到这个世界时并不是一块白板，而是带着32亿年的智慧来的，这些智慧就印刻在基因中。

我们曾经用我校心理系女教授和女博士后的照片，做了一个有趣的小实验：如果把她们的脸全部叠加起来，做一张“平均脸”，大家普遍反馈说这张“平均脸”充满两个字：“睿智”。“平均脸”所代表的意思是什么？人脸其实是我们的基因图谱——我们的基因都写在脸上，当我们把脸平均起来之后，得到的是这18位老师平均的基因，平均的基因代表突变很少。而基因一旦突变，大概率是有害的，基因突变越少，说明基因越好，携带遗传性疾病的概率就越低，这就是为什么人们普遍会觉得“平均脸”更好看、更符合我们的审美。

既然脸是我们的基因图谱，对生存来讲如此重要，我们便需要发展出非常强大的看脸能力，即面孔识别。我们研究小组已经通过实验证明，面孔识别能力也写在人类的基因里。我们找了两类双胞胎，一种是同卵双胞胎（由同一个受精卵发育而来），基本上具有100%相同的基因。另外一种是异卵双胞胎（由两个独立的受精卵发育而来），基因遗传物质的平均遗传度大概是50%。通过比较他们在面孔识别上的能力，我们发现同卵双胞胎在面孔识别任务上的相似程度更高，即面孔识别的能力受遗传因素的影响。这一点也可以从我们的另一研究得到验证，即面孔失认症或者大家说的“脸盲”。

在图2显示的这个遗传树里，只要孩子有面孔失认症，他的父母中大概率有一个也是面孔失认症。第二幅图里有一个有趣的三角，三角形底边的两个端点代表的就是同卵双胞胎。当时我们在大学里测试了一个女孩，发现她有面孔失认症，那女孩说她有一个同卵双胞胎姐姐，我们把她姐姐请来一测，发现果然也是面孔失认症。

②

“自尊”对大脑的影响

除了看别人的面孔，我们也常常照镜子看自己。最喜欢照镜子的人据说是纳西索斯，他是古希腊神话里的超级帅哥，对自己的面孔着了迷，每天趴在溪边，通过水的倒影欣赏自己的绝世美颜。心理学由此称这种现象为“纳西索斯情结”，意思是一个人高度自恋，对自己爱到了极致。

其实对自己的爱，对自己面孔的欣赏，背后反映的是一个非常重要的特质，即人类的自尊。自尊是个体对自己的总体态度，人分成高自尊和低自尊两种。

什么是高自尊？这里有四个问题：1.你是否认为你是一个有价值的人？2.你是否认为你拥有很多美好的品质？3.你是否对自己满意？4.你是否对自己持肯定态度？

如果你对每道问题的回答都是“是”，那么你就是高自尊的人。“自尊”在我们面临困境时能提供极大的帮助。

当一个人长期经受压力和苦难，身体会变得差，心理幸福感会低下，更糟糕的是，认知发展会受损，认知能力会比别人低很多，体现在大脑上就是海马体会受到极大的损伤，而海马体是人学习、记忆、空间导航的中枢。

自尊在压力源和心理世界之间建立起一道牢不可破的防线，它就像勇敢的士兵一样挡在人的心理世界面前，帮人把压力、负性事件挡在外面，让人能够正常、健康地成长。人有两种资本，一种是物质资本，一种是心理资本，自尊自信、理性平和，这些就是心理资本。物质资本富裕的人未必有高自尊，而处境不利的人没有丧失他的自尊与自信时，就很可能在触达低点时再反弹，并达到人生新的高度。

我们所处的物理世界永远是不完美的，总有让人不满意之处，但是每个人可以在一个不完美的物理世界里构建出一个美好的心理世界。为什么？因为我们的大脑就是一个构造体，从物理世界所接收到的信息，经过大脑的工作，可以构建出一个完美的心理世界。这正印证了社会心理学家班杜拉所说的一句话：“人既是环境的产物，也是环境的营造者。”

人的双链进化

人和动物的进化有着本质的区别。动物是按照基因，按照达尔文的进化论，一点点试着生存、前进。人除了有代表着过去的生物基因的演化，还有另外一条演化线，即基于社会基因（Meme）的演化，而这条线带着我们以与动物不一样的方式前进。

生物基因由一些碱基对构成，那社会基因是什么？远古时，我们的祖先中有一位突然因为某种原因能够把火生起来了，一种知识、技能被创造出来，这就相当于基因在突变，一个优秀的基因产生了。会生火的这种技能、知识就像基因一样开始传播给其他人，从一个部落传到其他部落，慢慢地生火就从个人拥有的技能变成人类拥有的技能。渐渐地，人们又开始会制作长矛和其他工具，经过漫长的发展，逐步构建成今天的人类社会。这就是为什么我们一直强调知识、文明是如此重要，而大学就是文明的产房。孟子说过：“人之所以异于禽兽者几希；庶民去之，君子存之。”这里的“几希”就是我们的文明，就是我们在演化过程中所创造所传播的社会基因。

科技发展的主要目的之一，是要让知识的扩散变得更快、更便利。大约在六千年前，人类最早的文字楔形文字在新月地带被发明出来，使得人类的知识技能可以被记录下来，可以被忠实传播。之后的活字印刷，以至今天的电话、电报、互联网等等这一切，使得我们能够更加高效地把知识传播出去，推动文明加速演化。

人类的文明时代大约可以分成三个阶段：第一个阶段是原始文明，大约经历了两百多万年，它的前十万年和后十万年没有什么太大变化。第二个阶段是农业文明，大约经历了四千多年，这个时候人类开始变成文明种族，懂得了一些天文地理知识等等，学会种植庄稼，可以驯服野兽，把它们变成家畜，但发展依然十分缓慢。真正带来巨大变化的是第三个阶段，即工业文明。工业文明从开始诞生到现在，不过是短短三百年；但在这三百年里，变化是如此之快，以至于我们不得不将它再细分成四个阶段，第一个阶段是机械化时代（1760-1840年代），出现了蒸汽机等。第二个阶段是电气化时代（1840-20世纪初），出现了电力等。第三个阶段是自动化时代（1950-21世纪初）。而第四个阶段，就是我们现在所处的信息时代。

人工智能的进展

2002年，我的博士论文答辩题目是《面孔识别的认知神经机制》，在答辩的第二张PPT里我这么写道：“现在最先进的机器识别面孔的正确率只能是随机水平，而人类能够在一秒钟内识别上百张面孔，为什么人类如此伟大，为什么人类如此聪明，为什么机器如此愚笨？”

在2002年，机器识别人脸还可以说是“一塌糊涂”。到了2015年，我作为江苏卫视《最强大脑》的总策划，设计人机大战项目，即机器和人比拼面孔识别，看谁的能力最强。比赛的结果让我震惊：经过十几年的发展，人工智能已经强大到在人脸识别上胜过人类的最强大脑。我当时非常庆幸我的博士论文是在十几年前答辩的；如果我现在这么开题，可能就拿不到博士学位了。

当时除了震惊，还有好奇：人工智能究竟是靠什么来达到和人一样的面孔识别水平，甚至超越人类的水平？

我们建立了一个人工神经网络，训练它去识别性别，即区别是男性还是女性，它的正确率能达到100%。这个神经网络究竟是靠什么把男性和女性区分开？我们找了一张中性面孔，就是把男性和女性面孔求平均，给它加上随机噪音，然后“喂给”人工神经网络，它有时候会判断这个图是一个女性，而这个面孔加上其他噪音，则会被判断为男性。于是，完全一样的底图，加上不同的噪音，就会得到一组被人工神经网络认为是女性的图和一组被认为是男性的图。当把这组被认为是女性的图中的中性面孔去掉，只留下噪音时，这些噪音叠加起来，我们得到的就不再是随机噪音，而是人工神经网络用于识别女性的内部表征。同样，我们也可以得到男性面孔在这个神经网络中的内部表征。进一步，我们把两者相减，就得到了人工神经网络用以区分男性和女性的模式。在这个模式里，可以看到，眼睛、眉弓、鼻子、人中是它认为的区分男性和女性的关键特征。而这些关键特征，的确是我们人类用于区分男性和女性的关键特征，它们的相似度达到了0.73，这是非常高的相关度。但是，自始至终，我们并没有告诉过这个人工神经网络：你应该用什么方式去识别男性和女性；只是要让它做这件事情，它就会产生跟人类类似的内部表征、认知操作，从而完成性别判断。也就是说，人工智能在这个过程中呈现出和人类一样的心理世界。

在那一刻我开始意识到，生物过去的进化都是一条单线，基于碳基的方式运行。但是当人类创造出人工智能之后，人类文明就很可能不再是平滑向前，接下来或许会出现一种革命性的跃迁，可能在文明的进化中出现奇点。

为什么这么说呢？我们来看人类和人工智能的三大区别。

第一，算力。人类的大脑通常重3.5斤左右，虽然只占我们体重的2%，但消耗了我们身体25%以上的能量，因此它是一个耗能大户，已经达到了我们身体能够支撑的极限。所以，人类的大脑看起来已经到了进化极限，再给一千年、一万年，人类的大脑很可能不会变得更大，聪明程度也不会增加。但是对于人工智能来说，一块CPU不够可以再加一块CPU，一块硬盘不够可以再加一块硬盘，理论上它有无限的算力和无限的存储能力。

第二，寿命。人的寿命是有限的，再伟大的思想也有停止的一刻。但人工智能的寿命是无限的，CPU烧了可以换块CPU，电线断了再换根电线就行。

最关键的，是人工智能的无尽可能。对于人类而言，一般来说有两种知识，一种是可以描述的明知识，比如牛顿定律。一种是可以感受但难以描述的默知识，比如骑自行车的知识。此外还有第三种知识，是人类所没有而机器拥有的，即暗知识，它不可感受，不可描述，不可表达，它是存在于海量数据中万世万物之间的联系，数量极其巨大，人类无法理解。

2016年，AlphaGo击败了人类围棋顶尖高手之一李世石。当时世界围棋积分排名第一的围棋手柯洁说：“我们人类下了2000年围棋，连门都没入。”棋圣聂卫平说：“我们应该让阿老师（AlphaGo）来教我们下棋。”这不是他们谦虚，而是事实。一个人不吃不喝一辈子所下的围棋最多也就是10万盘，而从人类发明围棋到现在，累计总共下了大约3000万盘围棋。而围棋的空间有多大呢？一个格子可以有三种状态，放白棋、放黑棋或者不放，而棋盘总共有19×19个格子，所以它的状态总共有319×19种，大约等于10172，这比整个宇宙中的原子数量还要多。相对于如此庞大的围棋空间，人类的两千多年探索，只是这个空间里一个微不足道的小点，而大部分空间还是一片黑暗。AlphaGo之所以比人类更加强大，并不是它比人类聪明，而是因为它探索了更大的空间，因此找到了更多下法而已。牛顿曾说：“我就像在海边玩耍的小孩，偶尔拾到美丽的贝壳，就高兴不已。但面对真理海洋，我仍一无所知。”现在看来，这不是牛顿谦虚，而是实情。

再看一下艺术。目前人工智能已经可以制作达到专业水平的绘画（图3、图4）和音乐。此外，律师、医生、税务师、咨询师等需要非常专业的知识的“金领”职业，也逐渐出现了人工智能的身影，看起来很可能有一天会被人工智能取代。神经网络之父、深度学习的创始人杰弗里·辛顿（GeoffreyHinton）接受麻省理工学院的《TechReview》采访时说：“将来深度学习可以做任何事情。”

③

④

人工智能与类人智能的巨大差距

人工智能真的已经无所不能吗？心理学家考验了当时最先进的人工神经网络模型GPT-3。他们认为之所以GPT-3显得非常聪明，是因为问了它智能的问题。假设问它一些很“弱智”的问题，它会怎么回答？他们问它：“我的腿上有几只眼睛？”这个连没有上过学的小孩都能正确回答的问题却难倒了GPT-3，它回答说：“你的腿上有两只眼睛。”这表明它并不理解眼睛是什么，它只是在做关联而已——人有两只眼睛，腿是人的一部分，所以它认为腿上应该有两只眼睛。这个例子充分印证了爱因斯坦名言：“任何傻瓜都知道，关键在于理解。”GPT-3知道但并不理解眼睛究竟是什么，而理解，恰是我们人类真正了解这个世界、能在这个世界里自由徜徉的关键。

杰弗里·辛顿显然也意识到了这个问题，他表示，我们可以进一步发展人工智能，当一个人工智能能够准确描述一个场景，它就是理解了。真是这样么？假设有这么一个场景：有个人从柱子上狠狠摔了下来，摔倒在地。如果让人工智能来描述这个场景，它会说一个人从柱子上掉下来了。而我们对这个场景还有一个很重要的反应——“疼”。这个区别体现了人类具有一种特别重要的能力，即共情：别人遭受了苦难我能感同身受，而这种感受是自动的。共情不是一种奢侈品，而是一种必需品，因为当一个孩子没有这种感同身受的能力，缺乏同理心，他在小时候就很难对父母产生依恋，很难和其他小朋友玩到一起；在长大以后，会对社交常情缺乏理解，对他人情绪缺乏反应，不能根据社交场合调整自己的行为，有可能做出反社会的行为。假设我们的未来是由一台台没有共情的机器所组建的“自闭症”式的社会，这个社会还能有文明吗？这个社会还能有发展吗？所以，人工智能的奠基人之一马文·李·明斯基说过这么一句话：“现在的问题不是一个智能的机器是否拥有情感，而是不拥有情感的机器是否能拥有智能。”在马文·李·明斯基看来，情感是智能的基础，得先有情感才有智能。

又如在好莱坞电影里，美国的黑手党跑去找一个店家说：“你这个蛋糕店看上去真不错，如果意外发生火灾烧掉那就太可惜了。”请问这个黑手党的话是什么意思？A：请店家做好消防工作，别烧掉了店铺，那样太可惜了。B：请店家交保护费，要不然就要烧掉店铺。对我们而言，答案显而易见是B，是黑手党在威胁并勒索店家。但是对于机器来说，它还很难理解这话背后隐藏的推理和因果。正如古希腊哲学家德谟克利特所言：“我宁可找到一个因果的解释，也不愿成为波斯人的王。”对人而言，我们认为万事万物都是有因果的，而正是这种对因果的执着使我们能够推理，能够把零散的万世万物联系在一起，构成一个个故事。

其实笛卡尔四百多年前就说过：“即使机器可能在某些方面做得和我们一样好，甚至更好，但它们在其他方面不可避免地会失败。这是因为它们不是通过理解而只是根据预设来行动。”这一点，到现在还没有发生本质的改变。

所以，虽然目前人工智能取得了很高的成就，但是和人的智能仍然存在巨大差距，依然没有达到类人智能。那么未来如何实现类人智能呢？我认为，关键点就在于脑科学人工智能。

举个简单的例子：线虫是一个非常简单的生物，只有302个神经元。但是，麻省理工学院的研究者模仿了其中19个神经元，就完成了自动驾驶这个任务，其参数比传统的大模型足足低三个数量级，只有75000个参数，而这个仿生的人工神经网络对不同道路具有非常高的通用性和可解释性，以及非常强的鲁棒性。仅仅模仿来自简单生物的19个神经元，就可以完成自动驾驶的初步任务，这是因为生物不是靠神经元的数量取胜，而是靠32亿年进化形成的智慧取胜，这项研究模仿的其实是32亿年进化形成的智慧。从这个角度讲，人类的大脑是目前世界上最聪明的大脑，有860亿个神经元，平均每个神经元有3000个连接，它代表着宇宙中在智力上所能达到的最高成就。那么，人工智能为什么不能向人脑学习，以人脑为模板、以人脑为借鉴，来发展出更好的人工智能呢？

对线虫神经元的模仿，只是一个开始，下一步也许我们会去模仿神经元数量百万级的果蝇、更高量级的斑马鱼，甚至小鼠、大鼠、猕猴，最后是人类。仅仅从神经元的数量上来讲，这就是一个巨大的挑战，因为神经元的数量足足差了9个数量级，而还有更多更大的挑战来自机制和算法，以及更多的未知。但是我坚信，脑科学加上人工智能，有一天也许能够造出一个媲美人脑的数字大脑。

小结

莎士比亚说：“所谓过往，皆为序章。”我们的现在是过去的未来，已经写定，但我们的此刻绝对不是未来的过去，因为我们的未来是未定的，取决于我们现在如何做出选择。

人类发明了人工智能，在今天随着算力的增加、技术的进步，它开始有了超越人类的可能。我们现在需要对具有一切可能的未来做出选择。

在我看来，未来大约有三种可能。第一种，人工智能像科幻电影《星球大战》里的R2-D2一样，是人类忠实的伙伴，成为人类非常好的朋友，帮助人类变得更强大。第二种可能，我们构建出一个数字大脑，它的能力可能比现在人类的大脑更强，这时可以实现人机合二为一，把我们的意识、记忆、情感上传到这个数字大脑里，如果CPU坏了就换一块CPU，内存需要扩大一点就加点内存，这样人就可以获得精神上的“永生”。未来学家库兹韦尔在《奇点来临》这本书中认为大约在2045年，这一刻就会到来。第三种可能，就是科幻电影《终结者》里所展示的，人类文明消失。

未来会怎么样，最终取决于我们现在做什么。这很重要，因为我们今天站在了这个进化的节点之上。

《光明日报》（ 2022年12月24日10版）

来源：光明网-《光明日报》

查看全文