一、AI智能体是什么?
斯坦福大学华人科学家吴恩达教授定义了AI Agent智能体的四个设计模式能力。
在商汤科技高级研发总监卢乐炜看来,智能驾驶系统就是一种“智能体”,AI智能体在复杂的交通环境中,做的会比大模型更好。
例如智能驾驶大模型理解车辆与道路、专注于开车任务,而智能驾驶的智能体则面对世界复杂场景有类似于人的更为通用的理解、行为,比如主动礼让救护车、小学生招手过马路时停车、阅读不同地区的指路牌。未来的智能驾驶汽车是没有方向盘的,这就要求汽车智能体能够应对所有突发情况。
在2024年初清华大学智能产业研究院发布的《个人大语言模型智能体》论文中,设计了L1-L5级AI Agent智能等级[1]:
图:LLM基础大模型与Agent其他部分的关系图(信息来源:清华大学)
该报告中做了业内调研,得出一些AI Agent产品的设计结论:
二、中国AI智能体水平如何?
在2023年,商汤科技、清华大学、上海人工智能实验室等机构的研究人员,做了一个有趣的智能体实验。用GITM智能体(Ghost in the Minecraft)在经典游戏《我的世界》中探险,完成了面向人类玩家100%的任务覆盖率,成功解锁262个物品的完整科技树。
与中国GITM的领先成绩不同,包括美国谷歌旗下DeepMind和OpenAI在内的所有智能体总共只能完成30%的游戏任务,而且其他智能体一共只解锁了78个物体。尤其是在游戏中最难的任务“获取钻石”上,中国GITM智能体取得了67.5%的成功率,比之前的最佳成绩(OpenAI VPT)提高了47.5%。
图:智能体完成游戏任务成功率(信息来源:商汤科技)
训练一个智能体需要多少算力呢?
OpenAI VPT智能体需要6480个GPU天来完成训练,DeepMind DreamerV3智能体需要17个GPU天,而商汤科技和清华大学联合研发的GITM智能体进需要2个CPU天,训练效率呈现“指数级”提升。
图:训练《我的世界》智能体耗费的算力(信息来源:商汤科技)
如人类一样,GITM智能体在《我的世界》中白手起家,在单CPU上只通过2天就能掌握生存技能,例如完成避难所、农田、铁傀儡等复杂任务,并能够创造出自动化设备所需的红石电路,建设进入下界所需的传送门等,这说明中国GITM智能体具有强大的学习能力和可扩展性,在仿真真实世界的陌生虚拟环境中能够长时间生存发展,探索更加高级复杂的世界环境。
传统模式采用强化学习架构,而GITM智能体采用大语言模型作为核心[2]。GITM的研发负责人卢乐炜说,在我们走向通用人工智能AGI的路上,不仅需要一个智能体打游戏,更需要多个智能体分工协作,配合多个人共同完成任务,智能体底层模型的适应性、扩展性非常关键,大语言模型学习“世界知识”,多模态大模型通过强化学习提升游戏、工业、驾驶等仿真环境中的感知能力、推理能力、决策能力、执行能力、改进能力。
全球AI Agent创新浪潮已经到来,2024-2026年会一代更比一代强。有相关预测GPT-5的推理能力显著提升,可能采用了Q*等强化学习技术。
用围棋举例,GPT-4像AlphaGo一样学习人类“棋谱”知识,所以一直超不过人类的顶尖水平,而GPT-5像AlphaZero一样自我博弈“下棋”,就有较大胜算赢过柯洁等世界冠军,因为人类对自己思维的认识存在局限性、误区、盲区,在一些能力上抛开人类的经验智能体反而能获得长足的进展。
另一个值得注意的科技浪潮是“具身智能”,2024年下半年OpenAI有可能将GPT-5和Figure01机器人相融合;马斯克也很可能将大模型、擎天柱机器人“合体”,放入特斯拉超级工厂中提升人机协同的产能和效率。
所以,中国的多模态基础模型与机器人的融合势在必行,而且需要以制造业为目标赛道,逐步构建起新质生产力的国际竞争力。
三、合成数据是AI智能体的“生命线”
在智能体研发中,需要极为重视合成数据。目前Minecraft《我的世界》游戏已经成为高效强化学习的重要环境,对于研究开放世界智能体具有极为重要的意义,这里我们就能明白为什么OpenAI打造Sora文生视频软件,因为Sora能生成高质量、非常逼真的《我的世界》视频,注意这里不是人类玩家的视频,而是大模型直接生成,这就为OpenAI下一步研究智能体、具身智能机器人提供了无穷无尽的AI合成视频数据。
图:合成数据类型(信息来源:Gartner)
Gartner在《为了合成数据的生成式人工智能》[3]报告中提出,全球97%的数据和AI领导者机构都面临真实数据的挑战,并给出了采用合成数据的几点实践经验:
图:为什么需要合成数据?(信息来源:Gartner)
我国的合成数据、仿真平台与智能体水平,决定新一代具身智能机器人的综合能力,与全民新质生产力、中国制造竞争力密切相关。
参考来源:
[1]《Personal LLM Agents: Insights and survery about the capability, efficiency and security》,清华大学智能产业研究院、小米、华为、Vivo、理想等合著,2024年1月
[2]《Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory》论文,商汤科技、清华大学、上海人工智能实验室等,2023年
[3]《Generative AI for Synthetic Data》,Gartner,2023年8月3日
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved