《我的世界》:AI智能体的摇篮

《我的世界》:AI智能体的摇篮

首页模拟经营minecraft国际版2024更新时间:2024-09-22


一、AI智能体是什么?

斯坦福大学华人科学家吴恩达教授定义了AI Agent智能体的四个设计模式能力。

  1. 反思(Reflection):LLM检查自己的工作,并提出改进的方法。
  1. 工具使用(Tool use):LLM利用Web搜索、代码执行或任何其他功能的工具,来帮助自己收集信息、采取行动或处理数据。
  1. 规划(Planning):LLM提出并执行实现目标的多步骤计划(比如一篇论文,首先写大纲,然后搜索和研究各部分内容,再写草稿)。
  1. 多智能体协作(Multi-agent collaboration):多个AI agent协同工作,分工任务,讨论和辩论想法,提出比单个智能体更好的解决方案。

在商汤科技高级研发总监卢乐炜看来,智能驾驶系统就是一种“智能体”,AI智能体在复杂的交通环境中,做的会比大模型更好。

例如智能驾驶大模型理解车辆与道路、专注于开车任务,而智能驾驶的智能体则面对世界复杂场景有类似于人的更为通用的理解、行为,比如主动礼让救护车、小学生招手过马路时停车、阅读不同地区的指路牌。未来的智能驾驶汽车是没有方向盘的,这就要求汽车智能体能够应对所有突发情况。

在2024年初清华大学智能产业研究院发布的《个人大语言模型智能体》论文中,设计了L1-L5级AI Agent智能等级[1]:

图:LLM基础大模型与Agent其他部分的关系图(信息来源:清华大学)

该报告中做了业内调研,得出一些AI Agent产品的设计结论:

  1. Agent的基础能力:第一种能力是“上下文感知”,即从硬件、软件、多传感融合感知环境、感知目标用户,例如当Agent感知我在图书馆,就会通过文本来和我交流;第二种能力是“任务执行”,基于代码、用户界面执行,采用Auto-GPT、LangChain等架构,并在执行任务后做基准评估、测试指标度量;第三种能力是“记忆”,通过历史记录、内容推理获取记忆,管理和使用长时世界记忆、短时工作记忆,并基于原始数据和推理实现自我进化。例如Agent根据交通位置和支付记录推理发现,我每天下班都停留5分钟是为了买一束鲜花。
  1. Agent云端一体部署:88%的人倾向于本地与云端混合方案,仅有云侧部署会带来服务延迟高、个人数据保护等风险。
  1. Agent的语言理解能力第一:Agent服务好人类的前提是用户的意图识别,其次才是上下文学习、常识推理、长文本等能力。
  1. Agent交互方式首选语音:相对于文字、图形界面、虚拟现实等方式,大多数人会倾向于语音和Agent交流。
  1. Agent的关键功能:数据管理和搜索、工作和生活助手、个性化服务推荐、自主规划并完成任务、情感支持和社交互动、数字分身,都是大众对Agent功能的日常需求。

二、中国AI智能体水平如何?

在2023年,商汤科技、清华大学、上海人工智能实验室等机构的研究人员,做了一个有趣的智能体实验。用GITM智能体(Ghost in the Minecraft)在经典游戏《我的世界》中探险,完成了面向人类玩家100%的任务覆盖率,成功解锁262个物品的完整科技树。

与中国GITM的领先成绩不同,包括美国谷歌旗下DeepMind和OpenAI在内的所有智能体总共只能完成30%的游戏任务,而且其他智能体一共只解锁了78个物体。尤其是在游戏中最难的任务“获取钻石”上,中国GITM智能体取得了67.5%的成功率,比之前的最佳成绩(OpenAI VPT)提高了47.5%。

图:智能体完成游戏任务成功率(信息来源:商汤科技)

训练一个智能体需要多少算力呢?

OpenAI VPT智能体需要6480个GPU天来完成训练,DeepMind DreamerV3智能体需要17个GPU天,而商汤科技和清华大学联合研发的GITM智能体进需要2个CPU天,训练效率呈现“指数级”提升。

图:训练《我的世界》智能体耗费的算力(信息来源:商汤科技)

如人类一样,GITM智能体在《我的世界》中白手起家,在单CPU上只通过2天就能掌握生存技能,例如完成避难所、农田、铁傀儡等复杂任务,并能够创造出自动化设备所需的红石电路,建设进入下界所需的传送门等,这说明中国GITM智能体具有强大的学习能力和可扩展性,在仿真真实世界的陌生虚拟环境中能够长时间生存发展,探索更加高级复杂的世界环境。

传统模式采用强化学习架构,而GITM智能体采用大语言模型作为核心[2]。GITM的研发负责人卢乐炜说,在我们走向通用人工智能AGI的路上,不仅需要一个智能体打游戏,更需要多个智能体分工协作,配合多个人共同完成任务,智能体底层模型的适应性、扩展性非常关键,大语言模型学习“世界知识”,多模态大模型通过强化学习提升游戏、工业、驾驶等仿真环境中的感知能力、推理能力、决策能力、执行能力、改进能力。

全球AI Agent创新浪潮已经到来,2024-2026年会一代更比一代强。有相关预测GPT-5的推理能力显著提升,可能采用了Q*等强化学习技术。

用围棋举例,GPT-4像AlphaGo一样学习人类“棋谱”知识,所以一直超不过人类的顶尖水平,而GPT-5像AlphaZero一样自我博弈“下棋”,就有较大胜算赢过柯洁等世界冠军,因为人类对自己思维的认识存在局限性、误区、盲区,在一些能力上抛开人类的经验智能体反而能获得长足的进展。

另一个值得注意的科技浪潮是“具身智能”,2024年下半年OpenAI有可能将GPT-5和Figure01机器人相融合;马斯克也很可能将大模型、擎天柱机器人“合体”,放入特斯拉超级工厂中提升人机协同的产能和效率。

所以,中国的多模态基础模型与机器人的融合势在必行,而且需要以制造业为目标赛道,逐步构建起新质生产力的国际竞争力。

三、合成数据是AI智能体的“生命线”

在智能体研发中,需要极为重视合成数据。目前Minecraft《我的世界》游戏已经成为高效强化学习的重要环境,对于研究开放世界智能体具有极为重要的意义,这里我们就能明白为什么OpenAI打造Sora文生视频软件,因为Sora能生成高质量、非常逼真的《我的世界》视频,注意这里不是人类玩家的视频,而是大模型直接生成,这就为OpenAI下一步研究智能体、具身智能机器人提供了无穷无尽的AI合成视频数据。

图:合成数据类型(信息来源:Gartner)

Gartner在《为了合成数据的生成式人工智能》[3]报告中提出,全球97%的数据和AI领导者机构都面临真实数据的挑战,并给出了采用合成数据的几点实践经验:

  1. 真实世界中的数据集存在访问难、错综复杂、获取难,所以研发机构采用合成数据。
  1. 合成部分数据是最常见的方法,84%的机构合成文本数据,其次是合成图片(54%)、合成表格(53%)、合成视频(28%)、合成音频(11%),伴随音视频大模型的提升,会有更多视频等多媒体数据合成出来。
  1. 全球AI领导者已经看到合成数据带来了模型准确性、训练效率的显著提高。
  1. 合成数据的大部分挑战,来自于真实世界数据源存在偏见、低质量问题。
  1. 为了确保合成数据的高质量,65%的全球AI研发机构会从多个数据源、合成数据集交叉验证,堪称最佳实践。

图:为什么需要合成数据?(信息来源:Gartner)

我国的合成数据、仿真平台与智能体水平,决定新一代具身智能机器人的综合能力,与全民新质生产力、中国制造竞争力密切相关。

参考来源:

[1]《Personal LLM Agents: Insights and survery about the capability, efficiency and security》,清华大学智能产业研究院、小米、华为、Vivo、理想等合著,2024年1月

[2]《Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory》论文,商汤科技、清华大学、上海人工智能实验室等,2023年

[3]《Generative AI for Synthetic Data》,Gartner,2023年8月3日

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved