智能体：打开工业智能化的通天之门（之四）案例（2048数字拼图）

智能体：打开工业智能化的通天之门（之四）案例

GPT Store于周三（1月10号）晚正式上线，与APP store汇集了大量的APP工具不同，GPT store之中汇集了全世界基于GPT研发的具备各种能力的智能体。

这是一个飞跃，每个人都可以有自己的智能体，每个行业、每个工作、每项业务也都可以有自己的智能体。人类从此走上了安心“躺平”的康庄大道。

大模型支持下的多智能体协同已经具备投入应用的基本条件，一些案例开始出现。

首个基于大模型的多智能体框架（CAMEL）公开发表，展现了良好的应用成效（原文链接：https://arxiv.org/pdf/2303.17760.pdf）。简介如下

CAMEL是一个缩写，原文是Communicative Agent for “Mind” Exploration of Large Language Model Society。文章提出了一种基于角色扮演（role-playing）方法多智能体协同方案。

该框架主要包含三个角色，除了任务发起者人类用户之外，还有任务分配者、AI 用户、AI 助手三个智能体。多智能体系统从人类用户接受到初步指令和角色分配后，任务细化智能体为初步指令提供详细的描述，AI用户根据提供的详细描述和AI 助手通过多回合对话来完成指定的任务（框架如附图所示）。

角色扮演的多智能体协同

为了评估CAMEL框架的表现，选取了100个任务（20项编码任务、20个数学任务和60项科学任务）进行了测试，分别使用人类专家和GPT4对CAMEL和单个gpt-3.5-turbo生成的解决方案进行对比，结果显示，CAMEL的评分远高于单个智能体。

MetaGPT是一个面向软件编程的多智能体协同框架。

2023年8月1号发布，发布一周时间github star 1.3万；这个项目的目标是干掉一个软件公司。当然，这个项目的思路同样可以用来干掉从事健康管理、培训服务、法律咨询等信息业务的公司。相关网站可参考（github:https://github.com/geekan/metagpt；论文地址： https://arxiv.org/pdf/2308.0035）

MetaGPT是一个创新的框架，它将人类的工作流程作为元编程方法融入到LLM驱动的多智能体协作中。MetaGPT首先将标准化操作程序（SOPs）编码为提示，促进结构化的协调。并要求模块化输出，赋予智能体与人类专家相当的领域专长，以验证输出并减少累积错误。通过这种方式，MetaGPT利用流水线工作模型为不同的智能体分配多样的角色，从而建立了一个可以有效地分解复杂多智能体协作问题的框架。

软件工程任务上进行的实验显示，与现有的基于对话和聊天的多智能体系统相比，MetaGPT能够产生更具连贯性的解决方案。这为人类领域知识融入多智能体以解决复杂的现实问题开辟了新的途径。

在软件工程中，瀑布法将软件工程分解为需求分析、系统设计、编码、测试和交付等有序阶段。这种共识的标准化操作流程（SOPs）使大量的工程师能够有效地分工合作。不同的角色拥有明确的职责和相应的专门知识。产品经理通过业务分析来制定商业需求，软件工程师编程形成代码，各岗位都有规范的化的交付输出，以保证合作共享的顺畅有序。

在MetaGPT框架中，定义了详细的关键组件，如环境、内存、角色、行动和工具，并开发了与协作相关的基础能力（参见附图）。

MetaGPT多智能体角色复杂任务流程

• 环境 - 为智能体提供合作工作空间和通信平台。

• 内存 - 帮助智能体存储和检索历史消息和上下文。

• 角色 - 根据角色需求为智能体封装专门的技能、行为和工作流程。

• 行动 – 智能体执行的程序，以完成子任务并产生输出。

• 工具 – 智能体可以利用的集体实用程序和服务，以增强他们的能力。

角色定义是关键。MetaGPT框架按照软件工程需求，创建各种专门的角色类，如产品经理、架构师等， MetaGPT框架的角色初始化使用自然语言详细描述每个角色的职责和约束。这不仅有助于人类理解，而且指导LLMs产生与角色概况一致的行动，从而使每个智能体都能胜任其角色。

智能体不仅接收并响应信息，而且还观察环境以提取关键细节。这些观察指导它们的思考和随后的行动。最后，从环境中提取的重要信息被存储在内存中以供将来参考，从而使系统内的每个智能体都成为一个积极的学习者。

扮演专门角色的智能体要遵循关键要求和工作流程，包括

观察：角色可以观察环境，并基于观察进行思考/行动。他们观察重要信息并将其整合到内存中，丰富其上下文理解并为未来决策提供信息。

思考和反思：角色可以检索角色描述来构建思考框架，反思需要做什么并决定下一步的行动。

广播消息：角色可以将消息广播到环境中。这些消息包含有关当前执行结果和相关操作记录的详细信息，用于发布和共享信息。

知识沉淀与行动：角色可以评估传入消息的相关性和及时性，从中提取相关知识，并维护一个内部知识库以通知决策。它们通过咨询带有丰富上下文信息和自我知识的LLM来执行操作。执行结果被封装为消息，而标准工件则由环境共享。

状态管理：角色可以通过更新其工作状态和监视待办事项列表来跟踪其操作。这使角色能够连续处理多个动作而不中断。执行每个动作时，角色首先将其状态更新为繁忙。完成操作后，它再次将状态标记为闲置。这可以防止其他操作中断流程。这让角色智能体行动更像人。

项目组遵循上述基本原则，进行了试验验证。利用MetaGPT多智能体协同架构，和瀑布式SOPs软件工程方法，用户可以一键生成"2048滑动瓷砖数字拼图游戏"整个软件系统。

1、Alice（产品经理）：根据用户提出产品需求，Alice作为产品经理，将起草7份文件，包括：产品目标、用户故事、竞争分析、需求分析、需求池、UI设计。在Alice可以根据瀑布式SOP将她的工作交接给下一个LLM智能体之前，她的工作首先会被审查；

2、Bob（架构师）：根据Alice的需求分析和可行性分析，架构师将为该项目起草一个系统设计计划，根据实施计划，架构师Bob将创建一个文件列表，将计划的复杂逻辑细分到十几个文件中。并生成图表来定义数据结构和接口，以及程序序列流程图等。随后，Bob将设计生成的文件目录及所有工作文档和图表发布到消息队列中。

3、Eve（项目经理）：使用先前起草的UI、系统设计、API设计文档将项目细分为更简单、更具操作性的任务/票据。此外，项目经理Eve将列出项目的依赖项，包括用Python以及其他语言编写的第三方包和API规范。当有缺失的细节时，审查/反思过程将在当前阶段迭代地改进生成的内容，直到审查者满意为止。

4、Alex（工程师）：根据消息提供的具体任务和连贯的整体实施计划，LLM工程师智能体有足够的信息生成无错误的代码。Alex将按给定的顺序浏览文件列表，并生成每个文件及其相应的单元测试。

在第一次尝试时，MetaGPT就成功地生成了一个无错误的2048滑动拼图游戏软件系统。所有这些都只需要用户的一个简单指令。

随后项目组对实验验证项目进行了定量评估，包括

• 代码统计 -计算的编码工作的规模。

• 文档统计 -文档的总行数反映文档内容的数量。

• 成本统计 - 总token反映了所需的系统交互级别，衡量时间成本和金钱成本。

• 修订的成本捕获了代码所需的维护工作。

• 代码可执行性 - 生成代码的功能质量

多次实验验证测试，在成本分析方面，每个项目在提示上平均消耗了26626.86 tokens，完成任务时消耗了6218.00 tokens，完成任务的总成本为$ 1.09。整个构建过程用时517.71秒。与传统的软件工程开发时间线和成本相比，MetaGPT的时间和货币开销不到千分之一。

效率、成本、可靠性~~人类终将被智能体取代。尤其是在炼油化工等高危行业，更应该用智能体替代现场劳动者。下一篇我们讨论一下这方面的可能性。