【大模型专题】之三十：Agent工作流程（模拟打工人）

欢迎您访问【曹小曹】头条号，很高兴能够与您分享有价值的信息和观点。衷心希望您能在我的头条号上找到您感兴趣的内容，并在评论区留下您的宝贵意见和反馈。

Agent智能体基本上按照Prompt提示词、LLM大模型、知识库、任务规划、工具调用这五个步骤执行。

（一）Prompt提示词

提示词是Agent接收到的初始输入，它描述了Agent需要完成的任务或解决的问题。提示词可以是文本、图像、语音等多种形式。Agent需要对提示词进行解析和理解，以便为后续的任务规划和行动执行提供指导。

Prompt提示词主要作用在于：圈定角色范围、阐述任务背景、习惯特色。

（二）大模型

LLM大模型（Large Language Model）是Agent进行任务规划和知识推理的重要工具。它通过对大量文本数据的学习，具备了强大的语言处理能力和知识推理能力。Agent可以利用LLM大模型对提示词进行深入分析，生成可能的解决方案，并进行选择和优化。

大模型主要作用在于：理解、提取、识别、选择。

（三）知识库

分类	简述
感觉记忆	当前用户输入内容，包括文本、图像或其他形式，短暂保留感觉印象
短期记忆	上下文内容（包括写在Prompt中的信息），处理复杂任务的临时存储空间，受有限的上下文本长度限制
长期记忆（字）	外部向量存储的知识库，Anget使用时可快速检索，具备存储量大。文本字段内容形式存在
长期记忆（文）	外部向量存储的知识库文件，Anget使用时可快速检索，具备存储量大。如docx、xlxs、csv、pdf、ppt、jpg、txt等
长期记忆（网）	填写网页URL，自动检索网页信息，并将网页信息作为知识库

知识库主要作用在于：调用、匹配、当前输入内容、上下文内容。

（四）Planning任务规划

任务规划是Agent根据提示词、LLM大模型以及知识库进行决策和规划的过程。它涉及对任务的分解、目标的设定、路径的规划等多个方面。Agent需要综合考虑各种因素，制定出最合适的任务执行方案。

方式技术	简述
Prompt提示词	任务的分解的环节可以由三种方式完成： 1）在大模型输入简单的提示，比如“XYZ的步骤”，或者“实现XYZ的子目标是什么？”； 2）使用特定任务的指令，比如在需要写小说的时候要求大模型“写一个故事大纲”； 3）通过人工提供信息，网站地图/RPA流程最佳实践
CoT思维链	已成为一种标准的提示技术，用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”，将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务，并帮助人们理解模型的思维过程。
ToT思维树	通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤，并在每个步骤中生成多个想法，从而创建一个树状结构。搜索过程可以是BFS（广度优先搜索）或DFS（深度优先搜索）。

任务规划主要作用：分析方式、分析思考、推理痕迹。

（五）Action工具使用

行动执行是Agent根据任务规划结果执行具体操作的过程。它可能涉及与环境的交互、数据的收集和处理、决策的调整等多个环节。Agent需要准确地执行每一步操作，以确保任务能够顺利完成。

方式技术	简述
内置工具	大模型内置工具，可直接使用，包括有：日历、计算器、代码解释器、搜索等
Plug插件	用于扩展Agent功能的插件，可以通过Agent插件来实现一些特定的功能或者对Agent进行定制化的配置。Agent插件通常包括以下几个部分： 1. 插件配置文件：用于配置插件的参数和属性，通常是一个XML或者JSON格式的文件。 2. 插件类库：包含插件的代码和依赖库，通常是一个JAR或者DLL文件。 3. 插件接口：定义了插件与Agent之间的交互接口，包括插件的初始化、启动、停止等操作。
API接口	应用程序编程接口（Application Programming Interface，API接口），是应用程序重要的组成部分，就是应用程序对外提供了一个操作数据的入口，这个入口可以是一个函数或类方法，也可以是一个url地址或者一个网络地址。
RPA桌面自动化	是一种机器人流程自动化技术，它允许通过配置自动化软件模拟和人类在软件系统中交互的动作来执行业务流程，RPA软件机器人在应用程序界面上识别数据并像人类一样操纵应用程序。

工具主要作用在于执行、返回、执行。

查看全文