清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」（人类进化模拟器游戏）

机器之心专栏

机器之心编辑部

「以史为鉴，可以知兴替。」人类的进步史，可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中，我们吸取过去失败的教训以纠正错误，借鉴成功的经验以提升效率和效果。这种自我进化的过程在我们的生活中无所不在：从如何总结经验以更好地解决工作中的问题，到如何利用规律更精确地预测天气，我们都在不断地从过去的经验中学习和进化。

成功从过去的经验中提取知识并将其应用于未来的挑战，这是人类进化之路上重要的里程碑。那么在人工智能时代，AI 智能体是否也可以做到同样的事情呢？

近年来，GPT 和 LLaMA 等语言模型展示了他们在解决复杂任务时的惊人能力。然而，他们尽管可以利用工具解决具体任务，但在本质上缺乏对过去成功和失败经历的洞见与汲取。这就像一个只会完成特定任务的机器人，虽然在完成当下任务上表现出色，但面对新的挑战时，却无法调用过去的经验来提供帮助。

针对这一难题，近期来自清华大学、香港大学、人民大学以及面壁智能的联合团队提出了一种全新的智能体自我演化策略：探索 - 固化 - 利用（Investigate-Consolidate-Exploit，ICE）。它旨在通过跨任务的自我进化来提升 AI 智能体的适应性和灵活性。其不仅能提升智能体处理新任务时的效率和效果，还能显著降低对智能体基座模型能力的需求。

这个策略的出现，无疑为智能体的自我进化开启了全新的篇章，也意味着我们离实现智能体的完全自主性又迈进了一步。

论文标题：Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
论文链接：https://arxiv.org/abs/2401.13996

智能体任务间经验迁移以实现自我进化概览图

智能体自我进化的两个方面：规划与执行

当下大部分复杂智能体都可以分成任务规划（Planning）与任务执行（Execution）两大方面。在任务规划上，智能体通过推理将用户需求细化并制定完成目标的详细策略；而在任务执行上，智能体通过工具调用实现与环境的交互，从而完成相应子目标。

为了更好地促进以往经验的重复利用，作者首先将这两方面的进化策略解耦。他们以 XAgent 智能体架构中的树状任务规划结构以及 ReACT 链式工具执行为例，分别介绍了 ICE 策略的具体实现。

智能体任务规划的 ICE 自我演化策略

对于任务规划，自我进化依照 ICE 被分为以下三个阶段：

在探索阶段，智能体记录下整个树状任务规划结构，并同时动态检测各个子目标的执行状态；
在固化阶段，智能体首先剔除所有失败的目标结点，之后对于每个成功完成的目标，智能体将以该目标为子树的所有叶子结点依次排开形成一条规划链（Workflow）；
在利用阶段，这些规划链将被作为新任务目标分解细化的参考依据，以利用过往的这些成功经验。

智能体任务执行的 ICE 自我演化策略

任务执行的自我演化策略依然分为 ICE 三个阶段，其中：

在探索阶段，智能体动态记录每个目标执行的工具调用链，并对工具调用中出现的可能问题进行简单的检测归类；
在固化阶段，工具调用链将被转化为类似自动机的流水线（Pipeline）结构，工具调用顺序与调用之间的转移关系将被固定，同时还会去掉重复调用，增加分支逻辑等等让自动机自动化执行流程更加鲁棒；
在利用阶段，对于相似的目标，智能体将直接自动化执行流水线，从而提升任务完成效率。

XAgent 框架下的自我进化实验

作者在 XAgent 框架中对提出的 ICE 自我演化策略进行了测试，并总结了以下四点发现：