基于视觉的可编程智能体Octopus，让AI视觉模型理解这个世界（洛圣都模拟生活）

电子游戏，像《侠盗猎车手》（GTA）这样的游戏，已经成为现实世界的一个虚拟舞台，充满了无限的可能性。在GTA的世界中，玩家可以通过第一人称的视角在虚拟城市洛圣都中体验多彩多姿的生活。这引发了一个问题：如果人类玩家能在洛圣都中自由探索并完成任务，那么我们能否开发一个AI视觉模型，让它在GTA中控制角色，像玩家一样执行任务呢？这个AI玩家是否能成为模范市民，遵守交通规则，协助警方追捕罪犯，甚至扮演好心的路人，帮助流浪者找到住处？

目前的视觉-语言模型（VLMs）已在多模态感知和推理方面取得显著进展，但通常只限于简单的视觉问答（VQA）或视觉标注（Caption）任务。然而，这些任务无法使VLM在现实世界中真正发挥作用，因为真实任务不仅需要对视觉信息的理解，还需要模型具备规划和推理能力，以及能根据实时更新的环境信息作出反应的能力。此外，产生的规划还需能操作环境中的实体，以实际完成任务。

尽管现有的语言模型（LLMs）能够基于提供的信息进行任务规划，但它们无法理解视觉输入，这大大限制了语言模型在执行现实世界具体任务时的应用范围。特别是对于一些基于身体智能的任务，基于文本的输入通常难以详尽或过于复杂，导致语言模型无法从中有效提取信息以完成任务。目前语言模型在程序生成方面已有一定的探索，但根据视觉输入生成结构化、可执行、稳定的代码的研究还未深入。

为了解决如何使大模型具备身体智能的问题，新加坡南洋理工大学和清华大学等机构的学者提出了一种名为Octopus的系统。Octopus是一种基于视觉的可编程智能体，旨在通过视觉输入学习和理解真实世界，并以生成可执行代码的形式完成各种实际任务。通过对大量视觉输入和可执行代码的数据对进行训练，Octopus学会了如何操控电子游戏中的角色来完成游戏任务，或者执行复杂的家务活动。

数据采集与训练

为了培养视觉-语言模型以执行具身智能任务，研究团队开发了 OctoVerse。这个平台包括两个模拟系统，旨在为 Octopus 模型提供培训数据和测试环境。这两个模拟环境为视觉-语言模型（VLM）的具身智能化提供了实用的训练和测试场景，对模型的推理能力和任务规划能力提出了更高要求。具体情况如下：

OctoGibson：此环境是在斯坦福大学开发的 OmniGibson 基础上构建的，包括 476 个模拟现实生活中的家务活动。它包含 16 种不同的家庭场景类别，涵盖了 155 个真实家庭环境的实例。在这个仿真环境中，模型可以与众多可交互物体进行互动，以完成任务。
OctoGTA：该环境是基于《侠盗猎车手》（GTA）游戏开发的，构建了 20 个任务，并将它们推广到五种不同的场景中。通过预设程序，玩家被放置在特定位置，提供完成任务所需的物品和 NPC，以确保任务的顺利进行。

下图展示了 OctoGibson 的任务分类及 OctoGibson 和 OctoGTA 的一些统计数据。

为了有效地在两个构建的仿真环境中搜集训练数据，研究团队开发了一个完备的数据收集系统。该系统采用 GPT-4 作为执行任务的智能体，利用预设函数将仿真环境中的视觉输入转换为文本信息，供 GPT-4 分析。GPT-4 分析后提供下一步的任务规划和可执行代码。代码在仿真环境中执行后，系统会判断任务是否完成：若成功，则继续搜集下一步视觉输入；若失败，则返回到上一步重新开始。

如上图所示，以 OctoGibson 环境中的 "Cook a Bacon" 任务为例，展现了数据收集的整个流程。在此过程中，研究团队不仅记录了任务执行过程中的视觉信息、GPT-4 返回的可执行代码，还记录了每个子任务的成功与否，这些数据将作为后续引入强化学习构建更高效 VLM 的基础。尽管 GPT-4 功能强大，但它也有局限性，如可能出现的语法错误或模拟器中的物理挑战。例如，如图 3 所示，在状态 #5 和 #6 之间，由于操作者与平底锅间距离过远，导致 "将培根放入平底锅" 的动作失败。这样的挫败会导致任务回退到之前的状态。若任务在 10 步后仍未成功完成，会因预算限制而终止，且该任务下的所有子任务均被视为失败。

如另一图所示，在收集了足够的训练数据后，研究者利用这些数据训练出了一个具身智能化的视觉-语言模型 Octopus。该图展示了数据搜集和训练的完整流程。在第一阶段，通过使用所搜集的数据进行监督式微调，研究团队构建了一个能够将视觉输入转换为任务计划和可执行代码的 VLM 模型。第二阶段中，研究团队引入了 RLEF（环境反馈强化学习），利用先前搜集的子任务成功率作为奖励信号，采用强化学习算法进一步提升 VLM 的任务规划能力，从而提高整体任务的成功率。

实验结果

在构建的 OctoGibson 环境中，研究者对当下主流的视觉-语言模型（VLM）和大型语言模型（LLM）进行了深入测试。下表呈现了关键的实验成果。对不同测试模型而言，Vision Model 一栏展示了各模型所采用的视觉模型。对于 LLM，研究者将视觉信息转化为文本，作为LLM的输入。其中，O 代表提供场景中可交互物体的信息，R 代表物体间相对关系的信息，GT 代表使用真实准确的信息，而不依赖额外视觉模型进行检测。

在所有测试任务中，研究者详细报告了测试集的成功率，并将其划分为四个类别：在训练集中存在的场景完成新任务的能力，训练集中不存在的场景完成新任务的泛化能力，以及完成简单跟随任务和复杂推理任务的泛化能力。每个类别的统计数据包括两种评价指标：一是任务完成率，衡量模型完成具身智能任务的成功率；二是任务规划准确率，反映模型进行任务规划的能力。

此外，研究者还展示了不同模型对 OctoGibson 仿真环境中采集的视觉数据的响应实例。下图展示了 TAPA CodeLLaMA、Octopus 和 GPT-4V 对 OctoGibson 视觉输入生成的回复。比较发现，使用 RLEF 训练的 Octopus 模型，在任务规划上更加合理，即使面对较模糊的任务指令（例如寻找一个大型容器），也能提供更完善的计划。这进一步证明了 RLEF 训练策略在提升模型的任务规划和推理能力方面的有效性。

总体来看，现有模型在仿真环境中的任务完成度和任务规划能力方面仍有很大的提升空间。研究者总结了几个关键发现：

1、CodeLLaMA 能显著提升模型的代码生成能力，但对任务规划能力的提升有限。实验显示，尽管一些模型采用 CodeLLaMA 生成的代码可执行性更高，但如果任务规划能力不足，整体成功率仍然较低。相比之下，未使用 CodeLLaMA 的 Octopus 由于其强大的任务规划能力，整体成功率仍然领先。

2、LLM 在处理大量文本信息输入时面临挑战。实验比较了 TAPA 和 CodeLLaMA 的结果，发现 LLM 难以从大量冗余信息中提取有价值的线索，尤其在复杂环境中，这降低了任务成功率，反映出 LLM 的局限性。

3、Octopus 展现出较强的任务泛化能力。实验结果表明，Octopus 在训练集中未出现的新场景中的任务完成和规划成功率均超过其他模型，显示出视觉-语言模型的内在优势。

4、RLEF 增强了模型的任务规划能力。对比仅经监督式微调的模型和经 RLEF 训练的模型，后者在需要强推理能力和任务规划能力的任务上，整体成功率和规划能力显著提升，展现出 RLEF 训练策

讨论

消融实验

在完成对模型实际能力的评估之后，研究团队深入探讨了影响模型表现的关键因素。实验从以下三个方面入手：

1、训练参数的影响
研究者对比了仅训练视觉与语言模型连接层、训练连接层加语言模型，以及全面训练模型的效果。结果表明，随着训练参数的增加，模型性能逐步提升，突显了训练参数数量在模型完成特定任务中的重要性。

2、模型规模的作用
小型3B参数模型和基准7B模型在两个训练阶段的性能被比较。研究发现，较大的模型参数量显著提高了性能。如何平衡模型参数量以实现任务能力，同时确保模型轻量化和快速推理，成为视觉语言模型（VLM）研究的关键点。

3、视觉输入的连续性
研究者探索了不同视觉输入对VLM性能的影响。在模拟环境中，模型按顺序收集第一视角图像和鸟瞰图。然而，当视觉输入顺序被随机打乱后，VLM性能显著下降。这反映了结构化视觉信息对VLM的重要性，以及VLM在处理视觉输入时对图像内在联系的依赖。

GPT-4

此外，研究者还测试了GPT-4和GPT-4V在模拟环境中的性能：

1.GPT-4

使用与训练数据相同的文本作为输入，GPT-4在测试任务中完成了一半。这表明相对于GPT-4这样的语言模型，VLM在性能上还有很大的提升空间。同时，GPT-4在处理具身智能任务时的规划和执行能力还需进一步提高。

2.GPT-4V

虽然GPT-4V的API刚发布，研究者还未有机会尝试，但他们通过手动测试发现，GPT-4V在模拟环境中的任务表现出强大的零样本泛化能力，能够根据视觉输入生成可执行代码。但在任务规划方面略逊于针对仿真数据微调的模型。

总结

研究者们指出了目前工作的一些局限性：

1、Octopus模型在复杂任务上表现不佳，错误规划依赖于环境反馈，难以完成整体任务。

2、Octopus仅在模拟环境中训练，迁移到真实世界面临挑战，如理解物体相对位置。

3、Octopus目前处理静态图片，将其应用于连续视频是未来的挑战，关键在于高效处理和理解连续视觉输入。

-END-

【免责声明】部分内容和图片来自网络，仅供学习参考，版权归原创作者所有，如有内容，版权等问题，请联系作者删除。