12家研究机构、160页、参考了650篇论文：基础模型推理综述 Part3（摇滚说唱歌手Sim）

3.6 音频推理Audio Reasoning

听觉推理涉及理解、审查和从听觉数据中得出结论的认知机制，其中语音是主要的信息源。在自我监督学习中学习的语音表示提供了解决这个问题的有希望的解决方案，其中训练了一个单一的基础模型，可以应用于广泛的下游任务 (Mohamed et al., 2022)。

添加图片注释，不超过 140 字（可选）

3.6.1 语音 Speech

语音处理领域可以广泛地分为两个不同的类别：判别性任务和生成性任务。判别性任务涉及基于连续语音进行离散决策的过程，而生成性任务涉及从不同输入源生成连续语音的过程。Speech processing Universal PERformance Benchmark (SUPERB) (Yang等人，2021) 是评估基础模型判别能力的广泛采用的框架。如图 10 所示，它涵盖了十个任务，涵盖了语音的四个要素：内容、说话人、语义和语用学。

增强的 Speech processing Universal PERformance Benchmark (SUPERB-SG) (Tsai等人，2022) 进一步引入了一个框架，用于评估基础模型的生成能力，包含五个任务：语音翻译 (ST)、领域外自动语音识别 (OOD-ASR)、声音转换 (VC)、语音分离 (SS) 和语音增强 (SE)。

自我监督语音表示学习的基础模型可以分为三种主要类型：1) 利用受限或损坏的观点重构输入语音序列的生成模型，例如矢量量化变分自编码器 (VQ-VAE) (Van den Oord等人，2017)，自回归预测编码 (APC) (Chung等人，2019) 和掩码声学模型(MAM) (Liu等人，2020)；2) 从分散的负样本中区分目标正样本的对比模型，例如对比性预测编码 (CPC) (Oord等人，2018)，Wav2Vec 2.0 (Baevski等人， 2020) 和 Speech SIMCLR (Jiang等人， 2020)；以及3) 遵循类似于师生学习的设置的预测模型，例如 Hidden Unit BERT (HuBERT) (Hsu等人，2021)， WavLM (Chen等人， 2022) 和 Data2Vec (Baevski等人， 2022)。Transformer-Encoder (Dong等人，2018) 架构和Conformer-Encoder (Gulati等人，2020) 架构在语音基础模型中广泛采用。

3.7 多模态推理 Multimodal Reasoning

多模态推理指的是整合和推理多种信息形式（如文本、图像、视频和其他感官输入）以提升理解和执行复杂推理任务的认知过程 (Yin et al., 2023b; Zong et al., 2023)§。

添加图片注释，不超过 140 字（可选）

对于发展人工通用智能（AGI），多模态推理比单模态方法具有许多优势。首先，多模态推理更贴近人类感知世界的方式。人类自然会从多种感官中接收信息，这些信息通常相互补充和合作。因此，利用多模态信息有望提升多模态基础模型的智能。其次，多模态推理提供了更用户友好的界面。通过支持多模态输入，用户可以以更灵活、多样且可能更直观的方式与智能助手进行交互和沟通，从而改善整体用户体验。第三，多模态推理有助于提升更全面的问题解决能力。尽管单模态语言模型通常在自然语言处理（NLP）任务上表现出色，但多模态基础模型具备支持更广泛任务的潜力，使其更加多样和有效作为任务求解器。多模态基础模型的关键技术和应用涵盖了各个领域，包括多模态指令调整（M-IT），它侧重于根据多模态指令对模型进行微调；多模态上下文学习（M-ICL），它利用上下文信息来增强多模态推理；以及LLM辅助的视觉推理（LAVR），它利用LLM来增强视觉推理能力。图 11展示了多个多模态推理任务以及背后的关键技术，以下将逐一介绍。

3.7.1 对齐 Alignment

图像-文本对齐

CLIP (Radford et al., 2021)采用一种学习方法，能够为图像和文本创建连贯的表示。通过对视觉和文本信息进行对齐，CLIP促进了跨模态理解，并在视觉和语言任务的各个领域展现出卓越的能力。类似地，BLIP-2 (Li et al., 2023f)采用一种策略来实现高效的跨模态对齐，而无需对视觉编码器进行微调。相反，它引入了一个查询变换器（Q-Former），从固定的图像编码器中提取视觉特征。这些提取的查询嵌入用作对齐过程中的软视觉提示。Flamingo (Alayrac et al., 2022)通过令牌融合和交叉注意力来桥接预训练的视觉和语言骨干。

3.7.2 生成 Generation

文本到图像生成 Text-to-image Generation

Stable Diffusion (Rombach et al., 2022) 将交叉注意力层集成到模型架构中，将扩散模型转化为针对文本和边界框等多样化条件输入的强大、适应性强的生成模型。潜在扩散模型（LDMs）在图像修复中代表了重大突破，同时在无条件内容生成、超分辨率图像生成和其他任务中取得了令人印象深刻的结果。值得注意的是，与基于像素的扩散模型相比，LDM可以大幅减少计算需求，同时保持高竞争力的性能。DALL·E§ (Ramesh et al., 2021, 2022; Betker et al., 2023) 是一种先进的AI系统，能够根据自然语言描述生成逼真的图像和艺术作品。类似地， Midjourney也是一种基于自然语言描述生成图像的AI系统，这些描述被称为“提示”。Midjourney§借助AI的力量，可以将文本提示转化为视觉构图，提供给定描述的视觉表达。ImageGen (Saharia et al., 2022)充分利用了扩展的Transformer语言模型对文本理解的能力，并将其与扩散模型的效果相结合，创建高质量的图像。PixArt (Chen et al., 2023c)是一种基于Transformer的文本到图像（T2I）扩散模型。在质量上与Imagen、SDXL和Midjourney等领先的图像生成系统比肩，并接近商业应用设定的基准。

多模态到文本生成 Multimodal-to-text Generation

Flamingo-80B (Alayrac et al., 2022) 是一族具备上下文少样本学习能力的视觉语言模型（VLMs）。这些模型在广泛的任务上经过彻底评估，包括视觉问答和字幕等开放式任务，以及多项选择的视觉问答等封闭式任务。 Frozen (Tsimpoukelli et al., 2021) 在多模态背景下实现了少样本学习能力，它在保留语言模型（LM）的语言能力的同时，将视觉信息作为前缀进行了引入。Frozen通过冻结语言模型并训练一个单独的视觉编码器来表示图像。在Frozen方法中，将视觉信息表示为嵌入序列，作为视觉前缀。 MAGMA (Eichenberg et al., 2022) 通过引入一个新的图像前缀编码器，并保持语言模型冻结的方式，采用了与Frozen类似的方法。它训练了一系列的视觉语言模型，能够从结合了视觉和文本输入的条件下自回归地生成文本。 Visual ChatGPT (Wu et al., 2023a) 和 GPT-4 (OpenAI, 2023a) 代表了将聊天机器人的能力扩展到支持图像和文本提示的多模态应用的前沿。Visual ChatGPT在ChatGPT的基础上构建并整合了视觉模型。它还整合了一个Prompt Manager，用于管理各种视觉基础模型的历史记录，实现全面的多模态对话体验。另一方面，GPT-4采用了一种不同的方法，接受包含图像和文本的提示。这种灵活性使用户能够通过生成文本输出来指定视觉和语言任务，以应对任意交错的文本和图像提示。微软还提出了一系列的多模态基础模型，包括 Kosmos-1 (Huang et al., 2023d) 和 Kosmos-2 (Peng et al., 2023d)。这些模型进一步促进了多模态能力的发展，并帮助实现涉及图像和文本的丰富交互。此外，人们正在努力将GPT适应于特定领域，比如BiomedGPT (Zhang et al., 2023f)，该模型专注于生物医学研究。这些领域特定的改编旨在提高语言模型在专业领域的性能和适用性。

3.7.3 多模态理解 Multimodal Understanding

视觉指导调谐（Visual Instruction Tuning） (Liu et al., 2023e) 提出了一种开创性的方法，利用GPT-4生成多模态语言-图像指导遵循数据。这种方法有潜力减少对大型多模态数据集的手动注释依赖。建立在这个基础之上，LLaVA（Large Language and Vision Assistant） (Liu et al., 2023e) 是一个经过广泛训练的大规模多模态模型。它将一个视觉编码器与Vicuna (Chiang et al., 2023) 无缝集成，为通用应用提供了多样化的视觉和语言理解能力。LLaVA在需要多模态理解的各种任务上表现出色，包括视觉问答、图像字幕和指导遵循。值得注意的是，它在科学问答（Science QA） (Lu et al., 2022a) 这个多模态推理数据集上取得了令人印象深刻的表现。

在图表推理领域，DePlot (Liu et al., 2023b) 提出了一种面向视觉语言推理的少样本解决方案。它通过两个步骤来应对这个挑战：首先，将图表转化为文本，然后在转化后的文本上进行推理。作者还探讨了将DePlot与LLM（Language and Vision Models，语言和视觉模型）结合以进一步提高性能的方法。 MatCha（Math reasoning and Chart derendering pretraining） (Liu et al., 2023c) 在图表领域引入了一个全面的可视语言理解框架。它强调了两个关键组成部分的重要性：布局理解，包括数字提取和组织，以及数学推理。为了增强可视语言理解，作者提出了两个互补的预训练任务：图表解除渲染，即生成用于创建给定绘图或图表的底层数据表或代码，以及数学推理。

DetGPT (Pi et al., 2023) 通过基于推理的方法彻底改变了目标检测。它能够根据用户表达的需求自动定位感兴趣的对象，即使这个对象没有明确提及。这种创新方法将推理能力融入目标检测过程，以提高性能。 Q-Bench (Wu et al., 2023c) 表明多模态基础模型可以感知低级视觉属性并提供图像质量理解。 LLaMA-VID (Li et al., 2023s) 增强了LLM对视频和图像的有效理解能力。它通过两个令牌来表示每个视频帧，从而降低了处理长视频的负担，同时不损失重要信息。为了允许用户交互地控制多模态理解的重点，Prompt Highlighter (Zhang et al., 2023l) 高亮特定的提示范围，有效地指导自回归生成更具针对性的输出。

与单模态模型相比，将文本、图像、表格和音频等多种数据类型整合在一起对于多模态基础模型而言存在独特的挑战。主要的障碍在于有效地合并这些不同的数据格式，这个任务受到数据集中的一致性和不完整性等问题的复杂性的影响，其中图像内容与相应描述的不匹配或数据丢失可能会对模型性能产生负面影响。此外，多模态基础模型通常需要大量计算资源进行训练。因此，探索这些模型的高效训练方法成为一项有价值的研究领域，对于推进多模态AI系统的能力至关重要。这些多模态基础模型对于学习适用于材料科学、化学和生物学等领域的通用表示也具有重要作用 (Team, 2022; Manica et al., 2023)。

3.8 智能推理 Agent Reasoning

智能推理是自主语言代理的重要能力，指的是将感知、行动和与物理环境或模拟环境的交互整合起来，以支持推理和问题解决的认知过程。在大型语言模型的背景下，自主代理具有执行广泛任务的能力，例如任务分解、生成代码、回答问题、对话、提供建议等。自主代理，也被称为AI代理，利用大型语言模型的强大知识、推理能力和广泛信息资源来自主执行任务 (Alibali et al., 2014)。

一些研究已经探索了语言在规划目的中的应用 (Jansen, 2020; Li et al., 2022e; Sharma et al., 2021; Zeng et al., 2023; Huang et al., 2022b; Ahn et al., 2022; Mu et al., 2023; Hu et al., 2023a; Zhou et al., 2023a)。最近的任务规划方法利用预训练的自回归基础模型，将抽象的高级指令分解为可执行的低级步骤序列，应用零样本方法来为代理操作 (Huang et al., 2022b; Ahn et al., 2022)。具体来说，Huang et al. (2022b)使用GPT-3 (Brown et al., 2020)和Codex (Chen et al., 2021b)来创建代理的动作，通过Sentence-RoBERTa (Liu et al., 2019; Reimers and Gurevych, 2019)将每个动作步骤语义转换为可允许的动作。相比之下，SayCan (Ahn et al.,2022)通过将每个候选动作的概率与由FLAN (Wei et al., 2021)确定的动作价值函数相结合，将动作和语言联系起来。后者充当了测量可行性的代理。然而，这两种方法都假设代理能够成功执行每个提议的步骤，而没有考虑动态环境中的潜在中间失败或较低级别策略的性能。

SwiftSage (Lin et al., 2023b)是受人类认知双过程理论影响的框架，专门用于复杂互动推理任务中的行动规划。该框架由两个主要组件构成：SWIFT模块和SAGE模块。 SWIFT模块代表快速而直觉的思考过程，负责基于预言代理的行动轨迹进行行动规划。它被实现为一个小型的编码器-解码器语言模型，专门为此目的进行了精调。另一方面，SAGE模块模拟深思熟虑的思维过程，并利用诸如GPT-4之类的大型语言模型进行子目标规划和建立联系。该模块利用语言模型的能力，在框架内执行更复杂的推理任务。在这方面还有值得注意的另一种方法是通过规划进行推理（RAP） (Hao et al., 2023a)，它将语言模型同时作为世界模型和推理代理来发挥作用。RAP采用了一种有根据的规划算法，特别是基于蒙特卡洛树搜索，以促进推理广阔领域内的战略探索。RAP在各种任务，包括计划生成、数学推理（例如GSM8K (Cobbe et al., 2021)）和逻辑推理（例如PrOntoQA (Saparov and He, 2023)）上的有效性得到了评估。评估结果展示了RAP在应对各种推理挑战方面的能力，充分展示了其作为有能力的推理代理的多样性。 Mim-icPlay (Wang et al., 2023a)介绍了一种从人类玩耍数据中学习机器人策略的方法，利用新兴的人类和视频提示来引导低级视觉运动控制。内省推理、外省推理、具身推理和多主体推理以及它们之间相互关联的方面，在智能体推理系统的发展中起着关键作用 (Qin et al., 2023)。这些组件有助于发展高级认知能力，如自我意识、适应性和有效协作。这些能力对于创建能够在复杂和动态环境中成功运作、与人类无缝交互以及与其他智能体进行合作或竞争场景的智能系统至关重要。我们相信，将基础模型与经典的机器人方法相结合，可以创造出新的机会，例如整合经典的感知方法(Chu et al., 2021)、地图制作方法(Pan et al., 2020)、补全方法(Chu et al., 2023b)、抓握方法(Li et al., 2021c)、规划方法(Mao et al., 2023b)、交互方法 (Jiao et al., 2020)和控制方法。安全性是具身智能系统的关键方面。在这一背景下，PlanCP (Sun et al., 2023b)建议将适应性预测应用于扩散动态模型。

3.8.1 自省推理Introspective Reasoning

自省推理，如图 12(a) 所示，仅依靠内部知识和推理生成静态的工具使用计划，不与环境进行交互 (Leake, 2012)。在自省推理领域中，有几项相关研究，包括程序辅助语言模型（Program-Aided Language Models，简称PAL） (Gao et al., 2023b)，ProgPrompt (Singh et al., 2023) 和 Code-as-Policies (Liang et al., 2022a)。

添加图片注释，不超过 140 字（可选）

PAL (Gao et al., 2023b) 利用 LLM 理解自然语言问题，并生成可执行程序形式的中间推理步骤。然而，解决步骤的实际执行被委托给一个程序运行环境，比如 Python 解释器。这种方法使得 PAL 可以利用 LLM 的语言理解能力，同时使用一个独立的运行环境执行生成的程序。 ProgPrompt (Singh et al., 2023) 提出了一种结构化的 LLM 提示，类似于编程，旨在促进在不同情境设置中生成计划，涵盖不同的机器人功能和任务。此结构涉及用编程式的方式描述给定环境中可访问的动作和对象，并提供示例程序供执行。 Code-as-Policies (Liang et al., 2022a) 引入了一种面向机器人的语言模型生成程序（Language Model Generated Programs，简称LMP）的框架。这些 LMP 可以描绘出既包含反应性策略（如阻抗控制器），又包含面向路径的策略。Code-as-Policies 的多功能性在多个真实机器人平台上得到了展示，展示了它在不同机器人场景中的适用性。

自省推理在动态和不确定的环境中具有局限性，因为对于有效规划来说，外部反馈和与环境的交互至关重要。在没有外部信息的情况下，它可能难以适应不断变化的情况或处理意外事件。

3.8.2 外省推理 Extrospective Reasoning

自省推理虽然简单，但缺乏根据中间执行结果调整或修改计划的能力。相反，外省推理通过逐步生成计划来实现其目标。如图 12(b)所示，它通过与环境的交互和利用先前执行的反馈来逐步实现这一目标。外省推理主动融入与环境交互所获得的外部信息。这使得外省推理能够根据实时反馈和先前行动的观察结果来调整和改进其计划 (Acay et al., 2007)。

通过积极参与环境并利用反馈，外省推理提供了一种更灵活和响应迅速的计划生成方法，特别适用于复杂和动态情况，其中从经验中进行适应和学习至关重要。在与LLMs相关的外省推理领域存在一些相关工作，包括Self-Ask (Press et al., 2023)，ReAct (Yao et al., 2023c)，ToolFormer (Schick et al., 2023)和LLM-Planner (Song et al., 2023a)。Self-Ask (Press et al., 2023)在解决原始问题之前主动生成并回应自己的后续查询。与此同时，ReAct (Yao et al., 2023c)利用大型语言模型同时生成推理轨迹和任务特定的动作。这种双重方法增强了这些元素之间的相互作用，推理轨迹有助于制定、监控和修改行动计划，以及处理意外情况。相反，行动促使模型与知识库或环境等外部实体获得补充数据。ToolFormer (Schick et al., 2023)旨在智能确定适当的API使用、调用时机、特定参数以及如何有效地将获得的结果整合到后续令牌预测中。LLM-Planner (Song et al., 2023a)利用大型语言模型的能力，在具身代理的背景下进行高效的少样本规划。

除了上述研究，Statler (Yoneda et al., 2023)提供了一个具备持久性、类似于内存的世界状态表示的框架。它利用了两种形式的通用LLMs：世界模型读取器和世界模型写入器，这两者都与世界状态进行交互和更新。这种内存类元素的添加显著提升了LLMs的推理能力，使它们能够在较长的时间段内处理信息，摆脱通常由上下文长度限制所施加的约束。对世界状态的明确表示使LLMs能够保留和访问相关信息，促进更全面和具有上下文意识的推理过程。 Dasgupta et al. (2022)提出了一个将LLMs的互补推理能力结合起来的协同系统。该系统由三个组件组成：规划器、行动者和记者。规划器是一个预训练的语言模型，负责生成指导简单具身化代理（即行动者）行动的命令。Reporter作为规划器和行动者之间的通信桥梁，将相关信息传递给规划器，以指导其制定后续命令的决策过程。通过利用每个组件的优势，这个协同系统旨在增强LLMs的整体推理和决策能力，实现更有效和具有上下文意识的语言指令与具身化代理之间的交互。 Inner Monologue (Huang et al., 2022c)通过利用自然语言反馈而无需额外训练，研究LLMs在具身化背景中有效推理的能力。作者认为，通过融入环境反馈， LLMs能够形成一种内省对话，增强其在机器人控制场景中处理和规划的能力。这种发展使得LLMs能够更全面地理解环境，并增强其对动态环境的适应能力。

外省推理的迭代性质使其能够根据环境的演变状态和执行行动的结果动态调整计划。这种适应过程增强了规划的效果和效率，因为它利用从经验中获得的知识来不断改善未来的决策。

3.8.3 具身推理Embodied Reasoning

最近的研究突出了LLMs在机器人领域的成功应用 (Ahn et al., 2022; Zeng et al., 2023; Huang et al., 2022c; Liang et al., 2022a; Ding et al., 2023c)。此外，规划可以被视为一种时间推理形式，增加了将LLMs集成到机器人中的重要性。Gato (Reed et al., 2022)是一种多模态、多任务和多体份策略。它利用有着惊人参数量的1.2亿的监督学习。这项技术被公认为是一种“通用”人工智能，标志着实现人工通用智能的重大进展。机器人变形器1（RT-1） (Brohan et al., 2022)是基于一个包含超过13万个场景、涵盖700多项任务的全面真实世界机器人数据集进行训练的。这个广泛的数据集是通过使用13台来自Everyday Robots的机器人舰队在17个月内收集的。RT-1展示出作为可扩展的预训练模型的有希望的性质，展示了它基于数据规模、模型规模和数据多样性等因素的泛化能力。大规模真机数据的利用对从事真实世界任务的机器人的鲁棒性和其在实际场景中的泛化潜力做出了贡献。在RT-1的能力基础上，机器人变形器2（RT-2） (Brohan et al., 2023)进一步提升了模型对世界的理解，从而使机器人任务的执行更加高效、准确。通过融入链式思考推理，RT-2实现了多阶段语义推理能力。这种扩展使RT-2具备了一系列新兴能力，这些能力是通过对大规模互联网数据集进行深入训练而获得的。显著的进展包括模型对陌生物体泛化能力的显著提高，对原始训练数据中不存在的命令的理解能力，以及在响应用户指令时进行基本推理的能力。这些增强提升了RT-2的性能，并扩展了它在处理更广泛的任务时的能力和复杂度。此后，RT-X (Padalkar et al., 2023)进一步扩展了RT-1和RT-2的跨体配置，并展现了更好的迁移能力和零-shot能力。 RoboFlamingo (Li et al., 2023m)利用预训练的视觉-语言模型（VLMs）实现了复杂的单步视觉-语言理解。它加入了一个显式的策略头，以有效地捕捉连续历史数据。这种设计赋予了它在资源受限平台上实施开环控制策略所需的灵活性。

具身推理在智能机器人的发展中起着至关重要的作用。作为人类，我们通过运用数字/物理法则和逻辑原理来理解世界。问题出现在这里：我们能使机器人具备相同的能力吗？许多日常任务需要基于视觉感知和自然语言理解的简单推理。如果我们希望拥有能够与我们合作的机器人伙伴，他们必须具备理解和推理视觉信息和自然语言输入的能力是至关重要的。创建智能机器人的最终目标是使它们能够以与或甚至超过人类能力相媲美的方式行动 (Xu et al., 2021b)。这意味着在机器人中体现类似于人类的推理和表现，旨在弥合人类和机器之间的差距。通过使机器人能够理解和推理视觉和语言输入，我们离实现开发能够有效地与人类互动和合作的机器人的目标越来越近。

3.8.4 多智能体推理 Multi-agent Reasoning

多智能体推理是指多个自治体或实体在共享环境或上下文中进行推理、决策和通信的认知过程。与单个智能体的推理相比，多智能体推理涉及个体智能体感知、解释和推理其他智能体的行动、目标、信念和意图的能力，并相应地调整自己的行为。其差异在图 13中简要总结。

添加图片注释，不超过 140 字（可选）

最近的研究引入了多智能体辩论概念作为一种提高推理能力、确保各种场景下的事实准确性的有希望的方法。在Zhang et al. (2023c)的工作中，他们引入了一个框架，利用大型语言模型（LLMs）的能力，在具体环境中促进多个智能体之间的合作互动。这种创新方法使具体智能体能够高效地制定策略、沟通和与其他智能体和人类合作，从而增强其在完成复杂长期任务上的熟练程度。在类似的思路中，Du et al. (2023)提出了一种涉及多个语言模型实例参与辩论的方法。通过迭代的推理和响应生成，这些模型共同努力达成一个共同的最终答案。这种方法在数学和战略推理方面已经在各种任务中取得了显著的改进。

与上述研究相反， Nascimento et al. (2023)提出在多智能体系统（MASs）中整合LLMs（例如基于GPT的技术）的概念。他们引入了将LLMs融入MASs以创建自适应智能体的概念。这种整合通过基于LLMs的MAPE-K（Monitor 监控, Analyze 分析, Plan 计划, Execute 执行和 Knowledge 知识）模型来实现 (do Nascimento and de Lucena, 2017; Redbooks, 2004)，使智能体能够根据从LLMs获得的知识和洞见进行适应和调整。

联邦学习（FL）作为一种能够在数据分散的同时实现共同模型协作开发的技术已经受到关注。Chen et al. (2023a)引入了联邦LLM的概念，包括三个关键要素：联邦LLMs的预训练，对这些模型的微调以及针对联邦LLMs的提示工程。这种方法利用联邦学习的潜力，通过利用LLMs来增强多智能体推理。

这些研究努力展示了多智能体辩论方法在提升推理能力和事实准确性方面的功效。通过利用大型语言模型的能力，并促使智能体之间的合作互动，这些研究对于推动在各个领域具备复杂推理和改进性能的人工智能系统的发展起到了积极作用。

3.8.5 自主驾驶领域内的推理 Reasoning in Autonomous Driving

自主驾驶领域内的推理涵盖了感知 (Li et al., 2023e,l; Sun et al., 2022b, 2023c)、安全 (Zhou et al., 2023c)、可解释性 (Echterhoff et al., 2023; Sha et al., 2023; Sun et al., 2021; Huang et al., 2021b)和系统水平(Chen et al., 2023f)。 Chen et al. (2023f) 提出了端到端自主驾驶的前沿和挑战，其中基于LLMs的逻辑推理在不同的驾驶场景中可能产生重大影响。Zhou et al. (2023c) 回顾了一些关于驾驶的LLMs的最新研究成果。它指出，通过整合语言数据，车辆和交通系统可以进行推理并与现实环境进行更高级别的交互。

我们认为，基于基础模型继承的常识和世界知识，可以释放算法在车载上处理极端情况并增强可解释性和安全性的巨大效果。在下面，我们从两个角度对这个新兴话题进行调查。

DriveGPT4 (Xu et al., 2023e) 是一项创举性的工作，利用LLMs来理解可解释的端到端自主驾驶系统。这项开创性的努力不仅展示了在具有挑战性标准的基准测试中令人瞩目的定性成就，还取得了显著的定量成就。GPT-Driver (Mao et al., 2023a) 和 Agent Driver (Mao et al., 2023b) 利用LLMs作为认知代理来操作一个工具库，增强了驾驶行为，将可解释性纳入决策过程中。 MotionLM (Seff et al., 2023) 将多智能体运动预测视为一个语言建模任务。连续的轨迹被表示为离散运动令牌的序列。在众多其他尝试中，一个特别的挑战是如何利用逻辑推理（例如思维链）来理性解释驾驶行为。Echterhoff et al. (2023) 提出了一个新的观点，使用概念瓶颈来预测控制命令。 Tan et al. (2023) 利用语言作为监督来源获取动态交通场景，超过了先前的工作在逼真度和保真度方面。 nuPrompt (Wu et al., 2023b) 是首个针对3D、多视图和多帧驾驶场景的物体中心语言提示集。它配备了多样的实例提示数据对，并在物体跟踪任务中进行了验证。

3.9 Other Tasks and Applications3.9.1 心智理论 Theory of Mind (ToM)

据推测，模型中类似心智理论（ToM）的能力的发展是由于语言技能进步而自然而独立地发生的(Kosinski, 2023)。另一种解释表明，模型能够通过发现和利用未被揭示的语言模式来解决心理理论任务，而不是直接使用心理理论。尽管这种替代解释可能看起来很普通，但实际上它是非凡的，因为它意味着存在着能够在不直接涉及心理理论的情况下解决心理理论任务的未公开的语言规律。

3.9.2 天气预报 Weather Forecasting

天气预报在科学研究和社会应用中起着关键作用。作为科学推理的应用，天气预报涉及使用推理技巧分析数据、识别模式并对未来的天气条件进行预测。

MetNet-2 (Espeholt et al., 2022) 是一个专门用于高分辨率降水预报的神经网络模型，能够提前12小时进行准确预测。该模型在预测原始降水目标方面表现优异，并且胜过当今在美国大陆使用的基于物理的领先模型。在另一项研究中， Bi et al. (2023) 提出了 Pangu-Weather，这是一种基于人工智能的方法，旨在实现准确的全球中程天气预报。该方法利用了3D深度网络，结合了地球特定的先验知识，能够有效处理复杂的天气数据模式。为了减轻中程预报中遇到的累积误差，采用了一种层次化的时间聚合策略。通过在跨越39年的全球天气信息的大量数据集上进行训练，与欧洲中期天气预报中心（ECMWF）的运行综合预报系统相比，Pangu-Weather 在所有评估变量上都表现出卓越的确定性预测性能。这凸显了 Pangu-Weather 在提供精确的全球天气预报方面的显著效果，为许多依赖于天气相关信息的应用提供了宝贵的见解和优势。

3.9.3 医学推理 Medical Reasoning

推理在医学中也很常见。例如，临床医生会推理患者症状的潜在原因，然后建议进行哪些检查并根据诊断结果确定最佳治疗方法 (Qiu et al., 2023a)。

凭借广泛的医学知识，基础模型可以在医学背景下进行专家级的推理。例如，Med PaLM 2 (Singhal et al., 2023)是一种生物医学大型语言模型（LLM），在MedQA基准测试中的医学问题回答得分为86.5%；GPT-4以86.7%的分数通过了美国医学执业考试（USMLE）。 LLM带来的医学推理突破还激发了在其他医学模态（例如医学影像）中进行的推理。例如，VisionFM (Qiu et al., 2023b)是一种用于眼科图像分析的基础模型，在从底片照片中预测颅内肿瘤存在方面展示了令人印象深刻的推理能力，超越了中级和高级临床医生。RETFound (Zhou et al., 2023d)在从眼底图像中推理全身性疾病方面表现出色。 LLaVA-Med (Li et al., 2023b)将LLaVA (Liu et al., 2023e)调整到与生物医学词汇对齐并学习开放性对话语义，从而实现了对生物医学图像的解释，并在生物医学视觉问答方面取得了有希望的表现。ELIXR (Xu et al., 2023d)结合了对齐语言的图像编码器，用于执行胸部X光图像的各种视觉-语言推理任务。Tu et al. (2023b)开发了一种多模态生物医学基础模型Med-PaLM M，同时探索临床语言、影像和基因组数据，并引入了一个多模态生物医学基准模型MultiMedBench。鉴于医学的多模态特性，预计随着越来越智能的多模态基础模型的出现，医学推理将得到进一步增强 (Yang et al., 2023g)。

然而，与其他领域不同，医学推理需要更加谨慎 (Yan et al., 2023)。必须进行严格的验证和检查，以确保生物医学推理结果具有事实依据，并应建立和执行相关法规，以确保基于生物医学推理的基础模型的合法和安全使用。

3.9.4 生物信息学领域的推理 Bioinformatics Reasoning

在生物信息学领域的推理过程涉及分析和解释生物学的复杂语言，并揭示与生命相关的过程。这包括通过大规模数据集的分析来理解遗传序列、蛋白质功能和细胞机制。基础模型正在重塑生物推理的各种视角，例如在药物发现中预测蛋白质结构和设计序列 (Savage, 2023)。

在生物技术领域，许多研究突出了基础模型在DNA (Nguyen et al., 2023)、 RNA (Wang et al., 2023r)和蛋白质 (Jumper et al., 2021)推理和分析中的效果。一个显著的例子是AlphaFold (Jumper et al., 2021)，它采用了Transformer网络架构来准确预测蛋白质结构。 ProGen (Madani et al., 2023)及其后续的ProGen2 (Nijkamp et al., 2022b)开发了一套大型蛋白质语言模型，类似于自然语言模型，用于生成蛋白质序列。 RFdifusion (Watson et al., 2023)采用去噪扩散方法进行蛋白质结构设计，在各种蛋白质设计任务中取得了重大进展。在蛋白质-配体相互作用方面，Li et al. (2023r)使用蛋白质-配体结合数据训练了GPT-2模型，利用语言模型的能力进行配体设计。 Prot2Text (Abdine et al., 2023)将图神经网络与LLM结合起来，在自由文本格式中预测蛋白质功能。 Chen et al. (2023d)引入了一个基于LLM的框架，用于化学合成条件推荐，从而辅助药物发现。该框架旨在搜索最新的化学文献，利用上下文学习能力和采用多LLM辩论策略以提高效果。在RNA分析方面，Uni-RNA (Wang et al., 2023r)利用大规模的RNA序列预训练，在结构和功能预测等方面表现出色，包括RNA高阶结构映射预测。此外， HyenaDNA (Nguyen et al., 2023)利用LLM的长程建模和上下文学习能力，并在人类参考基因组数据上进行预训练，在基因组任务中取得了重大成就。 GeneGPT (Jin et al., 2023a)通过整合国家生物技术信息中心（NCBI）API来增强LLM，从而改进了与基因组学相关的问题的回答能力。

3.9.5 代码生成 Code Generation

代码生成，也称为程序合成或从自然语言描述生成代码（NL2Code） (Zan et al., 2023)，是将自然语言输入转换为计算机代码的过程或技术。NL2Code代表了一个重要的步骤，更加直观和易于访问的编程，利用基础模型来弥合自然语言和计算机代码之间的差距。

PyMT5，详细介绍在Clement et al. (2020) 的工作中，是一个基于Python的文本到文本转换Transformer，擅长在不同的Python方法特征组合之间进行翻译。这个独特的模型能够根据自然语言的文档字符串生成整个方法，并将代码汇总为多种常见的文档字符串样式。类似地，IntelliCode Compose (Svyatkovskiy et al., 2020) 是一个多语言代码补全工具，擅长预测代码令牌序列并生成语法正确的代码行。GPT-Neo (Black et al., 2021)是GPT-2和GPT-3模型的一个实现，专注于通过Mesh Tensorflow实现分布式支持。这种方法在GPT-J和GPT-NeoX-20B中进一步扩展，详细介绍在 Wang and Komatsuzaki (2021)和 Black et al. (2022)中。

PLBART (Ahmad et al., 2021)是一个在Java和Python函数及自然语言文本的广泛语料库上进行预训练的模型，采用降噪自编码方法。CodeT5 (Wang et al., 2021b)作为一个统一的预训练编码器-解码器Transformer，提升了对开发者指定标识符的语义理解。LaMDA (Thoppilan et al., 2022)是一族专门针对对话的基于Transformer的模型，预训练于大量的对话数据和网络文本中。

CodeParrot (Tunstall et al., 2022)是一个基于GPT-2的模型，用于Python代码生成，而Codex (Chen et al., 2021b)展示了一个在GitHub上大量公开代码进行微调的GPT语言模型。 Chandel et al. (2022)探讨了由JuPyT5训练的一个数据科学助手的实用性， JuPyT5在公共Jupyter Notebook存储库上进行训练，并引入了一种新的评估指标DSP。PolyCode (Xu et al., 2022)是一个基于GPT-2的模型，具有多种语言的丰富编码能力，训练于大型代码数据集。AlphaCode (Li et al., 2022g)作为一个代码生成系统，在编程竞中表现出色。CodeRL (Le et al., 2022)将预训练的语言模型与强化学习相结合，用于程序合成。ERNIE-Code (Chai et al., 2022)采用独特的预训练方法，注重单语和跨语言学习。 Pangu-Coder (Christopoulou et al., 2022)采用两阶段训练策略，首先关注原始编程语言数据，然后关注文本到代码生成。FIM (Bavarian et al., 2022)在文本填充方面展示了自回归语言模型的有效性。 Zan et al. (2022)引入CERT，一个模型包含了一个草图生成器和生成器，用于详细代码的创建，它在未标记的数据上进行了训练。InCoder (Fried et al., 2022)专注于从大规模、经许可的代码语料库中生成代码文件，实现了双向上下文的代码填充。 Nijkamp et al. (2022a)提出CodeGen，这是一系列针对自然语言和编程的大型语言模型，配套使用JAXFORMER训练库。CodeGeeX（Zheng等，2023）是一个用于代码生成的多语言模型，训练集包含大量的编程语言数据。SantaCoder（Allal等，2023）是一个具有11亿参数的模型，使用来自The Stack（Kocetkov等，2022）的Java、 JavaScript和Python子集进行训练，并使用MultiPL-E文本到代码基准进行评估。这项研究表明，加强近似重复内容的过滤可以提高性能，有趣的是，选择来自拥有五个以上GitHub星标的代码库的文件往往会显著降低性能。相比之下， StarCoder（Li等，2023）是一个更强大的模型，拥有155亿参数和8K的上下文长度。它具有填充功能和快速的大批量推理能力，使用多查询注意力实现，并且使用来自The Stack（Kocetkov等，2022）的一万亿个标记的大型数据集进行训练。 WizardCoder（Luo等，2023）通过细致的指令微调将Code LLMs提升到一个更高的水平，采用了适用于代码领域的Evol-Instruct方法。AceCoder（Li等， 2023）结合了两种创新解决方案来解决编码挑战：首先，它采用了引导式代码生成，使LLMs在最初分析需求并生成初步输出（如测试用例）的同时进行；其次，它具有示例检索功能，选择类似的程序作为提示示例，提供相关的内容，如算法和API。 CodeGen2（Nijkamp等，2023）旨在通过整合模型架构、学习方法、填充采样和数据分布等四个关键要素，提高用于程序合成的LLMs训练效率。 CodeT5 （Wang等，2023）是一组编码器-解码器LLMs，用于代码，其特点是灵活的模块组合，以应对广泛的下游代码任务。CodeTF（Bui等，2023）是一个开源的基于Transformer的库，专门用于最前沿的Code LLMs和代码智能应用。

Code Llama（Roziere等，2023）代表了一系列基于Llama 2的用于代码的大型语言模型，具有与开放模型中的顶级性能相匹配的填充功能，支持大型输入上下文，并能够以零-shot方式按照指令执行编程任务。 CodeFuse（Di等，2023）是专为与代码相关的任务而定制的模型，其独特之处在于支持英文和中文提示，并支持超过40种编程语言。

3.9.6 长链推理 Long-Chain Reasoning

长链推理指的是能够以一种长时间序列和扩展方式连接和推理多个通常是复杂的信息或事件的能力。在复杂问题解决、决策和理解复杂系统的过程中，经常需要长链推理。

Ho等人（2022）提出了Fine-tune-CoT方法，利用非常大的教师模型为微调较小模型生成推理样本。通过使用Fine-tune-CoT，较小的模型获得了显著的推理能力，在许多任务中超过了基于提示的基线，甚至胜过了教师模型。

在基础模型出现之前，较早的模型的推理能力明显有限（Sun等人，2022）。这种限制主要源于基于学习的模型迅速忘记先前的信息的倾向。长链推理在人工智能智能体推理或体验推理中具有巨大的应用潜力，使其能够处理更加复杂和微妙的任务。尽管GPT-4等基础模型的出现，掌握长链推理仍然是一个重大挑战。我们强调长链推理在决策、规划和问答等应用中的巨大效用。在此基础上，我们旨在引起此领域的关注，鼓励基础模型的研究人员进一步探索和推进这个领域。

3.9.7 抽象推理 Abstract Reasoning

抽象推理是指在没有依赖特定情境或具体例子的情况下，分析和操作抽象的概念、思想或符号的认知能力。它超越了即时的感官输入和具体实例，以识别潜在的模式、关系和基本原理。抽象推理需要根据有限的数据来识别和应用一般模式。

Gendron等人（2023）在抽象推理任务中广泛评估了现有LLM技术水平。他们的研究发现，这些模型在抽象推理任务上的表现明显有限，与其在其他自然语言任务上的表现相比。这些发现表明，在有效应对抽象推理方面，LLM面临着挑战，并强调了在此领域进一步发展的必要性。

3.9.8 可废止推理 Defeasible Reasoning

可被推翻的推理是一种推理模式，其中结论可以根据新证据或信息进行推翻或修订 (Madaan et al., 2021)。 CURIOUS (Madaan et al., 2021)是一种支持人类可被推翻推理的框架，利用推理图 (Pollock, 2009)。在可被推翻推理的背景下， Rudinger et al. (2020)提供了三个值得注意的数据集：δ-ATOMIC，δ-SNLI和δ-SOCIAL。这些数据集通过涵盖不同领域展示出了多样性，为研究可被推翻推理提供了独特的挑战。δ-ATOMIC涉及常识推理，提供了需要根据背景知识和对日常情景的理解进行可被推翻推理的场景。δ-SNLI关注自然语言推理，要求对前提和假设之间的关系进行推理。δ-SOCIAL涉及关于社会规范和习俗的推理，为研究可被推翻推理在理解和解释社会行为中的应用提供了一个平台。 Zhou et al. (2020)引入了一个旨在评估模型模拟人类认知过程（如知识抽象、具体化和完善）能力的测试基准（KACC）。这些认知能力在理解世界和有效管理所掌握的知识中起着至关重要的作用。该测试基准包括以更大的概念图、丰富的跨视图链接和密集的实体图为特点的新数据集，提供了更全面的知识表示。在这个实验框架中，作者提出了创新性的挑战，特别是多跳知识抽象（MKA）和多跳知识具体化（MKC）。这些任务要求模型进行复杂的推理能力，涉及到在多个序列步骤中对知识进行抽象或具体化。 Kazemi et al. (2023)将reasoning with contradictory information的问题，以源偏好为指导，作为defeasible reasoning 的经典问题。这种形式可以全面探索模型处理冲突信息和在推理过程中优先考虑不同来源的能力。BoardgameQA (Kazemi et al., 2023)是一个旨在评估模型可被推翻推理能力的数据集。该数据集每个变体包括1000个训练示例、500个验证示例和1000个测试示例。

每个数据集都提供了在不同领域研究和推进可被推翻推理的独特挑战和机会。研究人员可以利用这些数据集来探索可被推翻推理模型在不同环境中的能力和限制，为发展具有基础模型技术的强大且适应性强的推理系统做出贡献。

3.10 基准、数据集和指标 Benchmarks, Datasets, and Metrics

基准、数据集和评估指标在评估和提升各个领域推理能力方面起着至关重要的作用，推动创新，并促进更强大和可靠的推理系统的发展。这些资源提供了标准化的框架和任务，使研究人员和开发人员能够客观评估推理模型的性能并比较不同的方法。

译者：基准、数据集和指标部分内容因为与译者关系不大，所以具体内容略掉。需要的请看原论文。