【LLM/大模型】专家混合集指令调优:大型语言模型的精英组合

【LLM/大模型】专家混合集指令调优:大型语言模型的精英组合

首页模拟经营组合模型2中文版更新时间:2024-04-22
前置知识

1、什么是专家混合(Mixture-of-Experts,MoE)?

MoE是一种神经网络架构设计,它在Transformer模块中集成了专家/模型层。当数据流经MoE层时,每个输入token会动态路由到一个专家子集进行计算。这种方法允许更高效的计算与更好的结果,因为每个专家在特定任务上进行专业化。

2、MoE关键组件:

3、为什么需要MoE?

一、结论写在前面

论文提出了FLAN-MoE,这是一种创新方法,通过采用稀疏的专家混合(MoE)技术来扩大指令调优语言模型的可扩展性。论文的策略是将指令微调的优点与MoE的优点结合在一起,前者可以提高特定任务的性能,后者可以提供计算效率与较低的内存需求。

论文通过在各种自然语言处理(NLP)任务(如自然语言理解、问答和推理)上进行全面 实验,证明了 FLAN-MoE 的有效性。

论文的结果表明: FLAN-MoE 即使相对于当前SOTA,也有卓越性能,在精度和效率方面都取得了重大进步。值得注意的是,这些进步是在训练和推理期间不需要增加计算资源或内存使用的情况下实现的,在这个过程中通常还降低了资源需求。

二、论文的简单介绍2.1 论文的背景

基于transformer的语言模型已经成为各种NLP任务的事实标准,因为它们在捕获复杂的语言模式和泛化不同上下文的能力无与伦比。训练这种模型的一个特别成功的范式是指令调优(instruction-tuning),它通过使其预训练表示遵循自然语言指令,来提高模型在特定任务上的性能。

虽然大型语言模型(LLM)的好处是无可争议的,但它们迅速增长的大小和计算要求在训练效率、内存占用和部署成本方面带来了巨大挑战。因此,迫切需要开发可扩展的技术,这些技术可以利用这些模型的力量,而不会产生高昂的计算开销。

另一方面,专家混合模型(Mixture of Experts,MoE)由于专家稀疏激活,可以显著降低LLM的计算成本。MoE模型基于这样的观察:语言模型可以分解成更小的、专业化的子模型或“专家”,这些专家聚焦于输入数据的不同方面,从而实现更高效的计算和资源分配。然而,我们发现,常规的特定任务微调MoE模型会导致次优性能,通常甚至比计算成本相同的密集模型微调还要差。原因之一可能是通用预训练和特定任务微调之间的差异。

2.2 论文的方案

论文阐明了指令调优在专家混合集(MoE)模型中的关键作用,特别是在下游任务的成功可扩展性方面。论文通过两方面分析来证明这一点:

首先,论文扩展了指令调优对下游任务特定微调的已知好处,说明其对MoE模型的影响明显大于等效的密集模型。

其次,论文强调了MoE模型\进行指令调优阶段的必要性,以超越密集模型在下游和保留任务上的性能。

论文独特的混合体FLAN-MOE是一个基于Flan mixture 的指令调优模型,它成功利用了指令调优和稀疏MoE技术的优势。FLAN-MOE可以有效且高效地扩展语言模型,而不需要增加计算资源或内存需求。

图1:指令调优对MoE模型与密集对应物的影响(此图中所有模型的基本大小相同)。论文对每个模型在保留基准测试中进行单任务微调。与密集模型相比,MoE模型从指令调优中受益更多,并且更敏感于指令调优任务的数量。总的来说,MoE模型的性能随着任务数量的增加相比专家数量的增加扩展性更好

2.3.1 模型架构

在FLAN-MOE模型中利用了稀疏激活的专家混合(MoE)。与Switch Transformer 类似,论文用MoE层替换了每个Transformer层中的前馈组件。每个MoE层由一组独立的前馈网络组成,它们是“专家”。然后,门控函数使用softmax激活函数对这些专家建模一个概率分布。这个分布指示每个专家处理传入输入的能力。

尽管每个MoE层的参数更多,但专家是稀疏激活的。这意味着对于给定的输入标记,只使用有限的专家子集,使模型具有更大的容量,同时限制计算。在我们的架构中,子集大小根据路由策略为1或2。每个MoE层的可学习门控网络经过训练,以便为输入序列的每个标记激活最佳的两个专家。

在推理期间,学习到的门控网络会动态选择每个标记的两个最佳专家。对于具有E个专家的MoE层,这本质上提供了O(E^2)种不同组合的前馈网络,而不是经典Transformer架构中的一种,实现了更大的计算灵活性。标记的最终学习表示将是所选专家的输出的加权组合。

2.2.2 指令微调配置

使用前缀语言模型目标在FLAN集合数据集上微调FLAN-MoE。每个FLAN-MoE将在预训练期间继承辅助损失设置。将更新所有模型参数。将每个FLAN-MoE的序列长度根据相对位置嵌入调整为输入2048,输出512。dropout率为0.05,专家dropout率为0.2。学习率为1e-4。优化器设置遵循。

2.3 论文的贡献

论文在一系列自然语言理解、推理和问答任务中对我们的模型FLAN-MOE进行了全面的测试。论文的评估框架由三个不同的设置组成:

(i)在单个下游任务上直接微调模型;

(ii)在下游任务上进行指令调优,然后进行上下文、少样本或零样本泛化;

(iii)在单个下游任务上进行指令调优,然后进行微调。

结果突出显示了FLAN-MOE在第二个和第三个设置下与其密集对应物相比的明显优势。值得注意的是,这些进步的实现不需要增加计算资源或内存要求。事实上,论文的顶级模型在四个独立基准测试中每个token只需要计算成本的三分之一,就成功击败了等效的FLAN-PALM。

总结一下,论文的贡献如下:

表1:MoE模型在密集对应物的基础上改进了指令微调性能。基准套件是MMLU(57个任务)、BBH(23个任务)、推理(4个任务)和QA(4个任务)。所有基准的评估指标都是少样本提示准确度,特别是完全匹配。为了计算这个指标,论文对所有任务取不加权平均值。为了全面评估,论文报告了MMLU-direct、BBH-direct、Reasoning-CoT和QA-Direct的标准化平均值。 MMLU和BBH评估基准是保留的(未包含在微调数据中),而Reasoning和QA评估基准是保留的。 (请注意,FLAN-ST32B的性能优于FLAN-PALM62B,而运算量<30%)

图2:类似有效FLOPs每个标记的FLAN-MOE模型与FLAN-T5密集模型的平均零性能在57个MMLU任务和23个BBH任务上

图3:学习效率比较。在FLAN任务上训练期间处理的标记越来越多,FLANMOE模型与FLAN-T5密集模型的平均零试验和少试验性能。

图4:FLAN-MOE模型在57个MMLU任务和23个BBH任务上的平均少试验性能。 (不同颜色表示不同的密集模型大小)

图5:采用不同微调策略的FLAN-MOE的平均少试验性能

图6:FLAN-MOE在单任务微调中优于MoE。比较了单任务微调的MoE、单任务微调的FLAN-MoE以及密集的对应物。 FLAN-MoE与MoE之间的性能差距明显大于FLAN-T5与T5之间的差距

论文标题:Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models

论文链接:https://arxiv.org/pdf/2305.14705.pdf

其它值得一读的文章:

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved