超级AI LISA登场：无死角分割指令、解释图像，聪明得让人叹为观止（超级切割）

独具慧眼的你是否注意到了最近互联网界的一项重磅研究？没错，就是来自香港中文大学的贾佳亚团队最新推出的LISA大模型——这家伙能够理解人话，并进行精准的分割任务。

以前，让AI识别一张早餐图里的橙子这种简单任务，小菜一碟！但如果问它“哪个食物维他命C含量最高”，那就有点难度了。毕竟这不是简单的分割工作了，还需要AI先认识图中的每种食物，并了解它们的成分。这就像是要求它们像我一样具备丰富的营养知识一样。

但是现在，AI们已经不再害怕这些复杂的自然语言命令了，让我们看看LISA的表现如何：

不难看出，聪明的LISA毫不含糊地准确分割出了橙子。

再给LISA来点挑战：看图并回答问题——是什么让这位女士站得更高？请把它分割出来并解释原因。

结果显示，LISA不仅识别出了"梯子"，还解释了它的原因。

还有一个更有趣的例子：贾佳亚团队竟然拿女子组合BLACK PINK里的Lisa来做测试，让LISA找Lisa！你这是在搞事情啊！

不得不承认，LISA真的很会玩！

LISA是一个多模态大模型，它的主攻目标是推理分割任务。这个任务要求模型能够处理复杂的自然语言指令，并给出精细的分割结果。

如你所见，推理分割任务可是非常有挑战性的。有时候需要模型了解一些世界知识，比如左图需要知道“短镜头更适合拍摄近物体”；有时候需要进行复杂的图文推理，比如右图需要分析图像和文本语义，才能理解到底什么是“栅栏保护婴儿”。

尽管目前已经有一些多模态大模型（比如Flamingo、BLIP-2、LLaVA、miniGPT-4、Otter等）可以根据图像内容推理出用户的复杂问题，并给出相应的文本分析和回答，但它们还无法像视觉感知系统那样精确定位指令对应的目标区域。

于是，LISA登场！LISA通过引入一个叫做<SEG>的标记来扩展词汇表，并采用Embedding-as-Mask的方式，给现有的多模态大模型赋予了分割能力。这样一来，LISA展示出了强大的零样本泛化能力。

同时，这项工作还创造了ReasonSeg数据集，里面包含了上千张高质量图像以及相应的推理指令和分割标注。

那么，具体来说，LISA是如何实现这种精准理解人话并进行分割的能力的呢？

首先，将图像和文本输入到一个多模态大语言模型F（就是LLaVA那家伙）里，得到一个文本输出结果。如果这个结果里包含了<SEG>标记，那就意味着需要通过分割预测来解决当前问题。反之，如果没有<SEG>标记，那就没有分割结果输出。

如果存在标记，就把<SEG>标记在多模态大模型F最后一层对应的embedding上经过一个MLP层处理，得到一个叫做hseg的特征。然后，将这个特征和图像编码器Fenc对图像进行编码得到的分割视觉特征f一起传递给解码器Fdec。

最后，Fdec根据这些信息生成最终的分割结果M。

LISA在训练过程中使用了自回归交叉熵损失函数，以及对分割结果监督的BCE和DICE损失函数。

实验证明，LISA仅使用不含有复杂推理的分割数据进行训练（通过将现有的语义分割数据转换成“图像-指令-分割Mask”的三元组），就展现出了优异的零样本泛化能力。

而且，通过进一步的微调训练，使用了更多的推理分割数据，LISA在推理分割任务上的性能显著提升。更令人高兴的是，LISA的训练非常高效，只需在具备24GB显存的3090显卡上进行10,000次训练迭代，就能完成整个7B模型的训练。

最终，LISA不仅在传统的语言-图像分割指标上表现出色，还能应对复杂的分割任务，如复杂推理、联系世界知识、解释分割结果和多轮对话。在ReasonSeg数据集中，LISA更是远超其他相关工作，充分证明了其卓越的推理分割能力。

更有意思的是，LISA的推理分割能力已经有了在线的Demo，你可以去亲自体验一下。操作非常简单，只需要填写指令并上传图片即可。如果你不知道怎么编写指令，Demo下方还提供了一些示例，供你参考。

无论是分割水果还是找Lisa，LISA都能给你一个惊喜。它的聪明才智和逗趣个性将为互联网界带来更加精彩的发展。让我们拭目以待吧！