独具慧眼的你是否注意到了最近互联网界的一项重磅研究?没错,就是来自香港中文大学的贾佳亚团队最新推出的LISA大模型——这家伙能够理解人话,并进行精准的分割任务。
以前,让AI识别一张早餐图里的橙子这种简单任务,小菜一碟!但如果问它“哪个食物维他命C含量最高”,那就有点难度了。毕竟这不是简单的分割工作了,还需要AI先认识图中的每种食物,并了解它们的成分。这就像是要求它们像我一样具备丰富的营养知识一样。
但是现在,AI们已经不再害怕这些复杂的自然语言命令了,让我们看看LISA的表现如何:
不难看出,聪明的LISA毫不含糊地准确分割出了橙子。
再给LISA来点挑战:看图并回答问题——是什么让这位女士站得更高?请把它分割出来并解释原因。
结果显示,LISA不仅识别出了"梯子",还解释了它的原因。
还有一个更有趣的例子:贾佳亚团队竟然拿女子组合BLACK PINK里的Lisa来做测试,让LISA找Lisa!你这是在搞事情啊!
不得不承认,LISA真的很会玩!
LISA是一个多模态大模型,它的主攻目标是推理分割任务。这个任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。
如你所见,推理分割任务可是非常有挑战性的。有时候需要模型了解一些世界知识,比如左图需要知道“短镜头更适合拍摄近物体”;有时候需要进行复杂的图文推理,比如右图需要分析图像和文本语义,才能理解到底什么是“栅栏保护婴儿”。
尽管目前已经有一些多模态大模型(比如Flamingo、BLIP-2、LLaVA、miniGPT-4、Otter等)可以根据图像内容推理出用户的复杂问题,并给出相应的文本分析和回答,但它们还无法像视觉感知系统那样精确定位指令对应的目标区域。
于是,LISA登场!LISA通过引入一个叫做<SEG>的标记来扩展词汇表,并采用Embedding-as-Mask的方式,给现有的多模态大模型赋予了分割能力。这样一来,LISA展示出了强大的零样本泛化能力。
同时,这项工作还创造了ReasonSeg数据集,里面包含了上千张高质量图像以及相应的推理指令和分割标注。
那么,具体来说,LISA是如何实现这种精准理解人话并进行分割的能力的呢?
首先,将图像和文本输入到一个多模态大语言模型F(就是LLaVA那家伙)里,得到一个文本输出结果。如果这个结果里包含了<SEG>标记,那就意味着需要通过分割预测来解决当前问题。反之,如果没有<SEG>标记,那就没有分割结果输出。
如果存在标记,就把<SEG>标记在多模态大模型F最后一层对应的embedding上经过一个MLP层处理,得到一个叫做hseg的特征。然后,将这个特征和图像编码器Fenc对图像进行编码得到的分割视觉特征f一起传递给解码器Fdec。
最后,Fdec根据这些信息生成最终的分割结果M。
LISA在训练过程中使用了自回归交叉熵损失函数,以及对分割结果监督的BCE和DICE损失函数。
实验证明,LISA仅使用不含有复杂推理的分割数据进行训练(通过将现有的语义分割数据转换成“图像-指令-分割Mask”的三元组),就展现出了优异的零样本泛化能力。
而且,通过进一步的微调训练,使用了更多的推理分割数据,LISA在推理分割任务上的性能显著提升。更令人高兴的是,LISA的训练非常高效,只需在具备24GB显存的3090显卡上进行10,000次训练迭代,就能完成整个7B模型的训练。
最终,LISA不仅在传统的语言-图像分割指标上表现出色,还能应对复杂的分割任务,如复杂推理、联系世界知识、解释分割结果和多轮对话。在ReasonSeg数据集中,LISA更是远超其他相关工作,充分证明了其卓越的推理分割能力。
更有意思的是,LISA的推理分割能力已经有了在线的Demo,你可以去亲自体验一下。操作非常简单,只需要填写指令并上传图片即可。如果你不知道怎么编写指令,Demo下方还提供了一些示例,供你参考。
无论是分割水果还是找Lisa,LISA都能给你一个惊喜。它的聪明才智和逗趣个性将为互联网界带来更加精彩的发展。让我们拭目以待吧!
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved