阿里Qwen-VL开源!能读图识物,一句话让AI来找茬,可二次开发和商用

阿里Qwen-VL开源!能读图识物,一句话让AI来找茬,可二次开发和商用

首页休闲益智找茬侦探更新时间:2024-05-07

作者 | 虞景霖

编辑 | 邓咏仪 尚恩

国产多模态大模型开启公测!

进口替代的泼天富贵也有咱们大模型的一份。

来源:公开网络

就在前不久,阿里宣布开源Qwen-VL,一款支持中英文等多种语言的视觉语言大模型,这也是首个支持中文开放域定位的通用模型。

据官网说明,Qwen-VL不仅支持图像、文本和检测框等输入/输出,还能对输入的图像进行细粒度视觉定位。

什么是细粒度视觉定位?举个简单例子——要让大模型不仅识别出图像中的是一条狗,还要说出这是哪个品种,是萨摩耶还是哈士奇。

来源:Qwen-VL

现在Qwen-VL已直接开放可玩,只要进入官网,完成简单注册就ok。

官网链接:https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

来源:Qwen-VL

具体效果如何?通义千问主要从英文基准测试和试金石测试两个角度对Qwen-VL进行测试。

结果显示,Qwen-VL在零样本图像描述、通用视觉问答等多个方面的测试中都获得了SOTA(state-of-the-art,指某个领域表现最好的)的结果。

简单来说就是,超越了现阶段几乎所有国产多模态大模型。

除了Qwen-VL,本次阿里云还开源Qwen-VL-Chat。

Qwen-VL-Chat是在Qwen-VL的基础上,使用对齐机制打造的基于大语言模型的视觉AI助手,可让开发者快速搭建具备多模态能力的对话应用。

图文自由上传,回答对话很丝滑

按照官方的说法,Qwen-VL的体验直接拉满,那么真正上手后究竟效果如何?实践出真知——

我们主要从知识问答、图像问答、文档问答等场景对Qwen-VL的能力进行了测评,涵盖常识问答、图像识别、阅读理解、文学创作、情感分析、信息提取等方面。

来源:Qwen-VL

首先来看看Qwen-VL的知识问答能力,来一个最近火热的话题:核污染水和核废水有啥分别?

来源:Qwen-VL

AI看似回答了一大堆,实则就是绕弯子根本没答到点子上。污染水和核废水并非同一物质,前者经过处理后可以安全排出,后者则具有高放射性,对人体和环境危害严重。

这题答错!

来源:公开网络

换一个历史常识试试呢?

来源:Qwen-VL

好像说的差不多,但也不能说它说的不对。

图像问答能力如何呢?先来一个水果试试

来源:Qwen-VL

Bingo!那它是否能对不同种类的水果进行准确定位呢?

来源:Qwen-VL

也不能说不对,虽然圈出了香蕉和菠萝,但还把石榴包括在了其中。

影视人物的识别又是否准确呢?看看AI认不认识咱的四字弟弟。

来源:Qwen-VL

很可惜,Qwen-VL又答错了,四字弟应该是最右边的那一位。

如果换成动画人物会不会好一点?

来源:Qwen-VL

这次终于对了,成功找到喜羊羊,还进行了补充信息说明,虽说附加信息中有些错误吧,但也值得鼓励。

再来试试识别“历史建筑”,回答准确!

来源:Qwen-VL

来源:Qwen-VL

但当我进一步询问它们的历史时,Qwe-VL的表现掺杂错误信息,看来不是很经夸……

来源:Qwen-VL

根据百度百科,罗马斗兽场始建于公元72-79年,长宽分别为188米、156米,围墙高57米、内高48米。埃菲尔铁塔确实建成于1889年,但高度为330米。

另外,从简答数学题来看,Qwen-VL似乎不能直接从图片中提取题目信息。

来源:Qwen-VL

接下来,当我们想上手测试下Qwen-VL的文档信息回答能力时,发现并不支持直接上传文档,至少不支持pdf、docx、txt三种常见类型的。

因此,要想测试它的阅读理解能力、总结概括能力和反事实推理能力,就只能先复制文档中的内容,再粘贴。

行吧!把我就先来看看阅读理解能力,翻译能力的测试,采用最常见的中英互译。

来源:Qwen-VL

呀,搞得不错!反过来再试试呢?

来源:Qwen-VL

你小子……算了下次不夸你了。再来看看文学创作能力,好像也比较一般。

来源:Qwen-VL

总结概括能力如何?

来源:Qwen-VL

然鹅,原答案是:曹雪芹塑造了众多逼真的人物形象。

除了上面已经测过的这些,Qwen-VL还些附加小能力,比如可以把文字内容直接生成表格。

来源:Qwen-VL

来源:Qwen-VL

好了,个人测评结束,来看看官方的测试结果咋说。

官方测评,拿到多个SOTA

官方主要是从两个角度评估Qwen-VL的能力,分别是“英文基准测试”和“试金石基准评估”。

前者涵盖了零样本图片描述、通用问答、文字相关问答和物体描述画检测框四个方面。后者则对多种类型的图文对话进行了评估,并用人工标注描述的方法克服GPT-4不能读取图片的限制。

从测试结果来看,Qwen-VL系列多模态大模型在“零样本图像描述、通用视觉问答、文本导向的视觉问答、视觉定位”这四个方面,几乎都获得了SOTA的结果,且均可百分百复现。

来源:Qwen-VL

具体来说,在英文基准测试的“零样本内容生成”中,Qwen-VL在Flickr30K数据集上取得了SOTA的结果,并在 Nocaps 数据集上取得了和 InstructBlip 可竞争的结果。

在“通用视觉问答”测试中,Qwen-VL 取得了LVLM(Large Vision Language Model,大型视觉语言模型)模型同等量级和设定下SOTA的结果。

来源:Qwen-VL

而在文字相关的是识别和问答测试中,Qwen-VL表现出了超越当前规模下,通用视觉大语言模型的最好结果。

来源:Qwen-VL

在定位任务上,Qwn-VL同样表现出色,全面超过Shikra-13B,得了目前 Generalist LVLM 模型上在Refcoco上的SOTA。

Qwen-VL 并没有在任何中文定位数据上训练过,但通过中文Caption数据和英文Grounding 数据的训练,可以零样本泛化出中文 Grounding 能力。

来源:Qwen-VL

技术细节上,Qwen-VL是以Qwen-7B为基座语言模型,在模型架构上引入了视觉编码器ViT,并通过位置感知的视觉语言适配器连接二者,使得模型支持视觉信号输入。

来源:Qwen-VL

具体的训练过程分为三步:

第一步“预训练”,只优化视觉编码器和视觉语言适配器,冻结语言模型。使用大规模图像-文本配对数据,输入图像分辨率为224x224。

第二步“多任务预训练”,引入更高分辨率(448x448)的多任务视觉语言数据,如VQA、文本VQA、指称理解等,进行多任务联合预训练。

第三步“监督微调”,冻结视觉编码器,优化语言模型和适配器。使用对话交互数据进行提示调优,得到最终的带交互能力的Qwen-VL-Chat模型。

目前,Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope(魔搭社区),开源、免费、可商用。用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用,平台还为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

多模态大模型混战

国产大模型可谓眼花缭乱,文心一言、华为盘古、360智脑……你方唱罢我登场,一波接着又一波。在这场混战的后期,可以发现——大模型厂商们不再满足于基础的文字语言大模型,正朝着多模态大模型的方向努力。

多模态大模型,可以说是大模型发展的必经之路,就在8月28日,面壁智能宣布多模态大模型Luca2.0正式开启公测。

来源:Luca

操作同样简便,仅需登录官网,用手机号验证一下就能体验了。巧的是,和Qwen-VL一样,Luca同样只有一个聊天界面。

来源:Luca

但又有些许区别:登出后再次登录依旧可以看到之前的对话内容,并且选择重新生成回答之后仍然可以看到前几次的回答。

来源:Luca

来源:Luca

显然,可回看历史回答这一功能是好的,但生成的内容也确实需要改进。

除了阿里和面壁智能宣布公测的这两个多模态大模型,字节、360等企业也不甘落后。

字节开发的多模态大模型MagicAvatar支持将文本、视频、音频作为输入模式,通过将三者转化为运动信号,生成人类或者动画形象。360智脑则是由360集团开发的多模态大模型。根据负责人周鸿祎介绍,360智脑已经具备文字、图像、语音和视频处理能力。

目前,MagicAvatar和360智脑均暂不支持公测。

多模态大模型就像一顿丰盛的大餐,色香味接连上阵,文本、图像、音/视频等在餐桌上互相交融。

不过从测评结果也不难看出,现阶段的公布的多模态大模型大多出自新手厨师——虽然才华横溢,但难免在盐和糖的用量上稍稍出入。

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved