阿里Qwen-VL开源！能读图识物，一句话让AI来找茬，可二次开发和商用

妖气游戏网

阿里Qwen-VL开源！能读图识物，一句话让AI来找茬，可二次开发和商用

首页休闲益智找茬侦探更新时间：2024-05-07

作者 | 虞景霖

编辑 | 邓咏仪尚恩

国产多模态大模型开启公测！

进口替代的泼天富贵也有咱们大模型的一份。

来源：公开网络

就在前不久，阿里宣布开源Qwen-VL，一款支持中英文等多种语言的视觉语言大模型，这也是首个支持中文开放域定位的通用模型。

据官网说明，Qwen-VL不仅支持图像、文本和检测框等输入/输出，还能对输入的图像进行细粒度视觉定位。

什么是细粒度视觉定位？举个简单例子——要让大模型不仅识别出图像中的是一条狗，还要说出这是哪个品种，是萨摩耶还是哈士奇。

来源：Qwen-VL

现在Qwen-VL已直接开放可玩，只要进入官网，完成简单注册就ok。

官网链接：https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

来源：Qwen-VL

具体效果如何？通义千问主要从英文基准测试和试金石测试两个角度对Qwen-VL进行测试。

结果显示，Qwen-VL在零样本图像描述、通用视觉问答等多个方面的测试中都获得了SOTA（state-of-the-art，指某个领域表现最好的）的结果。

简单来说就是，超越了现阶段几乎所有国产多模态大模型。

除了Qwen-VL，本次阿里云还开源Qwen-VL-Chat。

Qwen-VL-Chat是在Qwen-VL的基础上，使用对齐机制打造的基于大语言模型的视觉AI助手，可让开发者快速搭建具备多模态能力的对话应用。

图文自由上传，回答对话很丝滑

按照官方的说法，Qwen-VL的体验直接拉满，那么真正上手后究竟效果如何？实践出真知——

我们主要从知识问答、图像问答、文档问答等场景对Qwen-VL的能力进行了测评，涵盖常识问答、图像识别、阅读理解、文学创作、情感分析、信息提取等方面。

来源：Qwen-VL

首先来看看Qwen-VL的知识问答能力，来一个最近火热的话题：核污染水和核废水有啥分别？

来源：Qwen-VL

AI看似回答了一大堆，实则就是绕弯子根本没答到点子上。污染水和核废水并非同一物质，前者经过处理后可以安全排出，后者则具有高放射性，对人体和环境危害严重。

这题答错！

来源：公开网络

换一个历史常识试试呢？

来源：Qwen-VL

好像说的差不多，但也不能说它说的不对。

图像问答能力如何呢？先来一个水果试试

来源：Qwen-VL

Bingo！那它是否能对不同种类的水果进行准确定位呢？

来源：Qwen-VL

也不能说不对，虽然圈出了香蕉和菠萝，但还把石榴包括在了其中。

影视人物的识别又是否准确呢？看看AI认不认识咱的四字弟弟。

来源：Qwen-VL

很可惜，Qwen-VL又答错了，四字弟应该是最右边的那一位。

如果换成动画人物会不会好一点？

来源：Qwen-VL

这次终于对了，成功找到喜羊羊，还进行了补充信息说明，虽说附加信息中有些错误吧，但也值得鼓励。

再来试试识别“历史建筑”，回答准确！

来源：Qwen-VL

来源：Qwen-VL

但当我进一步询问它们的历史时，Qwe-VL的表现掺杂错误信息，看来不是很经夸……

来源：Qwen-VL

根据百度百科，罗马斗兽场始建于公元72-79年，长宽分别为188米、156米，围墙高57米、内高48米。埃菲尔铁塔确实建成于1889年，但高度为330米。

另外，从简答数学题来看，Qwen-VL似乎不能直接从图片中提取题目信息。

来源：Qwen-VL

接下来，当我们想上手测试下Qwen-VL的文档信息回答能力时，发现并不支持直接上传文档，至少不支持pdf、docx、txt三种常见类型的。

因此，要想测试它的阅读理解能力、总结概括能力和反事实推理能力，就只能先复制文档中的内容，再粘贴。

行吧！把我就先来看看阅读理解能力，翻译能力的测试，采用最常见的中英互译。

来源：Qwen-VL

呀，搞得不错！反过来再试试呢？

来源：Qwen-VL

你小子……算了下次不夸你了。再来看看文学创作能力，好像也比较一般。

来源：Qwen-VL

总结概括能力如何？

来源：Qwen-VL

然鹅，原答案是：曹雪芹塑造了众多逼真的人物形象。

除了上面已经测过的这些，Qwen-VL还些附加小能力，比如可以把文字内容直接生成表格。

来源：Qwen-VL

来源：Qwen-VL

好了，个人测评结束，来看看官方的测试结果咋说。

官方测评，拿到多个SOTA

官方主要是从两个角度评估Qwen-VL的能力，分别是“英文基准测试”和“试金石基准评估”。

前者涵盖了零样本图片描述、通用问答、文字相关问答和物体描述画检测框四个方面。后者则对多种类型的图文对话进行了评估，并用人工标注描述的方法克服GPT-4不能读取图片的限制。

从测试结果来看，Qwen-VL系列多模态大模型在“零样本图像描述、通用视觉问答、文本导向的视觉问答、视觉定位”这四个方面，几乎都获得了SOTA的结果，且均可百分百复现。

来源：Qwen-VL

具体来说，在英文基准测试的“零样本内容生成”中，Qwen-VL在Flickr30K数据集上取得了SOTA的结果，并在 Nocaps 数据集上取得了和 InstructBlip 可竞争的结果。

在“通用视觉问答”测试中，Qwen-VL 取得了LVLM（Large Vision Language Model，大型视觉语言模型）模型同等量级和设定下SOTA的结果。

来源：Qwen-VL

而在文字相关的是识别和问答测试中，Qwen-VL表现出了超越当前规模下，通用视觉大语言模型的最好结果。

来源：Qwen-VL

在定位任务上，Qwn-VL同样表现出色，全面超过Shikra-13B，得了目前 Generalist LVLM 模型上在Refcoco上的SOTA。

Qwen-VL 并没有在任何中文定位数据上训练过，但通过中文Caption数据和英文Grounding 数据的训练，可以零样本泛化出中文 Grounding 能力。

来源：Qwen-VL

技术细节上，Qwen-VL是以Qwen-7B为基座语言模型，在模型架构上引入了视觉编码器ViT，并通过位置感知的视觉语言适配器连接二者，使得模型支持视觉信号输入。

来源：Qwen-VL

具体的训练过程分为三步：

第一步“预训练”，只优化视觉编码器和视觉语言适配器，冻结语言模型。使用大规模图像-文本配对数据，输入图像分辨率为224x224。

第二步“多任务预训练”，引入更高分辨率（448x448）的多任务视觉语言数据，如VQA、文本VQA、指称理解等，进行多任务联合预训练。

第三步“监督微调”，冻结视觉编码器，优化语言模型和适配器。使用对话交互数据进行提示调优，得到最终的带交互能力的Qwen-VL-Chat模型。

目前，Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope（魔搭社区），开源、免费、可商用。用户可从魔搭社区直接下载模型，也可通过阿里云灵积平台访问调用，平台还为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

多模态大模型混战

国产大模型可谓眼花缭乱，文心一言、华为盘古、360智脑……你方唱罢我登场，一波接着又一波。在这场混战的后期，可以发现——大模型厂商们不再满足于基础的文字语言大模型，正朝着多模态大模型的方向努力。

多模态大模型，可以说是大模型发展的必经之路，就在8月28日，面壁智能宣布多模态大模型Luca2.0正式开启公测。

来源：Luca

操作同样简便，仅需登录官网，用手机号验证一下就能体验了。巧的是，和Qwen-VL一样，Luca同样只有一个聊天界面。

来源：Luca

但又有些许区别：登出后再次登录依旧可以看到之前的对话内容，并且选择重新生成回答之后仍然可以看到前几次的回答。

来源：Luca

来源：Luca

显然，可回看历史回答这一功能是好的，但生成的内容也确实需要改进。

除了阿里和面壁智能宣布公测的这两个多模态大模型，字节、360等企业也不甘落后。

字节开发的多模态大模型MagicAvatar支持将文本、视频、音频作为输入模式，通过将三者转化为运动信号，生成人类或者动画形象。360智脑则是由360集团开发的多模态大模型。根据负责人周鸿祎介绍，360智脑已经具备文字、图像、语音和视频处理能力。

目前，MagicAvatar和360智脑均暂不支持公测。

多模态大模型就像一顿丰盛的大餐，色香味接连上阵，文本、图像、音/视频等在餐桌上互相交融。

不过从测评结果也不难看出，现阶段的公布的多模态大模型大多出自新手厨师——虽然才华横溢，但难免在盐和糖的用量上稍稍出入。

大家还看了

也许喜欢

更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved