阿里大模型又开源！能读图会识物，基于通义千问7B打造，可商用

作者：量子位发布时间：2023-08-30

通义千问

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

阿里开源大模型，又上新了~

继通义千问-7B（Qwen-7B）之后，阿里云又推出了大规模视觉语言模型Qwen-VL，并且一上线就直接开源。

具体来说，Qwen-VL是基于通义千问-7B打造的多模态大模型，支持图像、文本、检测框等多种输入，并且在文本之外，也支持检测框的输出。

举个🌰，我们输入一张阿尼亚的图片，通过问答的形式，Qwen-VL-Chat既能概括图片内容，也能定位到图片中的阿尼亚。

测试任务中，Qwen-VL展现出了“六边形战士”的实力，在四大类多模态任务的标准英文测评中（Zero-shot Caption/VQA/DocVQA/Grounding）上，都取得了SOTA。

开源消息一出，就引发了不少关注。

具体表现如何，咱们一起来看看~

首个支持中文开放域定位的通用模型

先来整体看一下Qwen-VL系列模型的特点：

多语言对话：支持多语言对话，端到端支持图片里中英双语的长文本识别；
多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；
首个支持中文开放域定位的通用模型：通过中文开放域语言表达进行检测框标注，也就是能在画面中精准地找到目标物体；
细粒度识别和理解：相比于目前其它开源LVLM（大规模视觉语言模型）使用的224分辨率，Qwen-VL是首个开源的448分辨率LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

按场景来说，Qwen-VL可以用于知识问答、图像问答、文档问答、细粒度视觉定位等场景。

比如，有一位看不懂中文的外国友人去医院看病，对着导览图一个头两个大，不知道怎么去往对应科室，就可以直接把图和问题丢给Qwen-VL，让它根据图片信息担当翻译。

再来测试一下多图输入和比较：

虽然没认出来阿尼亚，不过情绪判断确实挺准确的（手动狗头）。

视觉定位能力方面，即使图片非常复杂人物繁多，Qwen-VL也能精准地根据要求找出绿巨人和蜘蛛侠。

技术细节上，Qwen-VL是以Qwen-7B为基座语言模型，在模型架构上引入了视觉编码器ViT，并通过位置感知的视觉语言适配器连接二者，使得模型支持视觉信号输入。

具体的训练过程分为三步：

预训练：只优化视觉编码器和视觉语言适配器，冻结语言模型。使用大规模图像-文本配对数据，输入图像分辨率为224x224。
多任务预训练：引入更高分辨率（448x448）的多任务视觉语言数据，如VQA、文本VQA、指称理解等，进行多任务联合预训练。
监督微调：冻结视觉编码器，优化语言模型和适配器。使用对话交互数据进行提示调优，得到最终的带交互能力的Qwen-VL-Chat模型。

研究人员在四大类多模态任务（Zero-shot Caption/VQA/DocVQA/Grounding）的标准英文测评中测试了Qwen-VL。

结果显示，Qwen-VL取得了同等尺寸开源LVLM的最好效果。

另外，研究人员构建了一套基于GPT-4打分机制的测试集TouchStone。

在这一对比测试中，Qwen-VL-Chat取得了SOTA。

如果你对Qwen-VL感兴趣，现在在魔搭社区和huggingface上都有demo可以直接试玩，链接文末奉上~

Qwen-VL支持研究人员和开发者进行二次开发，也允许商用，不过需要注意的是，商用的话需要先填写问卷申请。

项目链接：

https://modelscope.cn/models/qwen/Qwen-VL/summary

https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

https://huggingface.co/Qwen/Qwen-VL

https://huggingface.co/Qwen/Qwen-VL-Chat

https://github.com/QwenLM/Qwen-VL

论文地址：

https://arxiv.org/abs/2308.12966

— 完—

「量子位智库·仿生机器人沙龙」招募中

9月6日，「量子位智库·仿生机器人沙龙」将在北京中关村举办，欢迎全行业仿生机器人玩家参与 ~

点击图片了解详情，企业报名可联系活动负责人王琳玉（微信：iris_wang17，请备注企业+姓名）。沙龙观众通道后续开放，敬请期待 ~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

第三届重庆市青少年智能机器人编程大赛决赛在垫江举行

12月28日，第三届重庆市青少年智能机器人编程大赛决赛在垫江三合湖城市博览中心举行，大赛由市委宣传部、市委文明办、市教委、市科技局、市文化旅游委、团市委、市科协、市少工委主办，中共垫江县委宣传部、垫江县教育委员会、垫江县科学技术局、垫江县文化和旅游发展委员会，垫江县科学技术协会、共青团垫江县委员会、中国少年先锋队垫江县工作委员会、垫江县东...

上游新闻 2024-12-30

英伟达计划明年上半年发布新一代人形机器人计算平台，支持多模态AI模型

在AI（人工智能）芯片领域面对愈发激烈的竞争，AI芯片龙头英伟达将人形机器人视为下一个富有潜力的巨大市场。当地时间12月29日，据外媒报道，英伟达将于2025年上半年正式推出下一代专用于人形机器人的小型计算机JetsonThor。在今年3月的英伟达GPU技术大会（GTC）上，英伟达CEO黄仁勋宣布公司将推出JetsonThor芯片平台。

澎湃新闻 2024-12-30

证券时报 2024-12-30

华为多款手机降价促销，最高降幅达2500元

12月30日，记者从华为官网看到，华为Pura70系列、MateX5等多款手机开启降价促销优惠，降价范围从500元到2500元不等，主要涉及高端机型，其中力度最大的HUAWEIMateX5降价幅度达2500元。几年前，选购电子产品作为年货尚属新奇之举，而今，不少人开始将电子产品纳入年货清单。

北京日报 2024-12-30

realme UI 识屏问答功能 2025 年 1 月中旬上线

IT之家12月30日消息，realmeUI产品经理@康达Leo今日发文透露，realmeUI识屏问答功能将于2025年1月中旬上线，相机相册水印功能将在春节前上线。

IT之家 2024-12-30

安全设置CPU超频技巧：提升性能与稳定性的指南

CPU超频，简单来说，就是让你的中央处理器（CPU）在原本的设定频率上运行得更快。对许多电脑爱好者和游戏玩家而言，超频不仅能提升系统性能，还是一种追求极限的乐趣。不过，超频并不是一件简单的事，稍有不慎就可能导致系统不稳定或者硬件损坏。

新报观察 2024-12-30

阿里大模型又开源！能读图会识物，基于通义千问7B打造，可商用

推荐体验

相关资讯

超越先前最佳，阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型

阿里云开源通义千问 70 亿参数模型，免费、可商用

阿里云通义千问开源！70亿参数、免费可商用！

国内首个阿里云通义千问开源：70亿参数大模型免费、可商用

阿里云通义千问14B模型开源

近期资讯

第三届重庆市青少年智能机器人编程大赛决赛在垫江举行

英伟达计划明年上半年发布新一代人形机器人计算平台，支持多模态AI模型

纳思达旗下奔图第1800万台打印机成功下线

阿里给出了AI治理路径

荣耀大王影像发布，AI与影像相结合是未来发展方向

2024工业企业新质生产力十大特征与趋势发布

智元稚晖君宣布开源百万真机数据集

华为多款手机降价促销，最高降幅达2500元

realme UI 识屏问答功能 2025 年 1 月中旬上线

安全设置CPU超频技巧：提升性能与稳定性的指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响