通义千问推出视觉理解模型Qwen2-VL-72B API已上线阿里云

作者：环球网科技发布时间：2024-08-30

【环球网科技综合报道】8月30日，阿里通义千问发布第二代视觉语言模型Qwen2-VL，旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼平台。

2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区最受欢迎的多模态模型之一。短短一年内，模型下载量突破1000万次。目前，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业也格外关注Qwen-VL的升级迭代。

相比上代模型，Qwen2-VL的基础性能全面提升。可以读懂不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；可以理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；能理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B 在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，在文档理解方面优势尤其明显，仅在综合的大学题目方面与 GPT-4o 存在差距。

通义千问推出视觉理解模型Qwen2-VL-72B API已上线阿里云

推荐体验

相关资讯

通义千问推出视觉理解模型Qwen2-VL-72B，API已上线阿里云

阿里通义千问发布最强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

阿里云开源通义千问多模态视觉模型Qwen-VL

通义千问开源视觉语言模型Qwen2-VL

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

近期资讯

华为nova 13系列：年底出行利器通信可靠拍照出色

泰凌微：产品已被谷歌PixelBudPro2智能耳机方案采用

华为，突然降价！

柯力传感：公司向人形、协作、工业机器人客户供应力矩、六维力传感器

腾讯研究院AI速递 20241231

全国首家全高帧LED影院——华夏电影中心落户北辰荟商业中心

MAXHUB领效：更懂会议的AI，释放企业新质生产力

产品经理胡馨心开箱REDMI Turbo 4：一眼心动

性价比iPhone也要涨价！苹果iPhone SE 4售价曝光：定价超3600元

MLED技术开启显示行业新纪元，消费新场景即将展开

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响