当前位置：首页|资讯|通义千问

通义千问推出视觉理解模型Qwen2-VL-72B API已上线阿里云

作者：环球网科技发布时间：2024-08-30

【环球网科技综合报道】8月30日，阿里通义千问发布第二代视觉语言模型Qwen2-VL，旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼平台。

2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区最受欢迎的多模态模型之一。短短一年内，模型下载量突破1000万次。目前，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业也格外关注Qwen-VL的升级迭代。

相比上代模型，Qwen2-VL的基础性能全面提升。可以读懂不同分辨率和不同长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；可以理解20分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；能理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力，包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B 在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，在文档理解方面优势尤其明显，仅在综合的大学题目方面与 GPT-4o 存在差距。

推荐体验

相关资讯

通义千问推出视觉理解模型Qwen2-VL-72B，API已上线阿里云

钛媒体App8月30日消息，阿里通义千问发布第二代视觉语言模型Qwen2-VL，旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台。在多个权威测评中，Qwen2-VL部分指标甚至超越了GPT-4o和Claude3.5-Sonnet等闭源模型。

通义千问 Claude3

钛媒体快报 2024-08-30

阿里通义千问发布最强视觉理解模型Qwen2-VL-72B！可理解20分钟以上长视频

快科技8月30日消息，阿里通义千问发布第二代视觉语言模型Qwen2-VL。2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL，成为开源社区最受欢迎的多模态模型之一。目前，多模态模型在手机、车端等各类视觉识别场景的落地正在加速，开发者和应用企业也格外关注Qwen-VL的升级迭代。

快科技 2024-08-30

阿里云开源通义千问多模态视觉模型Qwen-VL

目前已经在 ModeScope 开源。

李旭 2023-08-25

通义千问开源视觉语言模型Qwen2-VL

8月30日，阿里通义千问开源第二代视觉语言模型Qwen2-VL，推出2B、7B两个尺寸及其量化版本模型。2023年8月，通义千问开源第一代视觉语言理解模型Qwen-VL。一年内，模型下载量突破1000万次。

界面新闻 2024-08-30

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

IT之家 2024-09-02

近期资讯

终于有人把 AQS 说清楚了！万字详解

一、AQS 是啥？有啥用？一、AQS 是啥？有啥用？在 Java 并发编程的世界里，AbstractQueuedSynchronizer（简称 AQS）绝对是个 “狠角色”

J2K 2024-12-30

面试官：MySQL InnoDB事务中的ACID特性是如何实现的？

不得不说，现在的面试还是比几年前卷了很多的。以前的面试官大概率只会问，“说下 MySQL InnoDB 事务中的 ACID 特性各是什么”仅此而已了，根本不会涉及到什么底层实现。

托尼学长 2024-12-30

时序数据库InfluxDB

一时序数据库概述时序数据库（Time Series Database, TSD）是一种专门设计用于存储、索引和检索时间序列数据的数据库。时间序列数据是指带有时间戳的数据，通常用于记

我住戈壁我姓王 2024-12-30

离散傅立叶变换学习——从一维到海面渲染（四）

最近在朋友的点拨下，以及通过网上查阅的一些资料来看，实现了一维离散傅里叶变换到二维离散傅里叶变换，以至于到FFT的实现及相应的逆变换。

寒江雪WWT 2024-12-30

MySQL数据库|事务的隔离级别

读未提交（Read Uncommitted）、读已提交（Read Committed）、可重复读（Repeatable Read）和串行化（Serializable）。

张子栋 2024-12-30

权限系统探索-权限模型、策略、ReBAC

最近老板让我实现一个可以统一全部业务的权限系统，说实话，一开始我自信满满。但是不断深入研究后，心里就开始慌了，尤其是带入一个业务系统的实际需求，以及构建一个可拓展的一致且准确的授权系统时，就会发

Sincerelyplz 2024-12-30

Java Map的理解

一、Map 概述在 Java 的集合框架中，Map 是一个极为重要的接口，与 Collection 并列存在。它提供了一种将键（key）映射到值（value）的存储方式，每个键对应唯一的值，以键值对

简单的东西为什么越来越复杂 2024-12-30

使用 httputils + sbe (Simple Binary Encoding) 实现金融级 java rpc

高性能Java库 Agrona 的主要目标是减少性能瓶颈，通过提供线程安全的直接和原子缓冲区、无装箱操作的原始类型列表、开散列映射和集合以及锁-free队列等

掉鱼的猫 2024-12-30

神器！AI免费无限换脸！最新汉化版整合包

大家好，我是立志替大家出手的AI区（最近又看哈利波特）UP主Glen。各位“魔法学徒”们，是时候拿起你们的魔杖，因为FaceFusion这个换脸界的“魔法师”已经更新到了3.1.0版本，带来了一系列

出手吧Glen 2024-12-30

宝塔mysql设置可以远程访问

MySQL中远程访问root用户的配置方法在MySQL数据库管理中，有时我们需要从远程机器上访问数据库，特别是当进行数据库迁移、远程调试或管理时。默认情况下，MySQL的root用户可能只允许从本地

java码农耕地人 2024-12-30

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1