阿里通义千问发布Qwen2-VL：革新图像处理，任意分辨率无缝支持

作者：Jm传媒发布时间：2024-09-01

今日，通义千问团队宣布推出了其最新的多模态模型——Qwen2-VL，这是继Qwen-VL之后的一次重要升级。新版本的关键改进之一在于实现了动态分辨率支持，这意味着Qwen2-VL能够处理任意尺寸和清晰度的图片，不再需要将图像切割成固定大小的块来处理。这一突破让模型能够更自然地处理图像信息，接近人类视觉系统的工作方式，提高了模型输入数据与图像本身信息的一致性和准确性。

此外，Qwen2-VL引入了Multimodal Rotary Position Embedding（M-ROPE）技术。这项技术将原有的旋转嵌入分解为表示时间、空间（高度和宽度）信息的三个组成部分，使得大型语言模型不仅能够处理一维文本信息，还能有效地整合二维图像和三维视频的位置数据。这使得Qwen2-VL具备了强大的多模态处理能力，可以在不同类型的媒体间进行高效的融合与推理。

值得注意的是，Qwen2-VL系列中有两个主要版本：Qwen2-VL-7B和Qwen2-VL-2B。前者在保持较小模型规模的同时，依然支持图像、多图以及视频输入，提供了高性价比的性能表现。后者则专门针对移动设备进行了优化，尽管参数量较小，但在图像、视频以及多语言理解等方面依旧表现出色。

此次更新标志着通义千问团队在多模态处理领域取得了显著进展，为未来的人工智能应用提供了更为灵活和高效的技术基础。

阿里通义千问发布Qwen2-VL：革新图像处理，任意分辨率无缝支持

推荐体验

相关资讯

通义千问开源视觉语言模型Qwen2-VL

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

通义千问开源视觉语言模型 Qwen2-VL，可理解 20 分钟以上视频

阿里云开源通义千问多模态视觉模型Qwen-VL

通义千问推出视觉理解模型Qwen2-VL-72B，API已上线阿里云

近期资讯

江西东弘药业取得制备膏状药剂浓缩提取设备专利，可对罐体内壁的药剂进行脱料处理

康士微取得用于贴片机下料机构专利，可降低大量能源效果减少生产经济负担

淄博诺奥取得气相加氢用喷射式液体蒸发装置专利，能够提高液体物料蒸发效率

常州市润嘉农业科技有限公司取得具有调节效果的电子组装平台专利，可自动输送电子件

福建华佳彩取得预防Frit熔接时金属导线烧伤的OLED膜层结构专利，保护TFT器件金属导线在Frit熔接不被激光烧伤

河南德宜瑞取得防止结垢的蒸发器专利，保障装置的蒸发效率

正泰新能取得一种钙钛矿电池结构及钙钛矿晶硅矿叠层电池专利，能够缓解界面应力

江苏鑫迈维取得用于贴片机的上料机构专利，实现持续加工的效果

宝丰能源集团焦化二厂取得氨水蒸发器蒸汽回水冷却装置专利，能够减缓蒸汽流通速度

合肥大铭智能科技取得一种自动贴片装置专利，减少原材料消耗和环境污染

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响