今日,通义千问团队宣布推出了其最新的多模态模型——Qwen2-VL,这是继Qwen-VL之后的一次重要升级。新版本的关键改进之一在于实现了动态分辨率支持,这意味着Qwen2-VL能够处理任意尺寸和清晰度的图片,不再需要将图像切割成固定大小的块来处理。这一突破让模型能够更自然地处理图像信息,接近人类视觉系统的工作方式,提高了模型输入数据与图像本身信息的一致性和准确性。
此外,Qwen2-VL引入了Multimodal Rotary Position Embedding(M-ROPE)技术。这项技术将原有的旋转嵌入分解为表示时间、空间(高度和宽度)信息的三个组成部分,使得大型语言模型不仅能够处理一维文本信息,还能有效地整合二维图像和三维视频的位置数据。这使得Qwen2-VL具备了强大的多模态处理能力,可以在不同类型的媒体间进行高效的融合与推理。
值得注意的是,Qwen2-VL系列中有两个主要版本:Qwen2-VL-7B和Qwen2-VL-2B。前者在保持较小模型规模的同时,依然支持图像、多图以及视频输入,提供了高性价比的性能表现。后者则专门针对移动设备进行了优化,尽管参数量较小,但在图像、视频以及多语言理解等方面依旧表现出色。
此次更新标志着通义千问团队在多模态处理领域取得了显著进展,为未来的人工智能应用提供了更为灵活和高效的技术基础。