Mistral AI推出首款多模态模型Pixtral 12B，正式进军图像处理领域

作者：DeepTech深科技发布时间：2024-09-12

在当前 AI 领域竞争日益激烈的背景下，法国 AI 初创公司 Mistral AI 正渐渐展露头角。

日前，这家成立不到两年的公司推出了它的第一款多模态 AI 模型 Pixtral 12B，正式进军图像处理领域，向业界巨头 OpenAI 和 Anthropic 发起挑战。

在欧盟的大力支持下，这一举措在展示 Mistral AI 在技术创新方面雄心的同时，也反映出 AI 行业向多模态发展的大趋势。

值得一提的是，Mistral AI 的联合创始人兼 CEO 亚瑟·门施（Arthur Mensch）还入选了 2024 年《麻省理工科技评论》“35 岁以下科技创新 35 人”全球名单。

在他的带领下，这家只有 65 人的年轻公司正在挑战资源和资金都更雄厚的科技巨头。

Pixtral 12B 是 Mistral AI 首次尝试将视觉处理能力与自然语言处理相结合的产品。这款模型基于该公司此前发布的文本模型 Nemo 12B，通过增加一个 4 亿参数的视觉适配器，实现了对图像和文本的双重处理能力。

Pixtral 12B 共拥有约 120 亿个参数，分布在 40 个层中，具有 14336 个隐藏维度和 32 个注意力头，为复杂的计算处理提供了强大支持。

在视觉处理方面，Pixtral 12B 具有专门的视觉编码器，其支持 1024×1024 像素分辨率的图像处理，并拥有 24 个隐藏层。

该模型采用 16×16 像素的图像块处理方式，这种灵活的设计使其能够有效处理高分辨率图像。此外，Pixtral 12B 还引入了 2D 旋转位置嵌入（RoPE，Rotary Position Embedding）技术，提升了模型理解图像空间关系的能力。

在实际应用中，用户可以通过统一资源定位系统（URL，uniform resource locator）或编码的方式输入图像，结合文本提示来分析图像内容。

这意味着 Pixtral 12B 能够执行诸如图像分类、物体计数、图像描述生成等多样化的任务。为了支持图像处理功能，模型还新增了“img”“img_break”和“img_end”三个特殊 token。

Mistral AI 选择了一种非常规的方式，来发布 Pixtral 12B。

该公司首先通过种子链接发布了模型文件的下载途径，文件大小约 24GB。随后，在 GitHub 和人工智能分发平台 Hugging Face 上公开了源代码。

尽管目前该模型尚未在网络上提供直接访问权限，但开发者可以通过下载源代码在个人环境中进行测试和使用。

Mistral AI 的开发者关系负责人索菲亚·杨（Sophia Yang）在社交媒体上表示，公司将很快通过其网络聊天机器人提供 Pixtral 12B 的使用接口，让潜在的开发者能够体验这一新模型。

此外，Pixtral 12B 还将在 Mistral 的 Le Platforme 平台上提供应用程序编程接口（API，Application Programming Interface）端口，方便开发者在自己的应用中集成这一技术。

值得注意的是，Mistral AI 尚未明确 Pixtral 12B 的授权条款。该公司此前发布的部分模型采用了 Apache 2.0 开源许可，但 Pixtral 12B 是否也采用相同许可尚未可知。

业界普遍推测，该模型可能会对研究和学术用途免费开放，而商业应用则需要付费许可。

Pixtral 12B 的一个显著特点是其灵活的图像处理能力。据索菲亚介绍，该模型原生支持处理任意数量和大小的图像。

这种灵活性使得 Pixtral 12B 在各种复杂场景中都能发挥作用，从简单的图像描述任务到复杂的视觉问答系统都能胜任。

在技术细节方面，Pixtral 12B 的文本量扩展到了 131072 个 token，为模型提供了更广泛的语言理解和生成能力。

结合其强大的视觉处理功能，Pixtral 12B 有望在诸如内容分析、数据可视化、图像检索等领域发挥重要作用。

尽管 Mistral AI 尚未公开 Pixtral 12B 的训练数据集和详细性能指标，但业界普遍认为，这款模型将为视觉应用的开发和数据分析带来新的可能性。

随着越来越多的开发者开始下载和测试 Pixtral 12B，有望在不久的将来看到更多关于其实际性能和应用潜力的具体信息。

Pixtral 12B 的发布标志着 Mistral AI 正式进入多模态 AI 领域，这一举措体现了该公司在 AI 技术竞争中的雄心。

自公司成立以来，Mistral AI 不仅建立了强大的模型研发管线，还与微软和亚马逊等行业巨头建立了合作关系，以扩大其技术的影响力。

在资金支持方面，Mistral AI 也取得了显著成果。该公司最近以 60 亿美元的估值筹集了 6.4 亿美元融资，这为其持续的技术创新和市场扩张提供了强有力的支持。

紧随融资之后，Mistral AI 推出了 Mistral Large 2，这是一个具有先进多语言能力的、可媲美 GPT-4 的模型，在推理、代码生成和数学计算等方面都具有出色的表现。

除了 Pixtral 12B 和 Mistral Large 2，Mistral AI 还发布了其他几款专业模型，包括混合专家模型 Mixtral 8x22B、220 亿参数的开放权重编码模型 Codestral，以及专门用于数学推理和科学发现的模型。

这一系列模型的推出，展示了 Mistral AI 在不同 AI 应用领域的全面布局。

然而，Mistral AI 面临的挑战同样不容忽视。在多模态 AI 领域，OpenAI、Anthropic 和谷歌等公司已经推出了成熟的产品，如 GPT-4、Claude 和 Gemini 系列模型。

这些模型不仅已经在市场上获得了广泛应用，还在性能和功能上不断迭代升级。

虽然被视为是欧洲生成式 AI 领域的领军企业，但 Mistral AI 能否在这个竞争激烈的领域中保持竞争力，进而实现规模化和商业化，还需要时间来证明。

参考资料：

https://www.maginative.com/article/mistral-ai-unveils-pixtral-12b-a-multimodal-ai-model-for-text-and-image-processing/

https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

https://mashable.com/article/mistral-releases-pixtral-12b-image-text-multimodal-ai

运营/排版：何晨龙

Mistral AI推出首款多模态模型Pixtral 12B，正式进军图像处理领域

推荐体验

相关资讯

欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载

Mistral联合英伟达开源12B小模型：碾压Llama 3，单张4090可跑

英伟达Mistral炼出新模型：12B小杯、128k上下文，性能超过Llama 3 8B

OpenAI正式推出多模态模型GPT-4

李未可科技正式推出WAKE-AI多模态AI大模型

近期资讯

中文拼写检测纠正 Read, Listen, and See Leveraging Multimodal Information 论文

19 个CSS小技巧

美团后端暑期一面，本来收到感谢信，但又复活了！

Python 抽象基类 ABC ：从实践到优雅

ElasticSearch 是如何建立索引的？

网页多模态建模思考

2024年，35岁大学班主任工作分享

如何有效检测与解决 Kafka 中的消息积压问题？

Linux 比grep更快的ack命令详解

自动装配原理详解：Spring Boot 是如何让开发更高效的？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响