没有任何预告,法国 AI 初创 Mistral AI 昨晚突然发布了旗下首个多模态模型。
该模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB, 基于 Mistral 的文本模型 Nemo 12B 构建。
它能够回答与给定 URL 或 base64 编码图像相关的任意数量、任意大小的图片问题。
在 Mistral 的闭门会议上,官方还透露了关于 Pixtral 12B 的更多细节。
从网上流传的多项基准测试结果来看,Pixtral 12B 的性能几乎全面碾压了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。
但很快, HuggingFace 的技术主管 Philipp Schmid 指出这些数据可能不太对劲。
他在 X 平台发文称,Pixtral 12B 的实际跑分并不如 Qwen 2 7B VL,而且 Qwen 2 7B VL 的参数规模还小了 40%。
网友还发现,比较的图表使用的竟然是 Qwen 7B(不具备多模态能力)而非 Qwen2-VL,似乎再次证明了这个世界是个巨大的草台班子。
Mistral 开发者关系主管 Sophia Yang 表示,Pixtral 12B 很快将在 Mistral 的聊天机器人 Le Chat 和 API 服务平台上提供测试。
在闭门会议上,其实 Mistral AI 还展示了 Pixtral 12B 的多模态能力。
例如,依靠 OCR 能力,Pixtral 12B 可以轻松识别出图片中的所有内容,甚至复杂的数学符号也不在话下,即便面对潦草的手写草稿,它也能拿捏到位。
此外,Pixtral 12B 看图说话的能力也很强,给它一张密密麻麻、标注不同地区的投资分布图,它不仅能摘录关键信息,还能以图表的形式分门别类地罗列并生成图表。
可以看出,它的处理效率甚至远超了大多数打工人。
针对户外的照片,Pixtral 12B 能详细描述照片中的各种动物,甚至会有条不紊地介绍背景中的建筑、树木和蓝天,字里行间也充满条理性。
并且,无论是识别和总结不同国家 GDP 的照片、分析 DNA 结构,还是从手稿中直接生成代码、解决数学难题,亦或是将收据信息提取成 JSON 格式,Pixtral 12B 都游刃有余。
Mistral AI 开发者关系主管 Sophia Yang 强调,Pixtral 12B 的独特之处在于,它能原生支持任意数量和大小的图像。
在基础功能方面,Pixtral 12B 支持 128K 的上下文长度。
HuggingFace 内部员工也分享了更多有关 Pixtral 12B 的技术细节:
先进架构设计:40 层网络、14336 隐藏维度、32 个注意力头
视觉处理能力:专用视觉编码器,支持 1024x1024 图像大小,配备 24 个隐藏层用于高级图像处理
词汇量:131072 tokens,支持更细致语言理解与生成
使用 GeLU (用于视觉适配器) 和 2D RoPE (用于视觉编码器)
Patch 大小:16×16 像素
在 mistral_common 中支持 tokenizer
模型权重:bf16
值得一提的是,英伟达创始人黄仁勋也出席了该会议,并与 Mistral 创始人 Arthur Mensch 进行了交流。
网上流传的交流片段并不完整。具体来说,老黄表示,英伟达将继续优化 GPU 的设计与性能,特别是推理技术。
他指出,推理技术目前面临的挑战很大,英伟达 90% 的工程师都在专注于推理的改进,并希望通过 NVLink 提升低延迟和高吞吐量的推理性能。
老黄还提到,他期望未来能有数百万智能体作为数字员工自动运营公司等等等等。
三个月前,Mistral AI 刚刚完成了一轮由 General Catalyst 领投的 6.45 亿美元 B 轮融资,这也使得该公司估值达到 60 亿美元。
此前,Mistral AI 的运营策略是发布免费开源模型,并通过提供模型托管服务和为企业客户提供咨询来盈利。
不过,在此前被全网下架的视频中,前 Google CEO Eric Schmidt 曾提到:
AI 行业的成本太高,开源负担不起,自己投资的法国大模型 Mistral 将会转为闭源路线了,不是所有公司都愿意且有能力像 Meta 一样
如此一来,AI 开源领域或将损失一员大将。
附上磁力链接:
magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910
HuggingFace 地址:
https://huggingface.co/mistral-community/pixtral-12b-240910