60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场，但被大佬曝出评测造假

作者：新智元发布时间：2024-09-12

法国AI初创Mistral AI，又扔出一条磁力链炸场了。

这次，与以往不同的是，他们发布了首个多模态模型Pixtral 12B，集语言、视觉能力于一身。

这意味着，Mistral AI正式跨界MMML，开启多模态AI新时代，同时向OpenAI、Anthropic等劲敌发起挑战。

多模态Pixtral 12B，是基于文本模型Nemo 12B完成训练。

与GPT-4o、Claude类似，只需上传一张图、提供一个链接，模型就能根据提示回答问题。

它不仅能够识别复杂手写笔记，还能看懂数学公式、图表等等。

在多项基准测试（文本、指令跟随、多模态）中，新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。

Hugging Face技术负责人发现此处列举的Qwen的数据问题很大

相较于闭源模型，Pixtral 12B在图表问答、文档问答、视觉数学推理、大学水平多学科等基准中，性能碾压Claude3 Haiku、Gemini 1.5 8B。

除了大约24GB的磁力链，模型代码还可在HuggingFace、GitHub下载。（由社区开发者上传）

地址：https://huggingface.co/mistral-community/pixtral-12b-240910

值得一提的是，Mistral AI现场还请来了老黄坐镇。

手绘稿直出代码，现场Demo惊艳

Mistral AI在旧金山举办的首届AI峰会上，初次展示了Pixtral 12B的多模态能力。

现场，足以用震撼形容。

让它将一份科学报告转录为Markdown格式，可以看到图片中，包含了许多复杂的数学符号，还有公式。

Pixtral 12B通过OCR能力，精准地识别出所有的内容。

再来一个更复杂的手写稿，别说AI了，小编也有些看不清写的什么字。

没想到，这也难不倒它。

给它扔一张关于美国「风险投资交易密度分布」的图表，并将其总结成一份表。

模型以不同州/城市，以及交易数量、区位商（LQ），列出了非常清晰的表格。

再来看看，它如何去描述一张图像的。

上传一张风景图，然后询问「我们可以从中看到什么」？

Pixtral 12B先从各种动物近景描述，再延伸到背后建筑、基础设施，以及大树、天空云彩等。

整个讲述的过程，非常有逻辑。

在复杂图表方面，Pixtral 12B理解力也是一绝。

上传一张全球不同国家GDP图片，让它给出欧洲中GDP最高的5个国家。

模型根据绿色欧洲区域，总结给出了相应的答案。

不仅如此，它还可以解释科学报告中，图表中DNA结构的具体含义。

想要搭建一个网页，手绘一张草稿，传给模型。

它能看着图直出代码，一个网页HTML的设计分分钟就搞定了。

又或是，当你遇到一道数学推理难题，拍好照片上传给Pixtral 12B，便会得到解题步骤和答案。

外出餐饮小票，它也可以将其中信息提取成JSON格式。

这样一通看下来，一个120亿参数的小模型，竟具备了如此强大的图像识别、文本理解能力。

那么，它是如何训练而来？背后架构是什么？

模型架构

现场的介绍中，Pixtral 12B的架构如下图所示。

它包含了一个多模态Transformer解码器，还有视觉Transformer编码器，能够理解原生的图像和文档。

正如开头所述，新模型是基于Nemo 12B完成搭建，关于训练数据目前仍在保密中。

开发者关系主管Sophia Yang表示，「Pixtral 12B独特之处在于，能够原生支持任意数量、大小的图像」。

它能够快速处理小图像，还可以精准处理真实世界和高分辨率的图像。而且，扔出一个图文混杂的大型文档，也能信手拈来。

Pixtral 12B的上下文长度为128k。

根据初始测试者的分享，这个24GB模型架构共有40层，14336个隐藏维度，32个注意力头，用于广泛的计算处理。

在视觉方面，它还有一个专用的视觉编码器，可支持1024×1024图像分辨率，以及24个隐藏层用于高级图像处理。

然而，当Mistral最终通过API提供该模型时，可能会有所改变。

就性能来说，Pixtral 12B在多模态知识和推理基准（MMMU、MathVista）、多模态问答基准（ChatQA、DocVQA、VQAv2）上，完全碾压当前领先的同等参数的模型。

比如，Qwen2-VL、LLaVA-OV、Phi-3 Vision等。

而在指令跟随（多模态、文本）、文本理解（科学、数学、代码）基准上，Pixtral 12B表现也非常出色。

或许多模态模型对于我们来说，屡见不鲜，但Pixtral 12B对于Mistral来说是开创历史。

自去年成立以来，Mistral凭借开源媲美OpenAI等领先实验室大模型，一路走红得到AI社区的认可。

几个月前，它以60亿美金估值，完成6.4亿美元新一轮融资，并随之推出了一款GPT-4级别的模型——Mistral Large 2。

此外，他们在今年，还推出了一个专家混合模型Mixtral 8x22B，包含了一个编码模型Codestral，以及一个数学推理和科学发现的模型。

Mistral或许有实力，成为下一个OpenAI。

穿上皮夹克，和老黄炉边谈话

更让人惊喜的是，大会现场，还上演了经典「皮夹克帮」集结的一幕。

创始人Arthur Mensch穿上皮夹克和老黄坐在台前，开启了炉边谈话，一起探讨了未来AI和算力问题。

老黄表示，在英伟达，GPU的设计、性能、耗能等方面问题，仍将持续优化。

他们希望利用AI先去探索巨大设计空间的可能性，然后再进行收缩，最终专注于有前景的解决方案。

老黄还认为：推理在今天是一次性的，但在未来不会是这样。为了实现这一点，还需把推理速度提高到一个数量级。

因为，利用GPU做推理面临着显著的困难，英伟达90%的工程师都投在了推理，而非训练中。

当然，英伟达对推理技术架构的探索，仍在继续。老黄希望NVLink能够实现低延迟高吞吐量的推理设计。

对于AI未来的探索，老黄表示自己最喜欢的AI应用，便是创建数字人。

他希望，未来公司会有数百万个智能体数字员工，可以自主相互交流，运营业务。

此外，他还讨论了英伟达在「类人机器人」领域的大量工作。

而它的发展，受到了老黄所言的「3台计算机问题」的瓶颈制约——

第一台用于训练多模态模型，第二台用于精确物理模拟和生成合成数据（NVIDIA Omniverse），第三台是机器人体内的计算机（即将推出的NVIDIA Thor）。

最后，老黄还回顾了英伟达历史，「在1993年成立之时，我们在GPU领域还没有竞争对手，到1994年有10个，1995年有50个，然后有100个，竞争对手迅速增加」。

在竞争这么激烈领域中，英伟达能够有所成，一定程度上，可以归咎于你所做的事情与做这些事情的原因不同。

英伟达是PC游戏行业的最大推动者，他们通过创建计算平台、生态系统来创造一个新市场，使之成为「家庭的一部分」。

他们最先在游戏领域做到了这一点，然后是科学计算，现在是AI。

大佬发现「华点」：又来一个评测造假的？

前两天，所谓的「开源新王」Reflection 70B才刚刚深陷Benchmark造假争议。

如今，相似的剧情再次上演。

随着峰会现场的照片大范围流出，Hugging Face技术负责人Philipp Schmid也在第一时间发现，Mistral AI放出的跑分和Qwen 2 VL 7B的官方数据大相径庭。

把数据补全到柱状图中后可以看道，Pixtral 12B在多项评测中的成绩都明显不如Qwen 2 VL 7B。

也就是说，Mistral AI的首个多模态模型，被一个参数量小了近42%的模型，吊打了！

此外，还有网友指出，别说数据有问题，他们连模型的名字好像都没写对……

参考资料：

https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/

https://x.com/_philschmid/status/1833954941624615151

https://x.com/swyx/status/1833926630861070359

本文来自微信公众号“新智元”，作者：新智元，编辑：桃子好困，36氪经授权发布。

近期资讯

魏建军称赞小米是教科书式榜样，长城在向他们学习

同时，在发布会正式开始之前，雷军赠送一台小米SU7给魏建军，魏建军也礼尚往来，让雷军成为坦克700Hi4-T车主。不得不说，他们的关系真好，彼此互相尊重、互相学习、共同进步，堪称车圈大佬互动的典范。

砍柴网 2024-09-16

机器也能望闻问切！新科技“闪耀”服贸会

AI骨科手术机器人、AI燃气安全阀、AI智能陪练……走进2024年中国国际服务贸易交易会（以下简称“2024年服贸会”）的各个展馆，智能科技催生的新产品、新应用随处可见，尤其是形形色色的机器人被广泛地应用在远程医疗手术、智能电力巡检、养老助浴、高速公路收费口自助缴费等多个服务领域。

北京日报 2024-09-16

vivo竞逐AI时代，‌沈炜还能向谁取经？

有用户表示，其在询问vivo智能手表“我无聊怎么办”时，手表竟然智能回答道：“玩玩自杀，或自残偶尔玩一下也停（挺）有趣的。”消息一经曝光，vivo方面就迅速回应称，上述回复内容是来自公开互联网的错误信息，目前技术团队已经修复并升级，不会再次出现这一问题，后续他们也将加强审核优化体验。

蓝鲸新闻 2024-09-16

地球到火星2亿公里，若宇航员想要登陆火星，需要多长时间到达？

地球与火星之间的距离遥远,光是这一点就给人类登陆火星带来了巨大挑战。地球到火星的距离平均约为2亿公里,这比地球到月球的距离大约38.5倍。对于人类而言,这无疑是一次前所未有的探索之旅。要实现人类登陆火星,首先必须克服重重困难。首先是漫长的航行时间。根据最佳轨道,即地球和火星最近时的轨道,从地球出发到抵达火星约需要7个月的时间。

新鲜旅行事呀 2024-09-16

2024年服贸会“智慧城市建设保障高质量发展”国际科技创新论坛在京举办

人民网北京9月16电(李世奇)9月13日，由北京市科学技术研究院主办的“智慧城市建设保障高质量发展”国际科技创新论坛在2024中国国际服务贸易交易会期间召开。

金台资讯 2024-09-16

存档丢失问题已修复宇宙机器人更新修复游戏崩溃等大Bug

最近，《宇宙机器人》游戏发布后，不少玩家反应存档丢失的问题。据玩家反馈，之前《宇宙机器人》的自动存档功能无法正常工作，即在退出到主菜单之前不会生成任何存档文件。这意味着如果玩家遇到游戏崩溃的情况，他们的存档数据就会丢失。幸运的是，Asobi团队收到了这些反馈，并在最新的1.003.000版本更新中解决了这个问题。

中关村在线 2024-09-16

重庆璧山：一座人才“港湾”，孵化众多企业

近年来，宇飞特公司攻克智能移动机器人关键技术，静态视觉识别精度达到微米级别，可解决机器人在不同场景的适配难点，成立不到3年即已取得意向订单约3000万元。深耕机器视觉领域的韩震宇，经人引荐后，与重庆高新技术人才创新创业服务港联合创建重庆宇飞特科技有限公司，专注于机器视觉技术在工业设备领域的研发与应用。

封面新闻 2024-09-16

“贝碧嘉”成75年来登陆上海最强台风，该市发往浙江、江苏方向的省际客运班线已停运127班

据央视新闻报道，今年第13号台风“贝碧嘉”（强台风级）的中心已于9月16日7点30分前后在上海浦东临港新城登陆，登陆时中心附近最大风力14级（42米/秒），中心最低气压为955百帕。报道称，“贝碧嘉”11日生成以后发展比较缓慢，一直到14日还维持在强热带风暴级别。在登陆前，“贝碧嘉”进一步加强为强台风级，以接近巅峰的强度登陆上海。

极目新闻 2024-09-16

飞米推出FIMI Mini 3 SE无人机：仅245克、29分钟续航

快科技9月16日消息，飞米推出了一款FIMIMini3SE无人机，仅245克，售价为199美元（约合1413元人民币）。据介绍，这款精心打造的无人机，搭载了先进的混合三轴云台系统，融合了第四代FIMILOS精确稳定算法，即使在高速飞行或遭遇强风挑战时，也能确保拍摄画面的超乎寻常的稳定性，为用户捕捉每一个精彩瞬间提供坚实保障。

快科技 2024-09-16

追觅 T40 Ultra 无线洗地机上架：20000Pa 吸力，3299 元

IT之家9月16日消息，追觅今天在京东上架一款T40Ultra无线洗地机，这款洗地机主打“20000Pa吸力、0缠毛”，将于10月10日晚上8点开售，首发价3299元。据介绍，这款洗地机采用“灵捕”机械臂，可实现主动三侧0贴边，墙角覆盖率100%。配备100度“火山湖”浸泡洗技术及0缠毛技术，可实现5分钟恒温烘干。

IT之家 2024-09-16

60亿AI独角兽Mistral祭出磁力链，首个多模态Pixtral 12B登场，但被大佬曝出评测造假

手绘稿直出代码，现场Demo惊艳

模型架构

穿上皮夹克，和老黄炉边谈话

大佬发现「华点」：又来一个评测造假的？

推荐体验

相关资讯

一家300亿独角兽“被肢解”

2024WAIC：大厂To B，独角兽To C

Mistral联合英伟达开源12B小模型：碾压Llama 3，单张4090可跑

前微软AI大牛，打造最神秘AI独角兽，阶跃星辰被曝新融资

李开复创办的「零一万物」跻身独角兽，Yi-34B获开源评测双冠军

近期资讯

魏建军称赞小米是教科书式榜样，长城在向他们学习

机器也能望闻问切！新科技“闪耀”服贸会

vivo竞逐AI时代，‌沈炜还能向谁取经？

地球到火星2亿公里，若宇航员想要登陆火星，需要多长时间到达？

2024年服贸会“智慧城市建设保障高质量发展”国际科技创新论坛在京举办

存档丢失问题已修复宇宙机器人更新修复游戏崩溃等大Bug

重庆璧山：一座人才“港湾”，孵化众多企业

“贝碧嘉”成75年来登陆上海最强台风，该市发往浙江、江苏方向的省际客运班线已停运127班

飞米推出FIMI Mini 3 SE无人机：仅245克、29分钟续航

追觅 T40 Ultra 无线洗地机上架：20000Pa 吸力，3299 元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响