图片来源@视觉中国
文|乌鸦智能说
昨晚,被称为“法国版 OpenAI”的Mistral AI,发布了其最新的顶级文本生成模型 Mistral Large。相比此前的模型,这次 Mistral AI 发布的版本性能更强,甚至直接对标OpenAI 的 GPT-4。
在发布最新模型的同时,Mistral Large还宣布,与微软达成深度合作。据外媒报道,微软收购了少数 Mistral AI 的股权。
这意味着,Mistral AI成为继OpenAI后,微软投资的第二家大模型公司,而Mistral AI 也将获得 OpenAI 同等待遇,直接将模型资源放在微软云当中售卖。
不过令人诧异的是,以开源公司出道的 Mistral AI ,此次并没有将这款新旗舰模型开源。这也引发了外界对其模型路线改变的诸多猜想。
Mistral AI发布最新大模型,对标GPT-4
Mistral Large 是 Mistral AI 的最新旗舰版,特点是具备顶级的的推理能力,可用于处理复杂的多语言推理任务,涵盖文本理解、转换和代码生成等。
从官方披露的信息看,Mistral Large 在多项基准测试中表现优异,并取得了81.2%的好成绩,仅次于 GPT-4,并将Claude 2、Gemini Pro、GPT-3.5、Llama 2-70B等其他主流模型甩在身后。与此同时,Mistral Large还 具有以下特点:
32K 的上下文窗口,精准提取大型文档信息。
在英语、法语、西班牙语、德语和意大利语方面具有天然的流利度,对语法和文化背景有细腻的理解。
精确的指令跟随能力,便于开发者定制审核策略。
支持函数调用和输出模式限制,助力应用开发规模化和技术栈现代化。
在 MMLU、Hellas、WinoG 等多项常识和推理的基准测试中,Mistral Large 紧随 GPT-4 之后,远超其他模型。
多语言能力方面,Mistral Large在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和MMLU 基准测试中,表现大幅优于 LLaMA 2 70B。
在编码和数学任务中,Mistral Large 同样表现出色。多项基准测试依然是遥遥领先。
从定价上看,Mistral Large的定价略低于GPT-4 ,其在 Azure AI 上的定价如下:
输出为 0.024 美元 / 1000 token,输入为 0.008 美元 / 1000 token。相比之下,128K 上下文窗口的 GPT-4 Turbo 定价为:输出为 0.03 美元/1000 token,输入 0.01 美元/ 1000 token。
值得一提的是,在发布Mistral Large的同时,Mistral AI还发布了针对延迟和成本优化的新模型Mistral Small,性能超越 Mixtral 8x7B,但延迟更低。Mistral AI 认为,Mistral Small 将成为介于开源模型和旗舰模型之间的理想选择。
目前,Mistral Large 已经可以在 La Plateforme 和 Azure 平台上使用,并集成到了 Le Chat 中。Le Chat是一个类似 ChatGPT 的 AI 聊天机器人,支持多语言交流。用户可以在 Mistral Small、Mistral Large 以及 Mistral Next 三种不同的模型之间进行选择。但目前Le Chat 仍然不支持实时联网功能。
微软拿下“法国版 OpenAI”
在Mistral Large发布的同时,还有一则重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下,成为第二家在微软 Azure 云计算平台上提供商业语言模型的公司。
与OpenAI类似,Mistral也颇具传奇色彩。Mistral AI 公司成立于 2023 年 5 月,总部位于法国巴黎,是大模型领域为数不多的欧洲选手。
Mistral AI 在 2023 年 9 月推出开源的 7B 模型,一度引爆了整个开源社区。原因在于,Mixtral 8x7B虽然只有 46.7B 的参数规模, 但在众多基准测试中的表现却能与 Llama 2 70B 和 GPT-3.5 媲美,甚至在某些测试中还略胜一筹。这也让Mistral AI 成为开源、小模型领域的“尖子生”。
Mistral AI的团队构成很简单,以年轻科学家为主,目前人数大概有数十人,其中管理层总共四人:
CEO Arthur Mensch 来自 Deepmind,参与了 Deepmind 的多个经典的模型:Flamingo、Chinchilla、Gopher。CTO 和 首席科学家分别是 Llama & Llama2 的核心工程、研究角色。Chief Business Officer Florian 则由创始顾问,Alan 的 CEO 推荐加入。
算上这次融资,Mistral 已完成了三轮公开融资,总额超过6亿美元,估值已经超过20亿美元。
2023 年 6 月,公司完成 1.05 亿欧元(约合 1.13 亿美元)的种子轮融资,由 Lightspeed Venture Partners(光速创投)领投,投后估值 2.4 亿欧元;
2023 年 12 月,Mistral 完成由 Andreessen Horowitz(a16z)领投,英伟达、Salesforce、法国巴黎银行、美国风投机构 General Catalyst 等投资的 3.85 亿欧元(约合 4.15 亿美元)融资。
微软对外证实了此次对Mistral AI 的投资,但表示不持有该公司的股权。此前,这家科技巨头因向 OpenAI 提供巨额资金而受到欧洲和美国监管机构的审查。根据公告,微软与 Mistral AI 的合作主要集中在三个核心领域:
超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;
市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。
人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。
随着与微软合作的达成,不仅将有助于 Mistral AI 将自己的模型推向市场,也让其有机会使用 Azure 的尖端 AI 基础设施,以加速其下一代大型语言模型的开发和部署。
从开源到闭源?
自成立以来,Mistral AI一直走的是开源路线,也曾在各种采访中反复强调开源的重要性。
在Mistral AI CEO Arthur Mensch此前的采访中明确表示,和闭源模型相比,开源的确更符合考虑到企业私有化使用模型的需求,并且开源模型能力也会逐步升级从而满足更多需求。Arthur 在访谈中还提到,开源也能够让模型受到公众监督、更加安全。
而Mistral AI在2023年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。对于Mensch和他的合伙人来说,将他们的初始AI系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。
但有趣的是,这次以开源公司出道的 Mistral AI ,并没有将这款新旗舰模型开源。不仅如此,有细心的网友发现,新模型发布后,Mistral AI 官网还悄悄把所有有关开源社区义务的内容全部删了。
考虑到微软投的另一家大模型OpenAI 就经历了从开源到闭源的转移,不禁让人遐想,同样接受了微软投资的Mistral AI,会不会走OpenAI的老路?
对此,Mistral CEO Mensch在接受《华尔街日报》采访时回应称,Mistral AI 并未违背开源的初衷,而是采用同时推进商业化战略和维持开源承诺的双重策略。
“显然,在构建商业模式和保持我们的开源价值观之间,我们需要找到一个细小的平衡点。我们希望发明新事物和新的架构,同时也希望向我们的客户提供更多可销售的产品。”
进入闭源模型,意味着Mistral AI将面临更多的竞争,尤其是来自OpenAI的挑战。在Scaling Law的推动下,OpenAI在闭源模型上的优势越来越大,就连谷歌也毫无招架之力。而这显然是接下来Mistral AI需要面对的事情。