9.11和9.9哪个大？OpenAI刚官宣的GPT-4o mini竟然也翻车了|新榜

作者：新榜发布时间：2024-08-11

OpenAI 编程

果然能革OpenAI命的，只有OpenAI自己。

今天凌晨，OpenAI突然官宣了新模型GPT-4o mini，更小、更快、更强，价格却大跳水！直接取代GPT-3.5 Turbo作为ChatGPT入门级模型。

无论是免费还是付费用户，现在打开ChatGPT，你会发现GPT-3.5已经被GPT-4o mini全面取代。

在性能方面，GPT-4o mini支持128K token上下文窗口，支持与GPT-4o相同范围的语言，在多个关键基准测试中超越GPT-3.5 Turbo，以及同类型竞品Claude 3 Haiku和Gemini 1.5 Flash。

价格也是独一档的存在。GPT-4o mini商用价格为：15美分/每百万输入token，60美分/每百万输出token，比GPT-3.5 Turbo便宜60%以上，比GPT-4o便宜96%-97%。

目前，GPT-4o mini已面向ChatGPT免费、Plus和Team用户开放，企业用户将从下周开始获得访问权限。

OpenAI官方表示，希望通过该模型让更多公司和项目能够以更低成本构建和扩展AI应用。

Sam Altman在X上称，智能技术成本正在变得几乎可以忽略不计。

OpenAI 产品API主管Olivier Godement则表示：“ 要想让世界的每一个角落都能被人工智能赋能，我们就必须让模型的价格更加亲民。我认为GPT-4o mini确实是朝着这个方向迈出的一大步。”

小模型中的战斗机

根据GPT-4o mini在多个关键基准测试中的得分，可以看出，其在文本和多模态推理、逻辑推理、数学和编程等方面均表现出色，优于市场上其他小型模型。

推理任务：在文本智能和推理基准MMLU中，GPT-4o mini的得分为82.0%，而Gemini Flash的得分为77.9%，Claude Haiku的得分为73.8%。在LMSYS排行榜的聊天方面，GPT-4o mini的得分甚至优于GPT-4。

数学和编码能力：在MGSM数学推理测试中，GPT-4o mini的得分为87.0%，而Gemini Flash的得分为75.5%，Claude Haiku的得分为71.7%。在HumanEval编程性能测试中，GPT-4o mini的得分为87.2%，而Gemini Flash的得分为71.5%，Claude Haiku的得分为75.9%。

多模态推理：在MMMU多模态推理评估中，GPT-4o mini的得分为59.4%，而Gemini Flash和Claude Haiku的得分分别为56.1%和50.2%。

目前，GPT-4o-mini在API（应用程序编程接口）中支持文本和视觉，未来将支持文本、图像、视频和音频输入和输出。

我分别让GPT-4o mini模仿刘慈欣《三体》的风格写一篇1500字的科幻故事，来感受一下这强烈的“推背感”：

紧接着，我又问了一个最近难倒一众大模型（包括GPT-4o）的问题：9.11和9.9哪个大？

没想到，数学尖子生GPT-4o mini竟然也翻车了，我换了两种问法都没答对。

月之暗面曾在回应“Kimi认为9.11大于9.9”时称：“我们非常期待用户在使用中能够发现和报告更多的边界案例（Corner Case），不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’，还是之前的‘strawberry有几个r’，这些边界案例的发现，有助于我们增加对大模型能力边界的了解。”

此外，在安全性方面，GPT-4o mini内置了与GPT-4o相同的安全措施。据悉，有70多名社会心理学和错误信息等领域的外部专家对GPT-4o进行了测试，以评估潜在风险，提高GPT-4o和GPT-4o mini的安全性。

性价比独一档

为了抢占市场份额，国内外大模型厂商“价格战”正酣。

但目前来看，GPT-4o mini的性价比堪称独一档的存在：

据Artificial Analysis统计，GPT-4o mini的价格已经达到美国主流AI“小模型”最低，比Claude 3 Haiku和Gemini 1.5 Flash都要便宜一截。

反观国内，近两个月，阿里、字节、腾讯等模型厂商相继推出新模型，并宣布降价甚至免费。

5月9日，阿里发布通义千问2.5，个人用户可从App、官网和小程序免费使用；

5月11日，智谱大模型官宣降价，入门级产品GLM-3 Turbo模型，百万Tokens调用价格从5元降至1元，降幅高达80%；

5月15日，字节发布豆包大模型，比行业平均价格便宜99.3%，推动大模型从“以分计价”，进入“以厘计价”阶段；

5月21日，阿里宣布9款大模型降价，百度宣布文心大模型两大主力模型ERNIE Speed、ERNIE Lite全面免费时代。

5月22日，科大讯飞宣布讯飞星火Lite API永久免费开放，腾讯云公布大模型升级方案，主力模型之一调整为免费。

随着AI技术的快速发展、算法的改进，模型训练和推理效率得到提升，大模型的成本有所降低，为降价提供了可能。

虽然蛋糕很大，但为了在激烈的市场竞争中抢占更多的市场份额，尤其是在大模型性能差异不大、能力对齐较快的情况下，价格战似乎是不可避免的。

通过降价吸引更多用户，通过降低API调用成本吸引更多开发者，可以形成规模效应，从而进一步摊薄训练和推理成本。此外，更多的用户使用数据，也有助于进一步优化和训练模型。

当然了，殊途同归，模型降本增效是一件普惠的事，有利于推动AI技术的普及和应用。但在降价的同时，模型厂商需要不断自我超越，才能确保可持续发展。在这一点上，可以说OpenAI起了个带头示范的作用。

9.11和9.9哪个大？OpenAI刚官宣的GPT-4o mini竟然也翻车了|新榜

推荐体验

相关资讯

9.11和9.9哪个大？AI翻车！好多网友竟也争论不休……

9.11和9.9哪个大？AI大模型集体失智几乎全翻车了

博士生水准无语！9.11和9.9哪个大最新、强AI模型又翻车

来看看OpenAI发布的新模型GPT-4o mini和GPT-4o谁的数学更好？

9.11和9.9哪个大? 大模型的复杂推理能力待提升

近期资讯

广东合生信息科技取得公章锁检测电路专利，本电路通过光电晶体管具有体积小和反应灵敏等特点

三星官网确认Galaxy Ring智能戒指新增14/15号尺寸

厦门极时羽取得一种书册穿线设备专利，提高工作效率

珠海恒茂电子科技取得防止打印机上内盖翻开脱落的结构专利，能够避免出现上内盖脱落的现象

北京城建智控申请门控设备及智能门专利，有利于通过门控设备实现对门的远程控制

鹏码新材料取得具有锁止功能的碳带安装设备专利，可消除放卷座的惯性旋转实现锁止效果

苏州万敦新材料取得高强度基材热升华转印纸专利，避免转印纸收卷时歪斜

杭州宁圆印务取得防水快递面单专利，防止使用部渗水导致字迹模糊

安徽华新印务取得具有眼部防护功能的作业本专利，避免页纸边角翘起

大禹节水：自主研发智慧水利数字解决方案

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响