当前位置:首页|资讯|OpenAI|汽车|GPT-4

GPT-4o mini实力霸榜:文本、数学和多模态推理吊打友商,两个月内微调不花钱

作者:搜狐科技发布时间:2024-07-26

图源:OpenAI

出品 | 搜狐科技

作者 | 王一鸣

想象一下,GPT-3.5是一辆汽车,它速度很快,但消耗化石燃料,能源消耗非常高。GPT-4.0是一辆电动跑车,它不仅速度更快,而且能源利用率更高。这时候市场上突然出现了一辆紧凑型电车,它的速度虽然不如电动跑车但绝对比GPT-3.5汽车快,体积更小,运载量有限但是非常灵活。没错,这就是OpenAI发布的GPT-4o mini。

价格和性能表现全部拉满

目前GPT-4o mini已经拿下了GPT-3.5的接力棒。

GPT-4o mini是一种小型AI模型,但具有强大的成本效益,它的聊天能力甚至超过了GPT-4,大规模多任务语言理解(MMLU)得分82%。

像ChatGPT这样的聊天窗口是一个交流平台,在这个平台上我们可以与LLM(大语言模型)进行沟通,比如GPT-3.5和GPT-4。这些模型经过训练,可以听懂我们说的话,理解人类的思想,与此同时生成人类听得懂的语言和内容。

通常来说,一个大语言模型可以有10亿个甚至是更多参数,这是一个指标,用来判断和衡量它在对提示做出响应之前可以处理多少内容。这意味着LLM能够消化吸收很多知识。

这些承载模型的硬件在我们看不到的地方正在消耗巨量能源,因为它们需要不断地扩展服务器规模和跨网访问。

而小语言模型(SLM)是一个折中方案。它提供AI运算能力和速度,但不需要LLM那样庞大的硬件和成本。比如微软的Phi-3 Mini,它可以在手机和电脑上运行。还有谷歌的Gemini 1.5 Flash,它可以完全能胜任大量且频率高的任务,比如说可以从视频和音频里面导出文稿。现在我们也有 GPT-4o Mini。

根据OpenAI官网显示的各模型输入输出token报价:

GPT-4o:

*每百万输入tokens:5美元(约36.4元人民币)

*每百万输出tokens:15美元(约109.12元人民币)

GPT-4o mini:

*每百万输入tokens:0.15美元(约1.09元人民币)

*每百万输出tokens:0.6美元(约4.36元人民币)

也就是说GPT-4o mini的每百万输入和每百万输出tokens的费用分别是GPT-4o的3%和4%。

ChatGPT可选模型中,GPT-3.5已经消失,GPT-4o mini完全成为了免费用户的选择。

GPT-4o mini不仅成本低,它支持的任务场景也多种多样:

1.调用多个模型进行链式或并行计算

2.处理大量上下文本信息(比如完整的代码库或对话记录)

3.快速且实时的文本响应(比如客服)

就在Meta发布开源模型Llama 3.1的同一天,GPT-4o mini微调也开放了。

7月23日-9月23日,开发者们每天都可以免费使用200万训练tokens。

“回想2022年,最好的模型还是Text-Davinci-003(GPT-3)。效果要比这新模型差太多了,花费还是它的100倍。”OpenAI的CEO山姆奥特曼在X上说。

API也已经开放了,文本和图像都能处理,未来支持的种类会更多,包含文本、图像、视频和音频的输入和输出。目前支持128K输入tokens,16K输出tokens,知识库更新到了2023 年10月。值得一提的是它的标记器是跟GPT-4o共享改进的,所以在处理外语(非英语)文本的时候成本效益更强。

小模型也可以进行多模态推理

不管是处理文本还是多模态推理,GPT-4o mini在学术基准测试(Academic Benchmarks)上都超过了GPT-3.5 Turbo和其他小模型。函数调用也得到了增强,开发人员可以在外部系统的应用程序中获取数据和执行操作,而且它处理文本的性能比GPT-3.5 Turbo要好很多。

GPT-4o mini跟Anthropic的Claude Haiku和谷歌的Gemini Flash展开了同台竞技,在推理能力、数学和代码能力与多模态推理都超越了其他小模型。

文本推理基准测试MMLU中GPT-4o mini得分82.0%,Gemini Flash和Claude Haiku分别得分77.9%和73.8%。

用于数学推理的MGSM中,GPT-4o mini得分87.0%,而Gemini Flash得分75.5%,Claude Haiku得分71.7%。GPT-4o mini在衡量编码性能的HumanEval上得分87.2%,而Gemini Flash得分71.5%,Claude Haiku得分75.9%。

GPT-4o mini在多模态推理评估 MMMU得分为59.4%,而Gemini Flash得分56.1%,Claude Haiku得分50.2%。

不过值得注意的是,研究人员对MMLU这样的基准测试还是保持谨慎态度,因为这些模型的训练方式存在差异,所以可能会对最终结果产生偏差。而且AI模型在其数据集中可能早就了解这些答案,这等同于作弊,而且并没有第三方评估参与该过程。

作为模型开发过程的一部分,OpenAI与Ramp和Superhuman等公司合作,GPT-4o mini 在“从文件中提取结构化数据”和“根据邮件记录生成高质量回信”等任务中的表现明显优于 GPT-3.5 Turbo。

下一步OpenAI希望可以无缝集成到每个应用程序和网站中。GPT-4o mini是实现这个目标的第一步,开发者高效、更经济地构建和扩展AI程序。

OpenAI表示,在未来人工智能会完全地融入到人们日常生活中,那时候的AI会更方便和可靠。

GPT-4o mini项目由Mianna Chen主导,团队成员里包含众多华人技术研究人员。

话外音

Meta发布Llama 3.1之后,GPT-4o mini与微调过的Llama 3.1 8B登上模型竞技场,比拼各个任务类型,结果完败。

网友表示,“还从没见过像Llama 3.1 8B表现这么好的开源小模型”。

但有一点没有改变,无论是GPT-4o还是GPT-4o mini,9.11仍然比9.9“大”。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1