Open AI发布新一代模型01

作者：人人都是产品经理发布时间：2024-09-15

OpenAI 编程

昨天晚上，OpenAI发布了最新的草莓模型——01系列，随着01模型的问世，我们有理由相信，AI的“思考”将更加贴近人类，而其在各行各业的应用，也将带来革命性的变革。

凌晨1点，我还在追剧。

这时，朋友发来一条消息说：Open AI发布了新模型，你在电脑上试试看能用吗？哎，大哥，都要睡觉了，这要强制开机，让我起来加班码字啊。

带着好奇，打开PC端ChatGPT一看，果然，多出两个模型，分别是ChatGPT 01-mini和01-preview。

这是什么东东？怎么叫这个名字？这个模型有什么特点？怎么还有两个版本呢？价位如何？难道是此前被传的「草莓」做出来了？

带着疑惑，熬夜看完官方文档，把内容总结分享给你。

为什么叫01呢？官方说：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能，翻译出来就是：

这个模型在复杂推理任务上是一个重大的进步，代表了人工智能能力的一个新水平；因此，我们决定重新开始编号，把这一系列模型命名为OpenAI 01。

袄，原来因为这个模型非常厉害，能做很多复杂的事情，OpenAI 觉得这是一个新的起点，所以把编号重新设为1，开始一个新的系列。

那么，它为什么会有两个版本呢？官方说：

o1 mini版是个简化的版本。它在速度、体积和成本方面都做了优化。

这个版本在处理数学、编程推理任务时表现不错，特别适合需要快速处理问题的场合；因为它体积小，成本也低，所以，如果你想快速得到答案，那么o1 mini版可能更适合你。

相对01 preview版，是完整版本。

比较擅长解决复杂的问题，比如，无论是科学问题、数学题还是编程，它都能处理得非常好；当然，如果你遇到的问题要广泛的知识或者深刻的理解，那么这个版本更适合你，因为它的推理能力非常强大。

我不信，于是，让国产大模型Kimi Chat给我想了一个逻辑数学逻辑题，如下：

假设我有一个农场，里面有鸡和兔子。有一天，我数了数农场里动物的头和脚，发现总共有35个头和94只脚。请问，农场里各有多少只鸡和兔子？

preview版的确很强。除了告诉我有23只鸡，和12只兔子外，还给出了步骤，整个下来，也就不到2秒。

当然，这种测试用来对付Chat肯定是无压力的，如果你有时间，也可以带入工作中的问题，自己体验下。

总的来说，两个版本的主要区别是它们处理任务的能力、速度和成本；o1 mini版在速度、成本上有优势；preview版更适合推理。

不过，实际体验下来，没觉得有什么差异，也许我本身要它做的事情，比较简单。

体验完后，仔细一想，这和GPT-4o、GPT-4omini有啥区别呢？非要搞出四个模型吗？加上GPT-4，我电脑上已经有五个模型了。

查了下官方文档，有一篇文章叫《用法学硕士学习推理》（Learning to Reason with LLMs）详细介绍了一切。

他们是这么说的：

在对OpenAI的两个AI模型——o1-preview和GPT-4o的实际使用偏好测试中，人类评估者在不知情的情况下，比较了两个模型对复杂问题的回答。

结果显示，在需要大量推理的任务上，比如数据分析、编程和数学问题，大家更喜欢o1-preview。因为o1-preview经过特殊的强化学习训练，所以，在解决这类问题时，推理能力更强，更高效。

但是，在自然语言处理任务上，o1-preview的表现不如GPT-4o。这是因为它的训练重点在推理和解决问题的策略上，而不是在语言的流畅度或文本生成的多样性上。

这说明，虽然o1-preview在某些领域很出色，但它并不适合所有类型的任务，尤其是那些专注于自然语言处理的场景。

原来如此。

我又看了看o1-preview和o1 mini版适合哪些人。官方说，如果你在处理科学、编码、数学等领域的复杂问题，这些增强的推理能力可能特别有用。

比如：

医疗研究人员可以用o1来标注细胞测序数据；物理学家可以生成量子光学所需的复杂数学公式；各个领域的开发者都可以用o1来构建和执行多步的工作流程。

所以，如果你做科学、敲代码、编程、数学方面的工作，用它再好不过了。

那么，o1-preview和o1 mini到底做了哪些测试呢？

首先，为了显示o1模型在推理方面比GPT-4o有多大改进，他们在不同的人体检查和机器学习基准上测试了它。

比如：

在2024年的AIME数学考试中，GPT-4o平均只解决了12%的题目；而o1模型单次测试的平均解题率达到了74%。如果算上64次测试的平均得分，能达到83%；重新从1000个样本中排名，平均得分甚至可以达到93%。

这个成绩不仅让它进入了全美前500名，还超过了参加美国数学奥林匹克的分数线。

他们还用一个叫做GPQA钻石的难题来测试o1。这个测试涉及化学、物理和生物学的专业知识。

他们请了一些拥有博士学位的专家来回答这些问题，结果发现，o1模型的表现超过了人类专家，成为第一个在这个测试中取得这样成绩的模型。

这并不意味着o1在所有方面都比博士更厉害，而是说明它在解决某些专业问题上更为熟练。

当然，在其他一些机器学习的测试中，他们也做了大量测试；它在MMMU的视觉感知测试中得了78.2分，成为第一个能和人类专家竞争的模型；而且，在57个MMLU子测试中的54个项目上，它的表现都优于GPT-4o。

我好奇地搜索了一下，什么是 MMLU？简单讲，MMLU 像一场大型的综合考试，参加考试的不是人类，而是人工智能模型。

总之，这些测试最终结论是：

OpenAI的o1模型在全球编程比赛Codeforces中排名第89位，在美国数学奥林匹克（AIME）的资格赛中，进入了全美前500名。

在物理、生物学和化学问题的测试中，它的表现甚至超过了博士水平。

因此，o1-preview和o1 mini在解决高难度的推理和专业问题上表现更出色；而GPT-4o更适合处理日常的任务。

所以，这么强的推理能力怎么实现的？关键有四个方面：

首先，o1模型用了一种“自我对弈强化学习”（Self-play RL）的方法；这是一种通过模拟环境和自我对抗来提升模型性能的技术。

这种方法中，模型在没有外部指导，通过不断尝试和错误来学习策略和优化决策。

想象一下：

它就像在和自己下棋，一边玩一边学；过程中，不用别人教，自己试试、出错、再试，慢慢就学会了怎样做决策和解决问题。

其次，o1还模仿了人类的“慢思考”（Slow Thinking）；这种思考要时间、努力和逻辑三者结合，就像我们在考试时仔细思考一个难题一样。

通过深思熟虑方式，o1先分析问题，然后把它拆开，再推理，再解决；这让它在科学、编程或数学上更精准，更出色。

当然，这一步离不开思维链。

思维链的推理，还用一种独特的方法来监控模型。如果这些思维链是可读的，研发人员就能“读懂”模型的思考过程。

这对于监测模型是否能操纵用户行为非常有帮助，但是，为了让模型能自由地表达思考，他们不在模型中加入任何与政策、用户偏好相关的硬性规定。

因此，这个模型整合了安全政策和人类价值观，过在模型的答案中重现思维链中的有用想法，让用户间接了解模型的思考过程。

还有一点，思维链加入了鲁棒性（Robustness）测试。所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时，仍然能够正常工作，不容易出问题。

比如：

一辆汽车，无论在高温、低温、下雨还是颠簸的路面上，都能正常行驶，这说明它的鲁棒性很好；在AI领域，鲁棒性指软件、模型在面对不同的数据输入、错误，甚至恶意攻击时，仍然能保持稳定和准确。

所以，鲁棒性强调的是在各种复杂、多变的环境下，仍然能保持可靠和稳定的性能。

除以上两点，o1在训练时还用上了数据飞轮（Data Flywheel）；它的正确答案会被用来再训练它自己，帮助它变得更聪明。

当然，为支持这些复杂的思考任务，o1还用上了一些特别优化的算法、架构。这些技术让它更快、更准确地解决问题，提高了它的整体能力。

总之，o1模型训练关注五个维度：

一，自我对弈强化学习、二，模仿人类慢思考、三，拆解了思维链的过程；四，在思维链中加入了鲁棒性测试；五，数据飞轮再强化。

看完官网文档，说白了，我觉得他们让AI更像人了。

再强大的东西，不商业化肯定不行。那么，o1模型的成本和使用限制有哪些呢？

o1-preview的价格是：

每处理一百万个输入要花15美元，每处理一百万个输出则是60美元；这说明，如果你用这个版本，输入和输出的处理费用会比较高。

真贵啊。这是什么概念？举个例子：

如果你每天和这个模型聊天100次，每次输入1000个单词，那么一天的费用是75美分乘以100次，等于75美元。按照现在汇率，75美元大概等于540人民币。

这样看来，使用这个模型的成本相当于每天花540块钱。如果你每天都这么使用，一个月下来的花费就非常可观了，堪比请一个专家了。

而o1-mini的价格便宜一些。

每一百万个输入只需3美元，每一百万个输出12美元。但这个便宜版在功能上可能会有些限制；如果你是ChatGPT Plus或Team的用户，就可以优先尝试o1模型的功能。

对开发者来说，要求就严格多了，只有支付了1000美元的五级开发者才能用这个模型，而且每分钟只能调用20次。

至于API的调用限制，o1-preview每周只能调用30次，o1-mini每周可以调用50次。这种限制是按周来算的，不是按小时或分钟。

功能方面，目前的o1模型还不能支持所有的功能，比如理解图片、生成图片、解释代码、网页搜索等。所以，用户现在只能用它来进行基本的对话。

官方还说：

虽然现在o1模型成本较高，使用也有限，但随着技术发展和OpenAI的不断改进，预计将来会有更多用户能使用到这个模型，成本也可能会降低。

不管怎能说，AI越来越像人一样“深思熟虑”了，至于这个模型，谁会付费呢？谁又能为它支付1000美金呢？或许，只有大公司、研究机构、有特定需求的专业人士才能承担得起。

那到时候，真就成了花钱请了一个「AI专家」，所以，AI会替代专家吗？

总结

越来越像人的模型。

谁也猜不到，未来的o1-preview（mini）会发展成什么样，至少，它肯定不会是个普通的GPT。

它会发展成具身智能吗？有这个可能。随着技术不断进步，o1-preview（mini）很大概率会改变一些行业的运作方式。

本文由人人都是产品经理作者【王智远】，微信公众号：【王智远】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

Open AI发布新一代模型01

推荐体验

相关资讯

Open AI发布新一代模型01

谷歌发布新一代开源AI大模型

智谱AI Open Day重磅发布：新一代MaaS平台开启大模型商业化新篇

OpenAI最大竞争对手发布新一代AI大模型

PK Sora，Runway发布新一代视频生成模型

近期资讯

陈梦2024年度总结

还在为年终盘点总结头疼？华为智慧PC帮你轻松搞定！

红果短剧：即日起5天内，停止上线新的剧集

加速数据要素价值发挥，罗湖区数据产业生态联盟成立

全球每卖出4颗CMOS芯片，就有一颗来自于中国上海

OpenHarmony城市技术论坛第12期——合肥站圆满举办

香港首航！国产大飞机C919新年起执飞沪港定期航班

12356将成为全国统一心理援助热线

日本航空公司：遭网络攻击的通信系统已恢复正常

《鲲鹏原生开发技术白皮书》发布，携更多伙伴迈入原生开发新时代

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响