OpenAI全新模型：推理能力已接近人类，ChatGPT像人一样思考Azure OpenAI

作者：等保测评办理发布时间：2024-08-01

这几天互联网上都在与大语言模型讨论一个数学问题：9.9和9.11，哪个数字更大？

很多大模型都会说9.11大，理由非常滑稽：因为11这个数比9大。

这大概是由于语言模型硬件的Tokens（理解语句的基本单位）把“9”、“小数点”和“11”理解成了三个部分，似乎并没有把它们理解成为一个整体。

而草莓（Strawberry）或许能让ChatGPT更加智能。

企业如何合规、稳定使用ChatGPT以及Copilot？

出于合规角度，建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务，企业用户可以合规、稳定地使用ChatGPT，满足国内发票需求，同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴，全云在线可为企业开通绿色申请通道！包括最新版本GPT-4o、Dalle-3等，只要企业有需求，全云在线都能协助快速开通！

微软 Azure OpenAI 免费试用申请：

https://azureopenai.cloudallonline.com/?zxwsh65

另外有需要可以关注【全云在线】gz号，进OpenAI技术开发交流裙

草莓的细节从未被披露和报道，而且在内部都是被严格保密的。

根据一位知情人士和内部文件称，ChatGPT的公司 OpenAI正在研究一种全新的人工智能模型，代号为“草莓”（Strawberry），它的前身为Q*。

一份OpenAI内部文件的副本显示，OpenAI 内部的团队正在开发草莓。但是无法确定该文件的具体日期，文件详细说明了OpenAI打算如何使用草莓进行研究的计划。

草莓项目可以让AI不仅能够生成查询的答案，而且可以执行长任务（LHF），做到提前规划，自主地浏览互联网（CUA技术），提高可信度，从而执行OpenAI所说的“深入研究”。

面对关于“草莓”的问题时，OpenAI发言人表示：“我们希望我们的AI模型能够像我们人类的方式去看到和理解世界。不断研究AI能力是业界普遍做法，大家普遍相信随着时间的推移，这些智能系统的推理能力将得到改善。”然而并没有提及“草莓”项目。

山姆奥特曼今年曾说过：“AI最重要的领域会围绕着推理能力展开。”

推理能力可拓展AI探索科学领域的能力，让AGI照进现实。

OpenAI这一举动引来了马斯克强势围观：

“我们之前已经知道AI浩劫可能是回形针泛滥，看来得成草莓田了。（鼓）”

（*注：尼克·博斯特罗姆（Nick Bostrom）曾提出一个著名的思想实验：要求AI产生最大量的回形针。AI最终决定：“杀死人类，将人类当作额外的资源，把你们都做成回形针。”因为 AI 对于人类的价值没有基本的人类认知。）

强大的推理能力

草莓项目此前被称为Q*，据路透社称，OpenAI内部已经将其视为一项突破。Q*的demo能够回答目前商用模型不能解决的科学和数学问题。

OpenAI内部测试的AI在MATH数据集上得分超过90%，这是基准测试里面属于王者级别了，但无法确定这是否为草莓项目。

据彭博社报道，OpenAI在内部全员会议上做了次演示，声称该项目的推理能力已经接近人类水平。发言人也证实了这次会议，但拒绝透露细节。

研究人员表示，推理能力是人工智能达到甚至超越人类智力水平的关键。

这样的AI就像是受过高等教育的人一样，有能力解决基本问题，还不需要任何工具。下一个阶段会有“Agents”（AI实体）和“Innovators”（创新者）出现，Agents可以在几天内自主执行任务，Innovators能够设计新技术。最终会形成全面自主性和复杂性的人工智能系统，这些阶段映射出来一个完整的（AGI）通用人工智能路线图。

人工智能研究人员认为，这种能力是目前现有人工智能模型所不具备的。

虽然大语言模型可以很快地总结文本和书写文本，但有时候存在常识性问题，对人们来说这些问题非常简单和直观，比如识别逻辑错误和“幻觉”问题。

人工智能的推理涉及模型的形成，AI可以进行提前规划，反映物理世界的运作方式，从而可靠地解决有挑战性的多步骤问题。

改进人工智能模型的推理能力是释放模型能力的关键，这些能力往大了说可以代替人类研究重大科学，往小了说可以写代码写软件。

谷歌、Meta和微软这样的公司和许多研究AI的学术实验室，都在尝试用不同的技术来增强AI模型的推理能力。然而研究人员对大语言模型是否能够将想法和长期规划纳入的预测方式存疑。

现代人工智能的先驱之一的Yann LeCun说，大语言模型无法进行像人类一样进行推理。

OpenAI希望此项目能够大幅提高AI模型的推理能力，草莓涉及专门计算处理方式，它可以在大量的数据集上预先训练AI模型。

其中一种方式就是后训练（post-training），或者在基础模型已经“训练”了大量通用数据后，调整基础模型以特定方式“磨练”性能。

“微调”和人类反馈强化学习（RLHF）都是后训练的方法，RLHF可以让人类根据模型的响应向模型提供反馈，提供正确和错误的例子做提示工程。

一位知情人士称，草莓与斯坦福大学在2022年开发的一个叫“自学推理者”（"Self-Taught Reasoner”，简称“STaR”）的方法相似。

斯坦福大学教授Noah D. Goodman称STaR让AI模型能够通过迭代创建自己的训练数据来“指导”自己进入更高的智能水平，理论上可以让语言模型超越人类水平的智能，成为创造者。

这篇论文中概述了自我推理的原理，最开始使用少量样本提示作为示例，模型自行生成推理，最后通过微调产生正确答案的推理来进一步完善模型的能力。

研究人员层层深入这一过程，每次都使用改进的模型产生下一个训练集。这是一个协同过程，推理生成的改进会改善训练数据，从而进一步改善推理能力。

但是这个循环无法解决训练集的新问题，因为它回答错的问题的时候得不到直接有效的提示。

他们为此提出了推理化（rationalization）：通过为回答错的问题提示正确答案来生成新的推理。此举称为反向推理（reason backward）——正确的答案使得模型轻松地生成可用的推理。然后这些推理被收集整合作为训练数据的一部分，从而提高整体准确性。

什么东西可以带着小狗？答案是B，篮子。答案必须是可以用来带小狗的东西。篮子是用来装东西的。因此，答案是篮子

上图为STaR概述和 CommonsenseQA上STaR 生成的推理。虚线表示微调（Finetune）外循环。问题和基本事实答案预计会出现在数据集中，而推理使用STaR产生。

他们又在今年5月发布了Quiet-STaR，做出了改进。

不同于STaR，Quiet-STaR直接在内部产生基本推理或想法，控制单个token推理与预测结合在一起，增强了理解和响应结果。通过强化学习进行优化，模型产生更强的推理能力以预测之后的结果，不需要特殊调整和干预。

也就是说Quiet-STaR可以让语言模型去通过内部推理进行思考。

它解决了三个主要难题：生成文本的高计算成本、引导LLM如何生成和使用内部想法以及预测将要产生的结果以外的内容。

Quiet-STaR使用了控制特殊token的新采样算法，模型在推理过程中可以自主学习和决定「开始思考」和「结束思考」。

上图概括了算法在训练过程中单个想法的过程。根据文本问题所有tokens并行生成想法（思考）。模型产生的下一个tokens预测想法走向（谈话）。REINFORCE有助于模型预测未来文本的想法走向，同时舍弃可能性较低的想法（学习）。

这是一个多重预测的训练，模型通过目前的推理来产生多个可能性预测之后的推理走向，产生更合理可靠的推理结果。

上图的x轴表示训练步骤，y轴表示零样本准确率（直接），不同颜色的线代表Quiet-STaR的使用程度。可以很直观地看到，GSM8K和CommonsenseQA最初准确率是5.9%和36.3。其中Quiet-STaR使用程度越高，准确率越高，最高分别达到10.9%和47.2%。

“我既兴奋又恐惧......如果事情继续朝着这个方向发展，作为人类有一些严肃的事情需要思考一下。”Goodman说。

近期资讯

不锈钢冲压护套用LD模具钢5000次开裂，改用8566模具钢寿命翻倍

今天收到老客户的咨询，问8566模具钢有没有没淬火的软料板材？他想粗加工好造型，再回来热处理。【誉辉模具钢黄子鹏日记第895篇】老板是在去年11月份认识的。当时，他帮下游客户做加工，有一个用于不锈钢冲压模具的冲头护套，用LD模具钢时，做了3千-5千次出现崩裂。这个护套外径35毫米，不是很大，所以推荐老板用抗崩裂性能更好的8566模具钢，直接切一条8566的圆钢淬火加硬了，回去再做加工。今天老板打电话时告诉我，去年做的8566冲头护套，冲了5-6万次了，还是好好的，都不用修模。因为效果好，今年有方形的护套要

誉辉模具钢黄子鹏 2024-12-27

宝马驾驶宝典：如何寻找每个弯道的最佳赛车路线

（本文翻译自“宝马驾驶”官方网站）赛车路线——这是每个赛车手都在寻找的东西，但并不是所有人都知道如何找到。这次我们的专家将揭晓如何寻找最佳赛车路线的12个方式，并将你的赛车技巧提升到另一个层次。 [图片] 你在驾驶卡丁车时，对手是否经常在你旁边呼啸而过？如果是的话，其实经常并不是你的赛车出现了问题。更有可能的是，别人比你能够更精确地寻找赛车路线。其实在正式赛车中，赛车路线的重要性非常大。与此同时，车队和驾驶员经常日夜加班的分析每一条赛道的最佳速度的行驶路线。克劳迪娅.赫特根（Claudia Hür

佐罗亚特 2024-12-27

在数字化浪潮的推动下，远程办公已经成为一种新趋势，不仅帮助企业应对如疫情这样的突发情况，也成为提高工作效率、吸引人才、灵活运营的重要方式。在这个技术日新月异的时代，选择一款合适的远程办公软件对于保障团队协作、保持生产力和保护数据安全至关重要。下面就让我们一起探讨如何选择远程办公软件以及安装时的注意事项。选择远程办公软件的要点功能性：寻找一款提供全面功能的软件，比如文件传输、远程打印和多屏控制等，这些都是远程办公不可或缺的功能。安全性：选择一款信誉良好、安全性高的软件。确保它具备高级加密技术，如端到端加密和

RayLink远程控制 2024-12-27

佰师网 2024-12-27

揭秘新疆无人机培训界的精英摇篮：CAAC执照，保华润天航空的卓越之旅！

在浩瀚无垠的新疆大地上，有一所被誉为“无人机飞行员摇篮”的神秘基地——新疆保华润天航空无人机培训中心。这里，不仅是技术的殿堂，更是梦想启航的地方。今天，就让我们一同揭开它的面纱，看看是如何将一群怀揣飞行梦想的普通人，锻造成为持有CAAC权威认证的无人机操控精英。走进保华润天，首先映入眼帘的是那一排排先进的无人机设备和宽敞明亮的教学区。这里采用的可是与国际接轨的CAAC（中国民用航空局）认证体系，确保每一位学员都能接受到最前沿、最专业的无人机理论知识与实操技能训练。课程内容从基础的无人机构造原理，到复杂的气

新疆无人机一杨 2024-12-27

OpenAI全新模型：推理能力已接近人类，ChatGPT像人一样思考Azure OpenAI

推荐体验

相关资讯

OpenAI全新模型草莓浮出水面：推理能力已接近人类，可让ChatGPT像人一样思考

OpenAI新推理模型o1：AI像人类一样在思考了

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”

OpenAI 新大模型，推理能力近人类水平！

OpenAI发布全新o1模型：它会像人类一样“深思熟虑”｜甲子光年

近期资讯

不锈钢冲压护套用LD模具钢5000次开裂，改用8566模具钢寿命翻倍

宝马驾驶宝典：如何寻找每个弯道的最佳赛车路线

pLVX-shRNA2载体质粒—艾普蒂生物

vivo S20 Pro怎么样？性能强悍颜值高，人像表现突出

远程办公所需软件如何安装才能保证安全？

SOLIDWORKS 和 Rhino犀牛之间的主要区别有哪些？哪个更好用？

正式入列亚冬！吉利向哈尔滨亚冬组委交付350辆醇氢电混汽车

Java期末考试题库，最后三天能捞一个是一个

佰师网：公务员备考冲刺阶段，如何高效巩固与提升

揭秘新疆无人机培训界的精英摇篮：CAAC执照，保华润天航空的卓越之旅！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响