当前位置：首页|资讯|OpenAI|人工智能

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

作者：IT之家发布时间：2024-09-25

OpenAI 人工智能

IT之家 9 月 25 日消息，来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。

PlanBench 基准简介

PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。

OpenAI o1 模型成绩

在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA 3.1 405B（准确率为 62.6%）。

在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而 OpenAI 的 o1 模型准确率达到 52.8%。IT之家附上报告图片如下：

研究人员还测试了一种新的随机变体，以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中，O1 的准确率降至 37.3%，但仍远远超过了得分接近零的其它模型。

规划步骤越多，性能下降越明显

随着任务越来越复杂，o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上，o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。

该模型在识别无法解决的任务方面也很吃力，只有 27% 的时间能够正确识别。在 54% 的情况下，它错误地生成了完整但不可能完成的计划。

“Quantum improvement”，但并非突破性

虽然 o1 在基准性能上实现了“量子改进”（Quantum improvement），但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法，可以在更短的计算时间内实现完美的准确性。

研究还强调了 o1 的高资源消耗，运行这些测试需要花费近 1900 美元，而经典算法在标准计算机上运行几乎不需要任何成本。

研究人员强调，对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明，虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步，但这些能力还不够强大。

由媒体 The Decoder 使用 Midjourney 生成

推荐体验

相关资讯

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

IT之家9月25日消息，来自亚利桑那州立大学的科研团队利用PlanBench基准，测试了OpenAIo1模型的规划能力。PlanBench开发于2022年，用于评估人工智能系统的规划能力，包括600个来自Blocksworld领域的任务，其中积木必须按照特定顺序堆叠。

OpenAI 人工智能

IT之家 2024-09-25

OpenAI o1 AI模型规划能力实测准确率达97.8%

这一成绩显示出o1模型在特定任务中的显著进步。此次测试采用的PlanBench基准于2022年开发，旨在评估人工智能系统的规划能力。测试包含600个来自Blocksworld领域的任务，要求按特定顺序堆叠积木…

OpenAI 人工智能

太平洋电脑网 2024-09-27

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

学术头条 2024-11-07

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

o1-preview在芯片设计中的实验涵盖工程助手聊天机器人、EDA脚本生成和错误总结分析三大关键任务，展示了其在技术咨询、代码生成和错误检测方面的强大能力。在评估o1-preview作为工程助手聊天机器人的…

机器之心Pro 2024-10-09

OpenAI o1模型实测：“物化生”水平超人类博士？推理能力碾压GPT-4o

毫无预热的情况下，Open AI于9月13日凌晨发布了o1系列的大模型，这是传闻中内部代号为“草莓”的项目，也是OpenAI首款具备复杂推理能力的大模型。

2024-09-14

近期资讯

发朋友圈小心翼翼就算了现在连微信签名都要被审判

前段时间差评君刷到个抖音视频，叫《看朋友圈签名识人》。视频里，博主看一眼别人的微信个性签名，就知道这是个啥样的人。比如有人的个性签名是 “ 人间一趟，发财

2024-12-27

小米BL解锁规则调整：最多支持解锁1台绑定设备

快科技12月26日消息，对于刷机爱好者来说，Bootloader（BL）解锁必不可少，只有解锁了之后才能进行各种修改操作。不过对于普通用户来说，随意解锁并不是好事，很多厂商都已经严格把控。小米

2024-12-27

《王者荣耀》超爽玩法“无限乱斗”回归：觉醒升级

快科技12月26日消息，《王者荣耀》无限乱斗模式即将于12月31日焕新归来，带来更加紧张刺激的游戏体验！本次更新不仅加快了对局节奏，还引入了三项全新技能：影之分身、逐风之箭和形之变幻，为

2024-12-27

8只猛犸象被困孤岛持续繁衍6000年直到3650年前才灭绝

猛犸象这种已灭绝的动物，在西伯利亚的永久冻土中埋藏着许多它们的化石，这些化石述说着它们过去的辉煌。△ 猛犸象的头部化石鼻子的位置有点像有一个眼孔以前的人看到这些巨大的化石，给后

2024-12-27

15岁的B站正在被科技品牌们虎视眈眈

不知道大家有没有发现，曾经的二次元圣地 B 站，这几年已经被数码科技品牌们扎堆攻陷了？有多少产品、品牌，在 B 站崛起、在 B 站塌房。就这么说吧，拿下 B 站的用户，或者失去 B 站这个舆论

2024-12-27

最新研究发现“砂糖橘不能再吃了” 完全是流言

流言：“‘最新研究发现：砂糖橘不能吃了’”今天微博一条关于“砂糖橘真的不能再吃了”的消息“炸”了，消息称，《自然》上有研究表明：果糖会促进

2024-12-27

全球第一拍照手机！华为Pura 70 Ultra 16GB版直降2000元

快科技12月27日消息，华为Pura 70 Ultra手机正式开启优惠活动，新增的12GB+512GB版本售价7499元起，16GB版本则限时优惠2000元。12GB+512GB售价7499元、16GB+512GB限时优惠价7999元（原价9999元

2024-12-27

电池衰减致保时捷Taycan趴窝！车主：4S店让我自费43万维修

快科技12月27日消息，据报道，广州一位保时捷Taycan车主方先生向媒体反馈称，自己的车辆因电池衰减故障无法行驶。广州白云保时捷中心却以底板和冷却水板有凹陷为由拒绝‘三包’保修

2024-12-27

流畅度、游戏性能大增！Redmi K60系列推送小米澎湃OS 2

快科技12月26日消息，Redmi K60系列目前已经推送了小米澎湃OS 2正式版系统，具体版本为OS 2.0.3.0.VMNCNXM。持有K60系列的用户，可点击“设置-我的设备-系统版本”进行 OTA 更

2024-12-27

荸荠、蕺菜、藠头见过吃过也听过就是不会读

植物的中文名称，犹如精炼的密码，蕴含其原产地、形态特征等丰富信息，省去冗长的生物学术语描述。然而，鉴于中国文字的深厚底蕴与悠久历史，植物名称在漫长的岁月变迁中经历诸多演变。为此，

2024-12-27

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1