当前位置：首页|资讯|OpenAI|人工智能

OpenAI o1 AI模型规划能力实测准确率达97.8%

作者：太平洋电脑网发布时间：2024-09-27

OpenAI 人工智能

【太平洋科技快讯】近日，亚利桑那州立大学的研究团队对OpenAI的o1模型进行了一项规划能力测试，显示在Blocksworld任务中的准确率高达97.8%，远超之前的最佳语言模型LLaMA 3.1 405B，后者准确率为62.6%。这一成绩显示出o1模型在特定任务中的显著进步。

此次测试采用的PlanBench基准于2022年开发，旨在评估人工智能系统的规划能力。测试包含600个来自Blocksworld领域的任务，要求按特定顺序堆叠积木。

在更具挑战性的“Mystery Blocksworld”加密版本任务中，o1模型的准确率降至52.8%。在一种新的随机变体测试中，准确率进一步降至37.3%，尽管如此，仍优于其他模型。

随着任务复杂度的提升，o1模型的性能显著下滑。在需要20至40个规划步骤的任务中，其准确率从97.8%降至23.63%。

o1模型在识别无法解决的任务方面存在困难，仅27%的时间能正确识别。在54%的情况下，模型错误地生成了完整但无法完成的计划。

尽管o1模型在基准性能上有所改进，但研究人员指出，其高运行成本(近1900美元[约合人民币：13342元])以及无法保证解决方案的正确性，是其在实际应用中需要考虑的问题。相比之下，传统规划算法在标准计算机上运行几乎无需成本。

推荐体验

相关资讯

OpenAI o1 AI模型规划能力实测准确率达97.8%

这一成绩显示出o1模型在特定任务中的显著进步。此次测试采用的PlanBench基准于2022年开发，旨在评估人工智能系统的规划能力。测试包含600个来自Blocksworld领域的任务，要求按特定顺序堆叠积木…

OpenAI 人工智能

太平洋电脑网 2024-09-27

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

IT之家9月25日消息，来自亚利桑那州立大学的科研团队利用PlanBench基准，测试了OpenAIo1模型的规划能力。PlanBench开发于2022年，用于评估人工智能系统的规划能力，包括600个来自Blocksworld领域的任务，其中积木必须按照特定顺序堆叠。

OpenAI 人工智能

IT之家 2024-09-25

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

学术头条 2024-11-07

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

o1-preview在芯片设计中的实验涵盖工程助手聊天机器人、EDA脚本生成和错误总结分析三大关键任务，展示了其在技术咨询、代码生成和错误检测方面的强大能力。在评估o1-preview作为工程助手聊天机器人的…

机器之心Pro 2024-10-09

OpenAI o1模型实测：“物化生”水平超人类博士？推理能力碾压GPT-4o

毫无预热的情况下，Open AI于9月13日凌晨发布了o1系列的大模型，这是传闻中内部代号为“草莓”的项目，也是OpenAI首款具备复杂推理能力的大模型。

2024-09-14

近期资讯

JavaWeb篇——Web工作流程、请求响应

本文包含内容：Web工作流程、请求响应以及过滤器和拦截器下实现JWT令牌技术的会话跟踪技术的登陆注册逻辑

斯joy杰 2024-12-28

SpringBoot源码阅读系列（一）：启动流程概述

作为Java生态中最流行的框架之一，SpringBoot极大地简化了Spring应用的开发过程。通过对其源码的深入理解，我们不仅能更好地使用这个框架，还能学习到优秀的设计理念和编程技巧。

从种子到参天大树 2024-12-28

HarmonyOS NEXT | 一文搞懂华为账号登录（获取UnionID/OpenID）

前言随着HarmonyOS NEXT的逐渐完善，越来越多的开发者开始加入这一平台。很多时候开发者开发的相关应用都有账号系统，往往是需要用户先注册，填写邮箱电话等，复杂而繁琐。刚开始上架了一款Har

Jalor 2024-12-28

TypeScript的class和 ES6的class有什么区别

TypeScript 的 class 和 ES6（JavaScript）的 class 有很多相似之处，但 TypeScript 在原生 ES6 的基础上增加了静态类型检查和一些面向对象编程的功能扩展

伊可历普斯 2024-12-28

Spring IoC 注解式开发

1. 回顾注解组件扫描原理 2. 声明 Bean 的注解负责声明Bean的注解，常见的包括四个： @Component @Controller @Service @Repository 这几个本质

gaoyx 2024-12-28

Syncthing(文件同步)与进程守护

Syncthing(文件同步)与进程守护 Syncthing是非常优秀的文件自动同步软件，github有40k star,可以实现：本机不同文件夹文件同步，保证文件及时同步到不同分区或硬盘，保护数据

用户01572281531 2024-12-28

SpringCloud(八) - 自定义token令牌，鉴权(注解+拦截器)，参数解析(注解+解析器)

转载自博客https://cloud.tencent.com/developer/article/2164959 视频地址参考详细讲解 1、项目结构介绍项目有使用到，redis和swagger,不在

狠难说 2024-12-28

输入输出（I/O）：熟悉 Java 的 I/O 类库，尤其是 NIO 和文件操作

输入输出（I/O）：熟悉 Java 的 I/O 类库，尤其是 NIO 和文件操作在 Java 中，I/O（输入输出）操作是开发中非常重要的一部分，用于与文件、网络和其他数据流交互。Java 提供了传

Java移动技术栈 2024-12-28

SpringBoot源码阅读系列（二）：自动配置原理深度解析

在上一篇文章中，我们对SpringBoot的启动流程进行了概览。本文将深入探讨SpringBoot最具特色的功能之一：自动配置（Auto-Configuration）机制。

从种子到参天大树 2024-12-28

图片加载失败重试，重试至预期次数使用占位图

支持自定义重试次数，支持重试回调，支持重试使用备用域名。这里使用自定义指令做了封装，可读性MAX!!!

ZHYCH 2024-12-28

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1