研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

作者：学术头条发布时间：2024-12-16

OpenAI

在哪些任务场景下，CoT 会降低模型性能？...【查看原文】

相关资讯

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

OpenAI

学术头条 2024-11-07

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

IT之家9月25日消息，来自亚利桑那州立大学的科研团队利用PlanBench基准，测试了OpenAIo1模型的规划能力。PlanBench开发于2022年，用于评估人工智能系统的规划能力，包括600个来自Blocksworld领域的任务，其中积木必须按照特定顺序堆叠。

OpenAI 人工智能

IT之家 2024-09-25

三言财经 2024-12-19

近期资讯

日本公布登月探测器“倒栽葱”着陆原因：一个主引擎点火滞后

【文/观察者网陈思佳】当地时间12月26日，日本宇宙航空研究开发机构（JAXA）召开新闻发布会，公布了日本“小型落月实证机”（SLIM）今年1月在月球表面“倒栽葱”着陆的原因。SLIM项目负责人坂井真一郎说，调查显示，在SLIM着陆过程中，两个主引擎中的一个点火滞后了约1秒，供给的燃料未能正常燃烧并在滞留在引擎内。

观察者网 2024-12-27

力箭一号遥六运载火箭发射任务失利：三级发动机点火约 3 秒后姿态失稳，实施自毁

2024年12月27日09时03分31秒，力箭一号遥六运载火箭在东风商业航天创新试验区点火升空，火箭一、二级飞行正常，三级发动机点火约3秒后姿态失稳，箭上自主安全控制系统实施自毁，发射任务失利。我们将始终保持对航天事业的敬畏之心，严格按照航天归零标准，尽快完成故障调查并在第一时间公布，全力确保后续飞行试验任务圆满成功。

IT之家 2024-12-27

腾讯和迈瑞医疗合作搭建全球首个重症医疗大模型

和迈瑞医疗合作搭建了全球首个重症医疗大模型——启元重症大模型。启元大模型可以读取患者的生命体征数据，建立患者的数字画像。只需要5秒，就可以总结患者的病情。

每日经济新闻 2024-12-27

本地 AI 开发利器，初探微软 Win11 AI Dev Gallery 功能

12月27日消息，科技媒体WindowsLatest昨日（12月26日）发布博文，微软针对Windows11AI+PC设备，推出了AIDevGallery功能，帮助开发者在其应用中融入端侧AI功能。

砍柴网 2024-12-27

松下大海豹2.0冰箱515升：补贴1598元，高端家电的性价比之选

#年货节好物集市#松下冰箱在高端市场中以其卓越的性能、节能环保技术和智能化解决方案而著称。特别是在法式多门冰箱领域，松下大海豹2.0冰箱515升以其自动制冰、一级能效和超薄零嵌入式设计，成为现代家庭的理想选择。此外，该冰箱采用先进的冷藏技术，能够保持食物的新鲜度和营养价值更长时间，并具有快速冷冻功能。

小米地瓜 2024-12-27

江苏捷达交通工程集团有限公司取得新式水泥砂浆勾缝设备专利，提高装置使用后清理便捷性

金融界2024年12月27日消息，国家知识产权局信息显示，江苏捷达交通工程集团有限公司取得一项名为“一种新式水泥砂浆勾缝设备”的专利，授权公告号CN222205945U，申请日期为2024年2月。

金融界 2024-12-27

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。方法部分为了解决这一问题，我们提出了GRAPE，一种即插即用的算法，通过偏好对齐提升机器人策略的泛化能力，并支持将VLA模型对齐到任意设定的目标。

机器之心Pro 2024-12-27

工信部：试点部署万兆光网，力争累计建成5G基站450万座以上

12月26日至27日，全国工业和信息化工作会议在京召开。会议强调，2025年要围绕高质量发展，推动信息通信业高质量发展。

新京报 2024-12-27

全国首个智能瓦斯巡检系统在神东建成

近日，全国首个智能瓦斯巡检系统替代人工巡检试点矿井在国家能源神东煤炭集团上湾煤矿建成。近年来，随着煤矿智能化水平不断提升，井下安设大量电气设备，电源箱、控制开关等点多、面广，瓦斯检查路线长、点位多，采用传统人工巡检方式，不仅占用大量人力物力，且存在假检、漏检等情况。

央广网 2024-12-27

任天堂Switch2实机照曝光：升级磁吸接点

外网博主@NextHandheld分享了一张据称为任天堂新主机的照片，并称之为“今年保守得最好的秘密”。尽管有网友对照片的真实性提出质疑，认为这可能是通过AI生成的图像，但照片中的设备与先前多个爆料信息相吻合，使得这一曝光的可信度较高。从曝光的照片来看，这款手持设备的外形尺寸与现有的Switch相似。

中关村在线 2024-12-27

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

推荐体验

相关资讯

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

OpenAI o1 模型 PlanBench 规划能力实测：准确率 97.8%

OpenAI o1 AI模型规划能力实测准确率达97.8%

280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

OpenAI开放满血o1模型API，成本下降60%

近期资讯

日本公布登月探测器“倒栽葱”着陆原因：一个主引擎点火滞后

力箭一号遥六运载火箭发射任务失利：三级发动机点火约 3 秒后姿态失稳，实施自毁

腾讯和迈瑞医疗合作搭建全球首个重症医疗大模型

本地 AI 开发利器，初探微软 Win11 AI Dev Gallery 功能

松下大海豹2.0冰箱515升：补贴1598元，高端家电的性价比之选

江苏捷达交通工程集团有限公司取得新式水泥砂浆勾缝设备专利，提高装置使用后清理便捷性

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

工信部：试点部署万兆光网，力争累计建成5G基站450万座以上

全国首个智能瓦斯巡检系统在神东建成

任天堂Switch2实机照曝光：升级磁吸接点

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响