Llama 版 o1 来了，来自上海 AI Lab，强化学习代码已开源，基于 AlphaGo Zero 范式

作者：量子位发布时间：2024-11-05

LLaMA 编程 OpenAI

复刻 OpenAI o1 推理大模型，开源界传来最新进展： LLaMA 版 o1 项目刚刚发布，来自上海 AI Lab 团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play 强化学习，PPO，...【查看原文】

相关资讯

Llama 版 o1 来了，来自上海 AI Lab，强化学习代码已开源，基于 AlphaGo Zero 范式

复刻 OpenAI o1 推理大模型，开源界传来最新进展： LLaMA 版 o1 项目刚刚发布，来自上海 AI Lab 团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play 强化学习，PPO，

LLaMA 编程 OpenAI

量子位 2024-11-05

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

根据相关人士推测，o1 的模型训练数据截止到去年十月份，而有关 Q \* 的爆料大约是去年 11 月，这似乎展示 o1 的训练中也用到了 TreeSearch 的技巧。

北大 OpenAI

机器之心 2024-09-15

OpenAI震撼发布最强模型o1！强化学习突破LLM推理极限

具体来说，o1系列是OpenAI首个经过强化学习训练的模型，在输出回答之前，会在产生一个很长的思维链，以此增强模型的能力。接下来它会给自己定义任务、分析限制条件、列出需要用到的方法。o1-preview在某些…

OpenAI

等保测评办理 2024-10-22

OpenAI o1模型引领大模型结合强化学习新范式，推理模型为AI Agent带来哪些利好？

在OpenAI的o1模型中，思维链是内置的特性，模型在训练时就已经学会了如何进行这种多步骤的推理。这个库将当前推理相关的论文分成调查、分析、技术、小模型扩展、多模态推理等多个类别，总共收录了110多篇论文，并…

OpenAI

钛媒体APP 2024-09-30

刚刚，OpenAI震撼发布o1大模型，强化学习突破LLM推理极限

语言模型的 AlphaGo 时刻？

OpenAI

机器之心 2024-09-13

近期资讯

刷屏！“AI界拼多多”再出手，Deepseek发布新模型，训练成本降低10倍

近日，一家来自中国杭州的公司Deepseek在全球AI界刷屏！12月26日，Deepseek发布了全新系列模型DeepSeek-v3，一夜之间霸榜开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。更让海外AI界震惊的是，该模型的训练成本仅600万美元，成本降低10倍，资源运用效率极高。

证券时报 2024-12-29

我国：乡乡通 5G 成绩亮眼 2024 盘点

从全国工业和信息化工作会议获悉，2024年我国工业和信息化领域成绩出色。这一年，产业科技创新有新突破，“嫦娥六号”完成人类首次月球背面采样返回。这一年，我国5G基站累计建成开通超419万个，千兆宽带接入用户超2亿户，实现“乡乡通5G”。

和讯网 2024-12-29

华硕新发Z890 RO姬二次元主板：宅男无法抗拒的战斗公主

快科技12月29日消息，华硕发布了一款非常特殊的主板，命名“ROGSTRIXZ890-HGAMINGWIFISRO姬”，浑身上下充满了RO姬的战斗公主二次元形象，从包装到主板到配件莫不如此。

驱动之家 2024-12-29

如何在社交媒体上更好地分享照片，提升互动与吸引力的方法总结

在这个手机几乎无处不在的时代，发照片已经成为我们日常生活中不可或缺的一部分。无论是和朋友分享旅行的精彩瞬间，还是记录生活中的点滴乐趣，发照片的方式多种多样，随之而来的也是一些小技巧和注意事项。

新报观察 2024-12-29

如何在抖音上轻松删除作品，清理主页保持新鲜感

在如今这个短视频盛行的时代，抖音作为一款热门的社交平台，吸引了无数用户分享自己的生活、才艺和创意。然而，有时候我们在分享的过程中可能会因为各种原因想要删除一些作品。无论是觉得内容不再适合自己，还是因为想要清理一下自己的主页，删除抖音作品其实是个简单的操作。接下来，我就给大家详细讲讲怎么删除抖音作品。

新报观察 2024-12-29

消息称英伟达将于2025年上半年推出用于人形机器人的计算机Jetson Thor

：12月29日，资本市场消息，英伟达在其核心的人工智能芯片制造业务上面临日益激烈的竞争，该公司正押注于机器人科学，将其作为下一个重要的增长驱动力。据报道称，英伟达将于2025年上半年推出其最新一代用于人形机器人的紧凑型计算机——名为JetsonThor。同时，英伟达正将自己定位为即将到来的机器人革命的领先平台。

金融界 2024-12-29

一加 Ace 3 Pro 手机获 ColorOS 15.0.0.401 升级

版本采用分批的方式进行推送，如用户点击「设置>关于手机>顶部版本号」未检查到新版本，还请耐心等待版本的全量推送。

IT之家 2024-12-29

红米Turbo 4外观曝光；曝华为畅享70X主打北斗通信；《黑神话：悟空》PS5 Pro性能测试出炉...

据央视新闻报道，韩国全罗南道消防厅在务安机场对济州航空7C2216航班乘客家属表示，除救出的两人外，预计事故其余人员全部遇难。具体来看，1月1日至31日，下定全系可享受：赠送价值8000元Nappa真皮座椅；小米智能驾驶智驾增强功能终身免费；车载网络服务，三年免费使用权（15G/月）；24年锁单用户加送两年车载网络服务（15G/月）。

IT之家 2024-12-29

【明日主题前瞻】全球顶级技术精英打造，性能强全尺寸通用人形机器人惊艳亮相

2024年12月26日，国内现唯一来自世界顶级人工智能与人形机器人科技巨头精英团队的初创企业，上海矩阵超智集成系统有限公司正式发布其自主研发的全球性能最强全尺寸通用人形机器人原型机MATRIX-1，计划明年量产。公司方面，步科股份面向协作机器人、人形机器人领域，公司推出了第三代无框力矩电机产品。

金融界 2024-12-29

Pura 80 Art有望回归！

微博上的一则爆料称，华为有望推出全新的Pura80Art手机，其市场定位与非凡大师系列相似。这一消息引发了众多消费者对华为新品的期待。据透露，Pura80Art在影像技术和工业设计方面都将带来令人瞩目的创新，这无疑为消费者提供了更多的期待空间。在今年上半年，华为对其P系列进行了升级，推出了全新的Pura系列。

中关村在线 2024-12-29

Llama 版 o1 来了，来自上海 AI Lab，强化学习代码已开源，基于 AlphaGo Zero 范式

推荐体验

相关资讯

Llama 版 o1 来了，来自上海 AI Lab，强化学习代码已开源，基于 AlphaGo Zero 范式

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

OpenAI震撼发布最强模型o1！强化学习突破LLM推理极限

OpenAI o1模型引领大模型结合强化学习新范式，推理模型为AI Agent带来哪些利好？

刚刚，OpenAI震撼发布o1大模型，强化学习突破LLM推理极限

近期资讯

刷屏！“AI界拼多多”再出手，Deepseek发布新模型，训练成本降低10倍

我国：乡乡通 5G 成绩亮眼 2024 盘点

华硕新发Z890 RO姬二次元主板：宅男无法抗拒的战斗公主

如何在社交媒体上更好地分享照片，提升互动与吸引力的方法总结

如何在抖音上轻松删除作品，清理主页保持新鲜感

消息称英伟达将于2025年上半年推出用于人形机器人的计算机Jetson Thor

一加 Ace 3 Pro 手机获 ColorOS 15.0.0.401 升级

红米Turbo 4外观曝光；曝华为畅享70X主打北斗通信；《黑神话：悟空》PS5 Pro性能测试出炉...

【明日主题前瞻】全球顶级技术精英打造，性能强全尺寸通用人形机器人惊艳亮相

Pura 80 Art有望回归！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响