当前位置:首页|资讯

o1模型突破了什么?AGI如何实现?朱军、杨植麟、姜大昕云栖论道

作者:搜狐科技发布时间:2024-09-19

出品 | 搜狐科技

作者 | 梁昌均

OpenAI最新发布的o1模型意味着什么?AGI未来会有什么突破?

在9月19日开幕的2024云栖大会上,清华大学人工智能研究院副院长、生数科技首席科学家朱军,月之暗面创始人&CEO杨植麟,以及阶跃星辰创始人&CEO姜大昕对此分享了最新判断。

这三位深耕技术与产业的AI人士都认为过去一段时间,AI的发展在持续加速,而o1模型的推出则意味着新的技术发展范式,为接下来大模型的发展指明了一个方向。

朱军认为,o1模型代表着一个显著的质变,意味着AGI分级从聊天的L1加速迈向推理的L2,并在一些特定任务达到了人类很高阶的智能水平,会激发行业更多探索研发。

“它通过强化学习进一步提升了AI的上限。”杨植麟表示,这使得强化学习跟大语言模型整合对能力的提升变得确定,最终有可能做到10倍GPT的效果,“这是一个很重要的开端”。

姜大昕则认为,o1模型是第一次证明了语言模型可以有人脑的慢思考的能力,且带来了一个Scaling Law的新方向,从GPT的上下文预测走向强化学习。

不过,他表示,算法、算力、数据铁三角的关系并没有因此改变,但这会使得推理测对计算的需求量成倍的提升,同时对推理芯片能力的要求也会提高。

“这会推动大模型训练和推理的算力的占比发生变化,训练算力可能还会持续提升,同时可能推理的算力提升会更快,这个变化会产生很多新的机会。”杨植麟说。

不过,姜大昕表示,o1模型还在初始阶段,还有很多问题,比如强化学习和大模型结合如果实现泛化等,都要去探索。他同样认为,这对创业公司会带来很多新的机会。

对于这一波的AI的变化对产品和应用的影响,杨植麟表示,现在还处于产业发展的早期,特点就是技术驱动产品,现在要根据新的技术进展,反推产品应该做什么变化。

他认为,在新的PMF探索过程中国,需要在延时增长、用户体验下降和结果质量更高、用户价值上升之间找到平衡点,生产力的产品可能会率先跑出来,而产品形态也会发生变化。

对于未来18个月的AI进展,朱军预测,可能会看到基于智能体的L3级的AI基本实现,甚至可能会在主打创造的L4上也会有显著进展。

杨植麟认为,最重要的是开放性的强化学习持续进化。“o1一定程度上说明这个方向有比之前更强的确定性,这是一个重要的里程碑,也是AGI路上仅剩唯一的重要问题。”

姜大昕同样期待强化学习能进一步泛化,并希望视觉领域的理解和生成实现一体化,从而建立多模的世界模型,并和具身智能相结合,更好地探索物理世界。

以下是现场交流精编:

Q:过去的18个月,各位感受是怎么样的,AI模型技术的发展是在加速还是在减速?

姜大昕:我觉得过去18个月在加速的速度非常快。一个是数量的角度,基本上每个月都会有新的模型、新的产品、新的应用涌现出来,从GPT-4一家独大、遥遥领先,到今年变成群雄并起、你追我赶。

从质量的角度,三个重要的事,GPT-4o,特斯拉FSDV12,以及o1模型。AGI的演进路线可以分为模拟世界、探索世界、归纳世界,这三个发布分别在这三个阶段取得了非常大的突破,并为将来指明了一个方向。

杨植麟:从纵向维度看,模型智商一直在提升。从横向看,除了文本模型还有各种不同的模态,让模型具备更多的技能,完成更多的任务,同时跟智商发展相结合,产生了很多新的应用机会。最近包括后训练的算法的优化,数据的优化,这些周期更短,导致整体的AI的发展节奏进一步加快,不同模态之间的交互生成变得越来越成熟。

朱军:ChatGPT出来的时候,当时大家更多是不知所措,很多人可能没准备好接受。但现在掌握了之后再去做,速度越来越快。不同的能力,辐射到实际用户和行业,有一些快慢之分。但从技术来说,我感觉曲线越来越陡,更高阶的AGI,可能会有比之前更快的速度实现。

Q:怎么看o1模型?很多人认为这是AI的一个发展阶段的重要进步,怎么理解?

姜大昕:它第一个是第一次证明了语言模型可以有人脑的慢思考的能力。o1用了强化学习的训练框架,带来了系统2的能力,它能探索不同的路径,能够自我反思、自我纠错,然后不断试错,直到找到一个正确的途径。o1把以前的模仿学习和强化学习结合起来,使得一个模型同时有了人脑系统1和系统2的能力。

第二个它带来了一个scaling law新的方向。o1的出现使模型在强化学习的通用性和泛化性方面,上了一个大的台阶,而且放到了一个很大的规模,带来了技术的新范式。这就等于OpenAI说我找到了一条上限很高的路,而且这条路能够走得下去。

朱军:它代表着一个显著的质变。从AGI分级看,L1相当于聊天机器人,L2就是推理,L3叫智能体,从数字世界走向物理世界,L4叫创新者,L5就是组织者。o1在L2级对一些特定任务已经达到人类很高阶的智能水平,代表着行业的巨大进步,会激发出很多的探索或研发,速度可能会很快。

杨植麟:我觉得它主要提升了AI上限。AI过去的发展,唯一有效的就是去加更多的算力。o1提出来之前,有很多人在研究强化学习,但没有非常确切的答案,认为强化学习跟大语言模型整合在一起,能不能持续提升。

同时,它很大程度上解决了的数据的问题,至少证明初步可行,那可能会有越来越多的人去投入做这个事情,最终做到可能10倍GPT的最终效果,这是一个很重要的开端。

Q:o1的技术体系成为新范式之后,能看到明显的泛化能力的路径吗?确定性明确吗?

朱军:它没有完全告诉我们是怎么做的,但这些科研积累或解读,能够看到说它可能用到哪些技术,里面很重要的就是过程监督的数据,首先获取可能就比较难,这需要专业的人,去做专业的高价值的数据。

另外,迁移到其他领域,放到更泛化、更开放的场景下,奖励模型不好做,怎么去定义奖励模型,怎么去收集数据,怎么高效实现。现在大家看到这条路了,相当于看到曙光,结合现在的比较强大的基座,其实可能比之前会更快、更容易取得效果和提升。

Q:算法、算力、数据是AGI的三个关键,这次看起来是算法层面有一些范式的变化,反过来对算力、数据会产生什么连锁反应?

姜大昕:算法、算力、数据铁三角的关系没有改变。我觉得大概率确定的是推理测对计算的需求量肯定是成倍提升,可能并不比预训练要少,同时它对推理芯片能力的要求肯定也提高。

但如果我们追求的是通用的有泛化能力的推理模型,而不是为某个特定场景所设计的强化学习模型的话,那么训练所需要的计算量也不小。讲卡伤感情、没卡没感情、用卡费感情,如果我们所要追求的目标就是AGI,付出再多还是要坚持下去。

我不太确定的就是推进强化学习的时候,主模型的参数量要不要再继续拓展,让它产生更好的推理路径。我的感觉o1无论对推理测还是训练测,对算力的需求都在增长。此外,怎么去构造生成更高质量数据的算法,以及主模型的能力也非常关键。

Q:过去18个月的技术发展,包括o1出来,这对创业公司是好事是坏事?怎么看未来技术创业的走向?

杨植麟:这里面很关键的一个点就是,训练和推理的算力的占比会发生很大变化。我不是说训练的算力会下降,训练算力可能还会持续提升,但同时可能推理的算力提升会更快,比例的变化本质上会产生很多新的机会,会有很多新的创业公司的机会。

姜大昕:o1还在初始阶段,强化学习怎么和大模型相结合能够做到泛化,在做搜索路径的时候需不需要人工干预,都要去探索。基础模型就是奔着AGI去,投入很大,国外巨头都是上千亿美的规划。

但还有大量的创新空间是做应用,GPT-4展现出来的智能+智能体的框架,已经能够解决我们很多的问题。o1出来以后,把强化学习又泛化到了一个更高的阶段,上限变得更高。对创业公司来说,肯定也有很多机会。

Q:这一波AI的新变化,接下来会对AI落地或相关产品带来什么样的连锁反应?

杨植麟:现在还是处于产业发展的早期,特点技术驱动产品。现在我们可能根据新的技术进展,反推产品应该做什么变化。

现在我觉得探索新的PMF,是要在延时增长、用户体验下降和结果的质量更高、用户价值的上升之间去找到平衡点更高价值的场景,特别是生产力的产品可能率先会出来,娱乐场景大概率用户可能很难忍受延时增加。产品形态设计也会发生变化,可能会更接近一个人,更接近助理的概念。

朱军:智能的发展最后都有要指向,我觉得有两个方向,一个是给消费者的数字内容,很好看,很自然,能够讲故事,有交互。另外一个指向物理世界,生产力的提升,现在可能最好的是和机器人的结合。

L1、L2有进展之后,后边肯定会集中到L3,像李飞飞的空间智能、具身智能,让机器人更好去做推理规划,更好更高效和环境做交互,更好完成复杂任务,那时智能又有巨大的提升。

Q:现在很多投资人看日活、留存等指标,再看要不要投一个公司。问下植麟,假定你是有技术背景的投资人,会看什么数据做投资决策?

杨植麟:首先像DAU这些数据,肯定是重要的指标。这可能分成几个层面,第一个就是从创业来讲,做一个产品首先是要有价值,满足用户真实的需求,这是本质。

第二个点可能是跟AI跟相关,不光是要有价值,也要有增量的价值,比如交互完全不一样,或者是不同的入口。第三个维度不光是有价值,而且还要随着技术的发展,市场规模应该越来越大,而不是越来越小。

Q:未来18个月里,希望在AGI领域看到什么样的进展?

朱军:我预计未来18个月可能看到L3已经基本上实现,至少智能体在一些特定场景下决策能力巨大提升。更激进一点,我甚至觉得L4也会有显著进展。到今年年底,我希望我们做的视频模型能够更加高效、更可控。等到这个阶段,我相信用户体验,包括用户量都会有巨大提升。

杨植麟:我觉得接下来最重要的,可能是开放性的强化学习持续进化。o1一定程度说明这个方向有比之前更强的确定性,这是一个重要的里程碑,也是AGI路上现在仅剩唯一的重要问题。

姜大昕:我也很期待强化学习能够进一步泛化。另外,我也很期待视觉领域的理解和生成一体化。这就彻底建立一个多模的世界模型,真正产生非常长的视频,解决Sora的技术缺陷。它还可以和具身智能相结合,更好地探索物理世界。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1