OpenAI科学家最新演讲：GPT-4即将超越拐点，1000倍性能必定涌现

作者：新智元发布时间：2023-10-11

OpenAI GPT-4

GPT-4参数规模扩大1000倍，如何实现？OpenAI科学家最新演讲，从第一性原理出发，探讨了2023年大模型发展现状。

「GPT-4即将超越拐点，并且性能实现显著跳跃」。

这是OpenAI科学家Hyung Won Chung在近来的演讲中，对大模型参数规模扩大能力飙升得出的论断。

在他看来，我们所有人需要改变观点。LLM实则蕴藏着巨大的潜力，只有参数量达到一定规模时，能力就会浮现。

Hyung Won Chung将这次演讲题目定为「2023年的大型语言模型」，旨对LLM领域的发展做一个总结。

在这个领域中，真正重要的是什么？虽然「模型扩展」无疑是突出的，但其深远的意义却更为微妙和细腻。

在近一个小时的演讲中，Hyung Won Chung从三个方面分享了自己过去4年从业以来对「扩展」的思考。

都有哪些亮点？

01 参数规模越大，LLM势必「涌现」

Hyung Won Chung强调的核心点是，「持续学习，更新认知，采取以“规模”为先的视角非常重要」。

因为只有在模型达到一定规模时，某些能力才会浮现。

多项研究表明，小模型无法解决一些任务，有时候还得需要依靠随机猜测，但当模型达到一定规模时，就一下子解决了，甚至有时表现非常出色。

因此，人们将这种现象称之为「涌现」。

即便当前一代LLM还无法展现出某些能力，我们也不应该轻言「它不行」。相反，我们应该思考「它还没行」。

一旦模型规模扩大，许多结论都会发生改变。

这促使许多研究人员能够以一个新的视角去看待这个问题，即推理思路的根本性转变，从「一些方法现在不起作用」，到「一些方法只是在当前不起作用」。

也就是，最新方法可能不适用于当前模型，但是3-5年后，可能变得有效。

有着新颖视角的AI新人，通常可以带做出有影响力研究。那是因为他们不受一种直觉和想法的束缚，即经验丰富的人可能已经尝试过但发现不成功的方法。

Hyung Won Chung表示，自己平时在实验过程中，会记录下失败的过程。每当有了新的模型，他就会再次运行实验，再来查验哪些是成功的，哪些是失败的，以此往复。

这样一来，就可以不断更新和纠正自我认知和理解，适应技术的日新月异。

目前，GPT-3和GPT-4之间的能力仍然存在显著差距，尝试去弥合与当前模型的差距可能是无效的。

那么，已经有了规模的发展性观点后，我们该如何扩大参数规模？

02 第一性原理看Transformer

迄今为止，所有大模型背后的架构都是基于Transformer搭建的。想必很多人已经对下图的样子熟记于心。

这里，Hyung Won Chung从第一性原理出发探讨Transformer的核心思想，并强调了Transformer内部架构细节并非关注重点。

他注意到，许多LLM的研究者不熟悉扩展的具体操作。因此，这部分内容主要是为那些想要理解大型模型训练含义的技术人员准备的。

从功能性角度来看，可以把Transformer看作带有矩阵乘法一种简洁的序列到序列的映射，并可以进行相应数组转换。

所以，扩大Transformer的规模就是，让很多很多机器高效地进行矩阵乘法。

通过将注意力机制拆分为单独的头，利用多台机器和芯片，并使用GSP MD方法进行无需通信的并行化。

然后借助Jax的前端工具PJ将阵列轴映射到硬件，可以实现大型语言模型的并行化。

预训练模型的规模将跨越数量级，缩放法则是用小规模模型开发的。

03 1万倍GPT-4，让神经网络学习目标函数

再进一步扩展模型规模时，设想是GPT-4的10000倍，应该考虑什么？

对Hyung Won Chung来说，扩展不只是用更多的机器做同样的事情，更关键的是找到限制进一步扩展的「归纳偏差」（inductive bias）。

总之，扩展并不能解决所有问题，我们还需要在这大规模工程的工作中做更多研究，也就是在后训练中的工作。

你不能直接与预训练模型对话，但它会在提示后继续生成，而不是回答问题。即使提示是恶意的，也会继续生成。

模型后训练的阶段的步骤包括，指令调优——奖励模型训练——策略模型训练，这也就是我们常说的RLHF。

尽管RLHF有着一些弊端，比如奖励模型容易受到「奖励黑客」的影响，还有开放的研究问题需要解决，但是我们还是要继续研究RLHF。

因为，最大似然法归纳偏差太大；学习目标函数（奖励模型）以释放缩放中的归纳偏差，是一种不同的范式，有很大的改进空间。

另外，RLHF是一种有原则的算法，需要继续研究，直到成功为止。

总之，在Hyung Won Chung认为，最大似然估计目标函数，是实现GPT-4 10000倍规模的瓶颈。

使用富有表达力的神经网络学习目标函数，将是下一个更加可扩展的范式。随着计算成本的指数级下降，可扩展的方法终将胜出。

「不管怎么说，从第一原理出发理解核心思想是唯一可扩展的方法」。

参考资料：

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496

本文来自微信公众号“新智元”（ID:AI_era），作者：新智元，36氪经授权发布。

近期资讯

哈弗H6烧机油不用愁，创新免拆修复策略，让爱车重返巅峰状态

身处当下这个信息如潮水般汹涌的时代，我时刻都在心底给自己敲响警钟：务必保持理性，绝不能轻易就被网络上嘈杂纷扰的各路声音牵着鼻子走。今天，我只想以一名再普通不过的车主身份，和大家唠唠我那辆哈弗H6烧机油的事儿。这可不是什么道听途说的传闻，而是我实打实的亲身经历，重点是，我没拆发动机，就把这麻烦事儿给解决了，够神奇吧？在这儿，我得先着重声明一下，我和汽车厂家没半毛钱关系，不是来给他们打广告的；我也没收任何产品的推广费，绝不是什么推销员；更不可能是网上受人指使、混淆视听的水军。我纯粹就是打心眼里喜欢鼓捣汽车知

无损修复烧机油 2024-12-26

圣诞树看起来就像...

[图片] 最代数的一集（

A-N_O 2024-12-26

数字营销徐嘉祥：星辰幻界从默默无闻到爆款之路

在游戏行业这个竞争激烈的领域，有一家初创公司，名为“幻光游戏工作室”，他们怀揣着打造一款具有独特魅力的角色扮演游戏的梦想，但在市场上却面临着巨头林立、资源有限的困境，其首款游戏《星辰幻界》的推广之路充满了挑战与机遇，而他们的市场营销故事，也成为了行业内的一段佳话。起初，幻光游戏工作室的团队成员们深知，他们没有雄厚的资金去进行大规模的广告投放和明星代言，于是决定另辟蹊径。他们首先将目光投向了游戏社区和论坛，这是游戏爱好者们聚集交流的地方，有着精准的目标受众。团队成员们纷纷注册账号，以普通玩家的身份深入各个

徐嘉祥 2024-12-26

仓库管理别只是做样子给客户看?

走进一些公司仓库，环境整洁得几乎像展示厅，货架上物品井然有序，工人忙碌地穿梭，但总感觉这里面没有多少“活儿”？当你要求查看具体库存数据，系统反应迟缓，甚至有些信息完全不对，看起来“高大上”的仓库，背后是堆满问题的“空壳”！事实上，仓库管理对企业来说，真的不只是个展示给客户看的“样子货”。别让你的仓库只是个“摆设”，做点实事！今天，我们就来聊聊，为什么仓库管理不应当只是“做样子”，而要有实际的操作和效果。文中的用到的案例系统已经整理成模板，感兴趣可以自取：https://s.fanruan.com/hzb5

保卫大狮兄 2024-12-26

精密空调—如何充注精密空调制冷剂？

在进行精密空调制冷剂的充注操作时，为确保操作的安全性和有效性，需特别注意以下事项。一、安全防护 1、操作人员需佩戴好个人防护装备，包括安全眼镜、防护手套、防护服等，防止精密空调制冷剂溅到皮肤或眼睛造成伤害。 2、确保操作现场通风良好，避免精密空调制冷剂泄漏导致室内浓度过高，引发中毒或窒息风险。 [图片] [图片] [图片] 二、专业操作 1、精密空调制冷剂的充注应由具备相关资质的专业人员进行，确保操作的规范性和准确性。 2、在充注前，需对精密空调进行全面的检查，确认无泄漏点及异常现象，确保充注过程的安全

汇智天源 2024-12-26

多奥科技 2024-12-26

AI眼镜_AI智能眼镜定制开发_基于紫光展锐W517方案开发

AI眼镜采用紫光展锐的W517穿戴芯片，该芯片采用了先进的12纳米制程技术，集成了1×A75@2.0GHz与3×A55@1.8GHz的大小核架构。通过无级变速系统调度和超高集成的3D SiP技术，W517的布板面积较之前产品缩小了40%，同时采用的高阶EPOP封装为设计提供了更大的空间灵活性，并且有效降低了功耗，使得其特别适合应用于小型AI眼镜设备。展锐W517芯片为AI眼镜增添了多种智能功能，包括AI智能降噪提供高清通话体验，AI视频防抖技术确保视频画面的稳定性，AI人脸识别则为用户提供方便的支付和身

深圳市智物通讯科技 2024-12-26

必入！质感爆棚✔️千里马全铝硬盘盒来袭

【高效办公必备】千里马全铝硬盘盒来袭！宝子们，今天必须给你们安利这款千里马全铝合金硬盘盒?。先看外观，采用阳极氧化工艺，拿到手瞬间被惊艳，金属光泽超亮眼，摸起来冰冰凉凉，质感直接拉满，这颜值放在桌面那就是个科技潮品。性能更是杠杠的！传输速率高达 10Gbps，还搭载 9210高阶主控芯片，NVME 协议，不管是传输大型 3A 游戏，还是零碎的办公文档，那速度，就跟火箭升空似的，眨眼间就完成，告别传输焦虑。散热方面更是一绝，独特的鳍型条纹设计，高效带走硬盘热量，让硬盘时刻保持“冷静”，使用寿命大大延

Auiu数码 2024-12-26

OpenAI科学家最新演讲：GPT-4即将超越拐点，1000倍性能必定涌现

01 参数规模越大，LLM势必「涌现」

02 第一性原理看Transformer

03 1万倍GPT-4，让神经网络学习目标函数

推荐体验

相关资讯