当前位置:首页|资讯|Sora

Scaling Law 又一次性感了吗?

作者:机器之能发布时间:2024-03-10

原标题:Scaling Law 又一次性感了吗?

专题解读

事件:

Sora 的出现被认为是 Scaling Law 的又一次成功,这也引起了社区中更多对 Scaling Law 的讨论。

自 OpenAI 发布 Sora,业界对该模型的能力及其所带来的影响和机会讨论不断。虽然 OpenAI 没有放出 Sora 的训练细节,但在其技术报告中又一次强调该公司所拥护的核心理念——Scaling Law。即,支持 Sora 的 Diffusion Transformer 模型同样符合 Scale effectively),随着训练计算量增加,视频质量显著提升。这让 Scaling Law 再次成为人工智能领域的热点话题。

Scaling Law 是什么?

1、针对语言模型的 Scaling Law 来自 OpenAI 2020 年发布的论文,其释义可简要总结为:随着「模型大小」、「数据集大小」、「(用于训练的)计算浮点数」的增加,模型的性能会提高。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。

① 模型性能受三个因素共同影响,其中计算量对性能的提升最为显著,其次是模型参数,而数据集大小的影响相对较小。在资源不受限制的情况下,性能提升最为显著。

② 在有限的计算资源下,为了获得最佳性能,可以通过训练大型模型并在其达到最佳状态前提前终止训练。

③ 大型模型在样本效率上更优,它们可以用较少的数据和优化步骤达到与小型模型相同的性能。在实践中,应优先考虑训练大型模型。

2、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势,这对于在有限预算下做出关键设计选择,如确定模型和数据的理想规模,避免昂贵的试错过程,具有重要意义。

① 在大语言模型的训练中,交叉熵损失是评估模型预测准确性的常用指标,它衡量模型输出与实际情况的差距。损失越低,预测越精确,训练目标就是降低这一损失。

3、作为另一个代表性研究,Google DeepMind 团队的 Hoffmann 等人同样提出了一种用于指导 LLMs 计算最优训练的替代 Scaling Law 形式。

① 在有限的浮点运算(FLOP)预算下,损失函数显示出最佳性能点:对于较小的模型,增加数据量以训练较大的模型能提升性能;对于较大的模型,使用更多数据训练较小的模型同样能带来改进。

② 为了实现计算成本的最优,模型的规模和训练数据量(token 数)应保持成比例的增长,即模型规模翻倍时,训练数据量也应相应翻倍。

③ 在训练大型语言模型时,应重视数据集的扩充,但只有在数据质量高的情况下,扩大数据集的优势才能得到充分发挥。

4、总体而言,给定计算预算的增加,OpenAI 的 Scaling Law 更倾向于在模型大小上分配更大的预算,而 Chinchilla 版则认为两个大小应该等比例增加。

Scaling Law 带来的争议有哪些?

围绕 Scaling Law 的讨论中,「模型是否越大越好?」的问题在近几年反复被提及,各方观点莫衷一是。科技博主 Dwarkesh Patel 曾撰文梳理了社区中围绕 Scaling Law 的争议与讨论的关键问题,并对支持或质疑的声音进行了解读分析。

1、现有数据会被用光吗?

① 积极观点认为,到 2024 年,高质量的语言数据将会用尽。根据 Scaling Law,我们需要的数据量比现有的多出 5 个数量级,这意味着现有数据可能只有真正需要的 10 万分之一。尽管可以通过提高数据利用效率的方法,如多模态训练、循环利用数据集、课程学习等,但这些方法难以满足 Scaling Law 指数式增长的数据需求。

② 消极观点认为,不应该因为数据短缺质疑 Scaling Law 的可行性。LLM 在处理数据时效率不高,但如果合成数据有效,我们不应该对继续 Scaling 持怀疑态度。有研究者对 self-play 和合成数据的方法持乐观态度,认为这些方法可能有效,并且有丰富的数据来源和生成数据的方法。

2、Scaling Law 真的起过作用吗?

① 积极观点认为,在各种基准测试中,模型的性能已经稳步提升了 8 个数量级,即使在计算资源增加的情况下,模型性能的损失仍然可以精确到小数点后多位。GPT-4 的技术报告表明,可以通过较小的模型预测最终模型的性能,这表明 Scaling Law 的趋势可能会持续。

② 消极观点则质疑 Scaling Law 是否能说明模型的泛化能力有实质提升。有声音指出现有的基准测试更多地测试模型的记忆力而非智能程度,并且模型在长期任务上的表现并不出色。例如,GPT-4 在 SWE-bench 测试中的得分很低,表明模型在处理长时间跨度的复杂信息时存在问题。

3、模型真的能理解世界吗?

① 有研究表明,学习大量代码能够增强 LLM 的语言推理能力,显示出模型能够识别并利用语言和代码中的通用逻辑结构。梯度下降作为一种优化策略,旨在通过数据压缩来深入理解信息,从而提高模型的预测能力。

② 积极观点认为为了预测下一个 Token,LLM 必须学习万物背后的规律,理解 Token 之间的联系。例如,通过学习代码可以提高 LLM 的语言推理能力,这表明模型能够从数据中提炼出通用的思考模式。

③ 消极观点认为,智能不仅仅是数据压缩,即使 LLM 通过 SGD 过程实现了数据压缩,这并不能证明它们具备与人类相似的智能水平。

④ 还有一种观点认为,大模型存在方向上的路线错误......

Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law?为什么 OpenAI 能用好 Scaling Law?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 10

本期完整版通讯含 3个专题解读 + 29项 AI & Robotics 赛道要事收录

1. LeCun 的 IWM 能否成为实现 AGI 的关键世界模型?

Google、Meta 、OpenAI 三家巨头对于实现 AGI 的技术路径存在分歧?Yann LeCun 提出的世界模型新范式 IWM 是什么?IWM 与 I-JEPA 是什么关系?IWM 与传统的自监督学习方法有哪些不同?...

2. Scaling Law 又一次性感了吗?

Scaling Law 是什么?Scaling Law 都有哪些争议?都有谁相信 Scaling Law?为什么 OpenAI 能用好 Scaling Law?...

3. 53页「OpenAI 2027 AGI 规划」要点解读

53 页 PDF 讲了 OpenAI 什么计划?有 Q* 的消息吗?来源可靠吗?OpenAI 打算如何在2027年实现 AGI?...


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1