光速(Lightspeed)整理了在AI研究领域最有影响力的四大家族:谷歌、OpenAI、Meta、斯坦福大学。
本文整理了AI四大家族的部分核心论文以及其价值,以及部分作者离开后的最新动向(原文有若干错误,一并更正)。
//
1.谷歌
TensorFlow: A system for large-scale machine learning (2016)
TensorFlow 对机器学习开发人员的生产力产生了重大影响。它允许开发人员定义机器学习模型,而无需编写用于数值计算的低级代码,从而简化了开发流程并减少了构建和试验模型所需的时间。
此外,TensorFlow 可以部署在各种硬件平台上,包括 CPU、GPU 和 TPU(张量处理单元)。这种灵活性使开发人员可以根据自己的特定需求选择最佳硬件,并高效地训练大型模型。
离职的作者及其动向:
Attention Is All You Need (2017)
Transformer 是模型架构的一个重大突破。在本文发表之前,大多数序列传导模型都依赖于循环神经网络 (RNN) 或卷积神经网络 (CNN) 来捕捉序列中元素之间的关系。由于 RNN 具有顺序性,因此训练速度可能特别慢。
本文提出了一种新架构 Transformer,它完全依赖于一种称为“自注意力”的注意力机制。这使模型能够直接关注输入序列的相关部分,从而更好地理解长距离依赖关系。Transformer 架构通过消除 RNN 来加快训练速度,在机器翻译任务上表现出色,并广泛适用于文本摘要、问答和文本生成等任务。
这篇论文的作者——Transformer论文八子已经悉数离职,其最新动态为:
Training Compute-Optimal Large Language Models (2022)
本文探讨了训练 LLM 的最佳计算预算的概念,认为当前的模型往往训练不足,因为人们注重扩展模型大小,同时保持训练数据量不变 - 而为了实现最佳计算使用率,模型大小和训练数据量应按比例缩放。本文介绍了 Chinchilla,这是一种使用这种最佳计算方法训练的大型语言模型。
离职的作者及其动向:
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2023)
通常,LLM 可以给出看似正确的答案,而无需揭示其背后的推理过程,但思路链提示可以显著改善大型语言模型 (LLM) 执行推理任务的方式,将推理步骤的示例纳入用于指导 LLM 的提示中,引导其在解决问题时逐步明确地展示其推理过程。使用这种技术训练的 LLM 在数学应用题、回答常识性问题和执行符号操作等推理任务上表现出更好的表现。
该论文的作者,光速全给搞错了。我们重新梳理一下:
其他作者仍在谷歌或者谷歌DeepMind。
Flamingo: a Visual Language Model for Few-Shot Learning (2022)
本文介绍了 Flamingo,这是一种专为 VLP 任务中的小样本学习而设计的视觉语言模型 (VLM)。虽然以前的研究主要关注语言或视觉的小样本学习,但 Flamingo 专门解决了组合 VLP 领域的挑战。Flamingo 利用预先训练的模型进行图像理解和语言生成,从而减少了微调所需的数据量。
这篇论文光速没有整理离开的作者及其动向。大部分作者仍然在谷歌,只有两位离职:
2.OpenAI
Language Models are Unsupervised Multitask Learners (2019)
过去,训练 LLM 涉及监督学习,需要大量针对所需任务的标记数据。本文探讨了无监督学习的潜力,其中模型从大量未标记的文本数据中学习。
通过对大量未标记的文本数据进行训练,LLM 可以自然而然地学会执行各种任务(多任务学习),而无需明确的任务特定监督。这种无监督学习使模型能够捕获一般的语言理解和可应用于各种下游任务的能力。无监督学习还可以提高效率 - 当针对特定任务进行微调时,LLM 可以从较少量的标记数据中学习。
离职的作者及其动向:
Language Models Are Few-Shot Learners (2020)
本文表明,LLM 只需几个示例(小样本学习)即可学习新任务,这使得它们更适合各种任务,在这些任务中,获取大量标记数据可能成本高昂或困难重重。这挑战了 LLM 始终需要大量数据才能获得良好性能的传统观点,并凸显了 LLM 的小样本学习能力——提高了样本效率,这意味着仅使用几个示例进行微调就可以在新任务上获得令人惊讶的良好性能,并加快了模型部署速度,这意味着即使在标记数据稀缺的情况下,模型也可以快速适应。
该论文的作者Dario Amodei、Jack Clark、Benjamin Mann、Sam McCandlish、Tom B. Brown全部是Anthropic的联合创始人。
Scaling Laws for Neural Language Models (2020)
通过量化模型大小、数据大小、计算机和性能之间的关系,本文在理解如何优化用于训练大型语言模型(LLM)的计算资源方面取得了重大突破。
通过了解这些扩展规律,研究人员和开发人员可以就如何为 LLM 培训分配计算资源做出明智的决策。
该论文的Dario Amodei、Jared Kaplan、Sam McCandlish是Anthropic的联合创始人,Tom Henighan加入了Anthropic的技术团队。
3. Meta——Facebook AI Research
Roberta: A robustly optimized bert pretraining approach (2019)
该论文重点介绍了 BERT(Transformers 的双向编码器表示)预训练过程的改进,与 BERT 相比,该论文在各种 NLP 任务上的表现普遍更好,训练收敛速度更快,从而使开发人员能够更快地迭代模型并减少时间。这意味着缩短了训练时间,使开发人员能够更快地迭代模型,并在微调阶段花更少的时间在超参数上。尽管 Roberta 的论文不如其前作那么具有变革性和知名度,但它的独特之处在于,几位合著者通过创立或领导新的初创公司来发展 AI 生态系统,其中包括 Tome、Character.ai 和 Birch.ai 的高管。
离职作者及其动向:
Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences (2019)
传统上,分析蛋白质结构和功能依赖于需要标记数据(例如,实验确定的结构)的技术。本文探讨了在大量蛋白质序列数据集(2.5 亿)上使用无监督学习来学习蛋白质的固有属性。通过对大量未标记的序列数据训练深度学习模型,该模型可以学习捕获有关蛋白质的重要生物信息的表示。这包括二级结构、残基间接触甚至潜在生物活性等方面。
离职作者及其动向:
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)
LLM 经过大量文本数据的训练,但经常难以完成需要访问和推理特定事实知识的任务。本文提出了一种称为检索增强生成 (RAG) 的新模型架构。RAG 结合了两个关键组件 - 检索(一个根据输入提示或问题从外部知识库检索相关文档的模块)和生成(一个强大的 LLM,它使用检索到的文档及其自身知识来生成响应)。
这种双内存架构提高了知识密集型任务(问答、总结事实主题)的性能,并且语言更加精确和真实。RAG 为 LLM 知识访问受限问题提供了解决方案。它表明,通过将强大的语言模型与外部知识源相结合,我们可以在知识密集型任务上取得更好的结果。
离职作者及其动向:
4. 斯坦福大学
On the Opportunities and Risks of Foundation Models (2021)
随着模型(例如 BERT、DALL-E、GPT-3)的兴起,人工智能正在经历范式转变。这些模型在大规模数据上进行训练,并可适应各种下游任务。我们将这些模型称为基础模型,以强调其至关重要但不完整的特性。
本报告详细介绍了基础模型的机遇和风险,从其功能(例如语言、视觉、机器人、推理、人机交互)和技术原理(例如模型架构、训练程序、数据、系统、安全、评估、理论)到其应用(例如法律、医疗保健、教育)和社会影响(例如不公平、滥用、经济和环境影响、法律和道德考虑)。虽然基础模型基于标准的深度学习和迁移学习,但它们的规模带来了新的新兴能力,而且它们在如此多任务中的有效性刺激了同质化。同质化提供了强大的杠杆作用,但需要谨慎,因为基础模型的缺陷会被所有下游适应的模型继承。尽管基础模型即将被广泛部署,但我们目前还不清楚它们是如何工作的,何时会失效,以及由于其新兴特性,它们能做什么。为了解决这些问题,对基础模型进行大量关键研究需要与其社会技术本质相称的深度跨学科合作。
其中一位作者Percy Liang是斯坦福大学计算机科学副教授,也是Together AI的创始人之一。
Efficiently Modeling Long Sequences with Structured State Spaces (2021)
这篇论文通常缩写为 S4,它提出了一种利用状态空间模型 (SSM) 处理长序列的新方法。RNN 和 CNNS 很难捕捉非常长的序列(数千个元素或更多)中的长距离依赖关系。S4 通过使用 SSM 来解决这个问题,SSM 具有更有效地处理长距离依赖关系的理论能力。
S4 还引入了一种名为“结构化状态空间”的新参数化技术,该技术提供了一种利用 SSM 的优势来处理长距离依赖关系同时保持计算效率的方法。这为构建能够有效处理非常长序列的模型打开了大门,同时与传统方法相比,训练和使用速度更快。
教授动向:
END.