大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了10篇LLM领域的优秀论文,来自谷歌、华为、斯坦福大学、香港大学等机构。
为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可以点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
1.CAME: Confidence-guided Adaptive Memory Efficient Optimization
作者:Yang Luo,Xiaozhe Ren,Zangwei Zheng,Zhuo Jiang,Xin Jiang,Yang You
链接:https://www.aminer.cn/pub/64a63bddd68f896efaec6604/
ChatPaper综述:这篇论文讨论了在训练大型语言模型时,自适应梯度方法如 Adam 和 LAMB 表现出非常好的性能,但是需要维护每个参数梯度的第二阶矩估计,这需要额外的内存开销。为了解决这个问题,论文提出了 CAME,一个基于自信指导的自适应内存高效优化器。CAME 通过使用自信指导策略来减少现有内存高效优化器的不稳定性。基于这个策略,CAME 同时实现了两个目标:像传统自适应方法一样快速收敛,像内存高效方法一样低内存使用。广泛的实验结果表明,CAME 在多种自然语言处理任务中训练稳定,表现出色,特别是在 BERT 预训练的大型批量大小 32,768 中,相比 Adam 优化器,我们的提出的方法实现了更快的收敛和更高的精度。CAME 的实现是公开可用的。
2.BiPhone: Modeling Inter Language Phonetic Influences in Text
作者:Abhirut Gupta,Ananya B. Sai,Richard Sproat,Yuri Vasilevski,James S. Ren,Ambarish Jash,Sukhdeep S. Sodhi,Aravindan Raghuveer
链接:https://www.aminer.cn/pub/64ab82833fda6d7f06f77db1/
ChatPaper综述:这篇论文讨论了由于技术不对称性等原因,许多人被迫使用他们不太熟悉的第二语言 (L2) 在互联网上交流,这使得 L2 文本往往包含大量的错误,这些错误受到他们母语 (L1) 的影响。论文提出了一种方法来挖掘 L1 和 L2 之间的语音混淆 (即 L2 中的声音,L1 听众可能混淆),并将这些混淆注入到一个生成模型 (Bi-Phone) 中,以合成地生成损坏的 L2 文本。通过人类评估,论文表明 Bi-Phone 可以生成合理的损坏,并且在不同的 L1 之间有所不同,并且这种损坏在 Web 上具有广泛的覆盖范围。此外,论文还通过将这种损坏技术应用于流行的语言理解基准 SuperGLUE,发现 SoTA 语言理解模型在这种方法下表现较差。此外,论文还介绍了一种新的语音预测预训练任务,可以帮助字节模型恢复到接近 SuperGLUE 的性能。最后,论文还发布了名为 FunGLUE 的基准测试,以促进进一步研究口语鲁棒的语言模型。
3.VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
作者:Wenlong Huang,Chen Wang,Ruohan Zhang,Yunzhu Li,Jiajun Wu,Li Fei-Fei
链接:https://www.aminer.cn/pub/64abee0f286e8b4b6fcd5c84/
ChatPaper综述:这篇论文旨在利用大型语言模型 (LLM) 为机器人操纵合成大量不同任务的动态机器人轨迹。在此之前,大多数机器人操纵研究都依赖于预先定义的运动模式,这种模式在很大程度上限制了机器人的交互能力。该论文提出了一种方法,利用 LMM 的推断能力和编写代码的能力,与视觉语言模型 (VLM) 相互作用,以生成 3D 值地图,并将其用于模型 based 规划框架,以零样本合成闭环机器人轨迹,同时具有对动态扰动的鲁棒性。该框架还利用在线经验高效学习接触丰富的场景的动态模型。该方法在模拟和真实机器人环境中进行了大规模研究,展示了能够执行 30 多种日常生活中的机器人操纵任务的能力,这些任务是通过自由文本描述指定的。
4.PolyLM: An Open Source Polyglot Large Language Model
作者:Xiangpeng Wei,Haoran Wei,Huan Lin,Tianhao Li,Pei Zhang,Xingzhang Ren,Mei Li,Yu Wan,Zhiwei Cao,Binbin Xie,Tianxiang Hu,Shangjie Li,Binyuan Hui,Bowen Yu,Dayiheng Liu,Baosong Yang,Fei Huang,Jun Xie
链接:https://www.aminer.cn/pub/64af76ed3fda6d7f0647132f/
ChatPaper综述:这篇论文介绍了一种名为 PolyLM 的开源多语言大型语言模型,该模型通过融合双语数据并采用课程学习策略来提高其多语言能力,并在训练数据中融入了双语言数据。此外,还提出了一种多语言自我指导方法,该方法可以自动生成 132,700 个多样化的多语言指令用于模型微调。通过广泛的实验,论文表明 PolyLM 在多语言任务中表现优异,同时英语表现与现有开源模型 LLaMA 和 BLOOM 相当。
5.Teaching Arithmetic to Small Transformers
作者:Nayoung Lee,Kartik Sreenivasan,Jason D. Lee,Kangwook Lee,Dimitris Papailiopoulos
链接:https://www.aminer.cn/pub/64ab82833fda6d7f06f77dee/
ChatPaper综述:这篇论文研究了如何将基本算术运算教给小型 Transformer 模型。我们发现,在大量文本数据上训练的小型 Transformer 模型可以从随机初始化开始高效地学习算术操作,如加法、乘法和基本的平方根函数。我们首先证明传统的训练数据对于算术学习并不是最有效的,简单的数据格式变化可以显著提高准确性。随着训练数据的增大,会出现明显的阶段变化,这可以通过与低秩矩阵填充相关的联系来解释。在此基础上,我们使用包括中间步骤结果的链式想法数据进行训练。即使在没有预训练的情况下,这种方法可以同时显著提高准确性、样本复杂度和收敛速度。我们还研究了算术和文本数据之间的互动,并考察了少量提示、预培训和模型规模的影响。此外,我们讨论了长度泛化挑战。我们的工作强调了高质量、指导数据的重要性,应考虑 next-token 预测目标的特殊性质,以迅速诱导算术能力。
6.Lost in the Middle: How Language Models Use Long Contexts
作者:Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua,Fabio Petroni,Percy Liang
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb25/
ChatPaper综述:这篇论文研究了语言模型如何使用长上下文。虽然近年来出现了一些能够处理长上下文的语言模型,但人们对于语言模型如何在长上下文中运用信息了解较少。本文针对两个需要从输入上下文中识别相关信息的任务:多文档问题解答和键值检索,进行了分析。发现语言模型在输入上下文的开头或结尾处获取的信息往往效果最好,而在长上下文的中部获取信息会使性能显著降低。此外,对于长上下文模型,输入上下文长度的增加会显著降低性能。本文的分析为更好地理解语言模型如何运用输入上下文提供了新的理解,并为未来的长上下文模型提供了新的评估标准。
7.VideoGLUE: Video General Understanding Evaluation of Foundation Models
作者:Liangzhe Yuan,Nitesh Bharadwaj Gundavarapu,Long Zhao,Hao Zhou,Yin Cui,Lu Jiang,Xuan Yang,Menglin Jia,Tobias Weyand,Luke Friedman,Mikhail Sirotenko,Huisheng Wang,Florian Schroff,Hartwig Adam,Ming-Hsuan Yang,Ting Liu,Boqing Gong
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb1f/
ChatPaper综述:这篇论文评估了现有的 foundation 模型在视频理解方面的能力,使用了精心设计的实验协议,包括三个标志性任务 (动作识别、时间定位和时空定位),八个受到社区欢迎的 datasets,以及四种针对下游任务调整 foundation 模型的方法。此外,我们还提出了一个指标 VideoGLUE 分数 (VGS),以测量 foundation 模型在通用视频理解任务上的有效性和效率。我们的结果表明,任务专业化模型显著优于我们研究的六个 foundation 模型,这与 foundation 模型在自然语言和图像理解方面取得的成就大不相同。此外,视频原生 foundation 模型 (其在预训练数据中包含视频模式) 在分类运动丰富的视频、时间定位动作和理解多个动作的视频方面通常比图像原生 foundation 模型表现更好。第三种发现表明,对于视频任务,视频原生 foundation 模型在轻度适应下游任务 (例如冻结 foundation 模型的 backbone) 时表现良好,而图像原生 foundation 模型在完整端到端微调时表现更好。前两个观察表明,需要专注于视频焦点的 foundation 模型的研究,最后一个观察结果表明,任务和适应方法对于 foundation 模型的评估至关重要。
8.Focused Transformer: Contrastive Training for Context Scaling
作者:Szymon Tworkowski,Konrad Staniszewski,Mikołaj Pacek,Yuhuai Wu,Henryk Michalewski,Piotr Miłoś
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eb23/
ChatPaper综述:这篇论文研究了如何通过对比训练来解决外部内存中的记忆效果不佳的问题,外部内存中的记忆内容包括 (键,值) 。随着文档数量的增加,相关键的数量越来越少,导致模型更多地关注无关键。这种情况称之为干扰问题。为了解决这个问题,作者提出了 Focused Transformer(FoT) 技术,该技术利用对比训练来增强 (键,值) 空间的结构,从而扩展上下文长度。作者还展示了使用 FoT 技术微调现有的大型语言模型,可以延长其有效上下文。实证结果表明,使用 FoT 技术的 LongLLaMA 模型在需要长时间上下文的任务中取得了进展,例如密码检索。此外还证明了LongLLaMA 模型可以有效地处理 256 千个上下文长度,这在以前是难以处理的。
9.GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
作者:Shilong Zhang,Peize Sun,Shoufa Chen,Min Xiao,Wenqi Shao,Wenwei Zhang,Kai Chen,Ping Luo
链接:https://www.aminer.cn/pub/64ab828f3fda6d7f06f78840/
ChatPaper综述:这篇论文提出了一种名为 GPT4RoI 的新方法,使用区域指令微调大规模语言模型 (LLM) 以获得更准确的多模态理解能力。传统的图像文本指令训练方法只能建立图像级别的视觉语言对齐,缺乏区域级别的对齐,这限制了他们对精细多模态理解的进步。在这篇论文中,作者提出了一种名为区域指令微调的方法,使用区域指令将 bounding box 转换为格式为 spatial instruction 的指令。然后,将区域指令和语言嵌入的 interleaved 序列作为输入到 LLM 中,并在以指令微调格式转换的区域文本数据上进行训练。GPT4RoI 区域级视觉语言模型的提出提供了一种全新的对话和交互体验,超越了图像级别理解的能力。(1) 可控性:用户可以通过语言和区域指令两种方式与模型交互,以灵活地调整问题的细节水平。(2) 能力:模型不仅支持单区域区域指令,还支持多区域区域指令,从而解锁更多的区域级别多模态能力,例如详细的区域标题和复杂的区域推理。(3) 组合性:任何现成的对象检测器都可以作为区域指令提供者,以便从我们的模型中挖掘出有用的对象属性,如颜色、形状、材料、动作、与其他对象的关联等。
10.Generative Pretraining in Multimodality
作者:Quan Sun,Qiying Yu,Yufeng Cui,Fan Zhang,Xiaosong Zhang,Yueze Wang,Hongcheng Gao,Jingjing Liu,Tiejun Huang,Xinlong Wang
链接:https://www.aminer.cn/pub/64ae259c3fda6d7f0658f3b5/
ChatPaper综述:这篇论文介绍了 Emu,一种基于 Transformer 的多功能基础模型,可以在多模态上下文中无缝生成图像和文本。该模型是一种杂食性模型,可以接受任意单一模态或多模态输入 (例如交替的图像、文本和视频),并通过一种通用的自动回归训练过程进行一对一训练。首先,视觉信号被编码为嵌入,并与文本令牌一起形成交替的输入序列。然后,Emu 通过统一的目标进行分类,以预测下一个文本令牌或回归下一个视觉嵌入在整个多模态序列中。这种多功能多模态性使模型能够探索多种大规模预训练数据来源,例如视频的帧和文本交替序列、网页上的图像和文本交替序列,以及大规模的图像和文本对和视频和文本对。Emu 可以作为多功能多模态接口,支持图像到文本和文本到图像的任务,并支持上下文中的图像和文本生成。在广泛的零/很少样本任务中,例如图像标题、视觉问题回答、视频问题回答和文本到图像生成任务,Emu 在最先进的大型多模态模型之上表现出优异的性能。此外,Emu 还展示了出色的扩展能力,例如通过指令微调实现多模态助手。