大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了10篇LLM领域的优秀论文,来自Meta AI、伦敦大学、剑桥大学、字节跳动等机构。
为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可以点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
1.Llama 2: Open Foundation and Fine-Tuned Chat Models
链接:https://www.aminer.cn/pub/64b758dd1a5852438b7976ff/
ChatPaper综述:这篇论文介绍了 Llama 2,一个包括从 70 亿到 700 亿个参数的预训练和优化的大型语言模型 (LLM) 集合。其中的 Llama 2-Chat 是针对对话场景优化的 LLM,并在大多数测试的基准上表现优于开源聊天模型。根据我们对有用性和安全性的人类评估,Llama 2-Chat 可能是封闭源模型的合适替代品。论文详细描述了 Llama 2-Chat 的微调方法和安全改进方法,以便于社区在此基础上进行构建并促进 LLM 的负责任开发。
2.DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
链接:https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb086/
ChatPaper综述:这篇论文介绍了一个名为 DialogStudio 的最大和最丰富的对话数据集,旨在解决现有对话数据集收藏中的多样性和全面性不足的问题。DialogStudio 包括来自开放领域对话、任务导向对话、自然语言理解、会话推荐、对话摘要和知识引导对话的数据,使其成为对话研究和模型训练的极其丰富和多样的资源。为了进一步提高 DialogStudio 的实用性,作者确定了每个数据集的许可证,并为选定的对话设计了领域感知提示以促进指令感知微调。此外,作者还使用数据集收藏开发了会话 AI 模型,并在零散学习和少量学习场景下的实验证明了 DialogStudio 的优越性。为了提高透明度和支持数据集和任务为基础的研究,以及语言模型预训练,所有与 DialogStudio 相关的数据集、许可证、代码和模型都已公开可用。
3.On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models
链接:https://www.aminer.cn/pub/64b8b1bd3fda6d7f062b9845/
ChatPaper综述:这篇论文的标题是《大型语言模型的起源:15,821 个大型语言模型的进化树和图》,摘要介绍了自 2022 年底以来,大型语言模型(LLMs)变得非常突出,例如 ChatGPT 和 Bard 等 LLM 吸引了数百万用户。每周都有数百个新的 LLM 被宣布,其中许多被存入 Hugging Face,这是一个机器学习模型和数据集的存储库。到目前为止,已经将近 16,000 个文本生成模型上传到了该网站。由于 LLM 的大量涌入,了解哪些 LLM 骨架、设置、训练方法和家族受欢迎或趋势是很有趣的。然而,目前还没有全面的 LLM 指数可用。该论文利用 Hugging Face LLM 的相对系统化的命名法进行层次聚类,并使用 n-gram 和词频-- 逆文档频率(TF-IDF)识别 LLM 中的社区。该论文提出了一个名为“星座”的公共网络应用程序,用于导航和探索他们制作的 15,821 个 LLM 的大图。星座可以快速生成多种可视化,包括树状图、图形、词云和散点图。
4.How is ChatGPT's behavior changing over time?
链接:https://www.aminer.cn/pub/64b76c6a3fda6d7f068ee31b/
ChatPaper综述:这篇论文研究了 ChatGPT 行为随时间的变化。作者评估了 2023 年 3 月和 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现:1) 解决数学问题,2) 回答敏感/危险问题,3) 生成代码和 4) 视觉推理。研究发现,GPT-3.5 和 GPT-4 的性能和行为随时间可能会发生很大变化。例如,GPT-4 (2023 年 3 月) 在识别质数方面非常出色(准确率 97.6%),但 GPT-4 (2023 年 6 月) 在这些问题上的表现非常差(准确率 2.4%)。有趣的是,GPT-3.5 (2023 年 6 月) 在这项任务上比 GPT-3.5 (2023 年 3 月) 要好得多。GPT-4 在 6 月份比 3 月份更不愿意回答敏感问题,而且 GPT-4 和 GPT-3.5 在 6 月份的代码生成中比 3 月份有更多的格式错误。总的来说,这些发现表明,同一 LLM 服务的行为可以在相对较短的时间内发生实质性变化,强调了持续监测 LLM 质量的必要性。
5.Challenges and Applications of Large Language Models
链接:https://www.aminer.cn/pub/64b8b1c13fda6d7f062bb083/
ChatPaper综述:这篇论文的标题是“大型语言模型的挑战与应用”,摘要提到大型语言模型 (LLMs) 在几年内从无到有,变得无处不在。由于该领域的快速发展,很难确定仍存在的挑战和已有的成果应用领域。本文旨在建立一套系统性的开放问题和应用成功案例,以便机器学习研究者能更快地理解该领域的当前状态并提高生产力。
6.BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecd4/
ChatPaper综述:这篇论文介绍了一种名为 BuboGPT 的多重媒体语言模型,旨在实现视觉 grounding,即让模型能够明确地标出图像中物体的位置。传统的多重媒体语言模型,如 MiniGPT-4、LLaVA 和 X-LLM 等,通过结合图像、视频和语音等多种媒体输入,进一步提高了其与人类交互的能力。但是这些模型往往只能对给定媒体信号进行粗粒度的理解,而无法对输入进行具体部位的解释。为了提高用户体验并扩展多重媒体语言模型的应用场景,作者提出了 BuboGPT 模型,它能够通过跨媒体交互提供对视觉对象和其他给定媒体形式的细粒度理解。在生成响应或描述时,BuboGPT 能够明确指出图像中物体的具体位置。作者还提出了一种两阶段的训练方案和指令数据集,为模型提供联合文本-- 图像-- 音频理解能力。实验结果表明,BuboGPT 在与人类交互的过程中表现出了出色的多模态理解和视觉 grounding 能力,无论是在对齐还是非对齐的媒体组合下都表现良好。
7.Planting a SEED of Vision in Large Language Model
链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaeaa5/
ChatPaper综述:这篇论文提出了 SEED,一个精致的图像令牌化器,为大型语言模型(LLMs)赋予了同时看和画的能力。之前的图像令牌化器研究遇到了瓶颈,因为采用量化视觉令牌的框架在多模态理解和生成方面的表现不如 BLIP-2 等。尽管存在局限性,但仍然相信它自然地统一了视觉和文本表示,使得 LLM 具有可扩展的多模态训练能力。在本研究中确定了 SEED 的架构和训练的两个关键原则,有效地减轻了与 LLM 的后续对齐。第一个原则是图像令牌应独立于 2D 物理补丁位置,而是通过 1D 因果依赖产生,表现出与 LLM 中从左到右自回归预测机制相一致的内在相互依赖。第二个原则是图像令牌应捕捉与单词中的语义抽象程度一致的高层次语义,并在令牌器训练阶段优化判别性和重构。因此,通过高效的 LoRA 微调,标准的 LLM 能够进行图像到文本和文本到图像生成,只需将SEED 融入其中。全面的多模态预训练和指令微调,可能会带来更好的结果,但这将在未来的研究中进行探讨。这个版本的 SEED 在 5.7 天内使用 64 个 V100 GPU 和 500 万个公开可用的图像 - 文本对进行训练。初步研究强调了离散视觉令牌在多模态 LLM 中的巨大潜力以及在更广泛研究中正确图像令牌化的重要性。
8.Retentive Network: A Successor to Transformer for Large Language Models
链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecfd/
ChatPaper综述:这篇论文提出了 Retentive Network(RetNet) 作为大型语言模型的基础架构,可以同时实现训练并行化、低成本推理和良好的性能。论文首先从理论上推导出 recurrence 和 attention 之间的连接。然后提出了保留机制用于序列建模,支持三种计算模式,即并行、循环和块循环。具体来说,并行表示可以支持训练并行化。循环表示可以实现低成本 $O(1)$ 推理,提高解码吞吐量、延迟和 GPU 内存利用率,而不牺牲性能。块循环表示可以便利地进行长序列建模,具有线性计算复杂度,每个块可以进行并行编码同时循环总结块内信息。实验结果表明,RetNet 在语言建模方面取得了良好的 Scaling 结果、并行训练、低成本部署和高效的推理能力。这些有趣的特性使得 RetNet 成为大型语言模型的强大后继者,超过了 Transformer。
9.TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaed33/
ChatPaper综述:在现实世界的数据库中,表格普遍存在,需要花费大量时间和努力去分析和操纵。随着大型语言模型 (LLM) 的发展,自然语言输入使得与表格交互变得更加容易。本论文介绍了 TableGPT,一个统一的训练框架,使 LLM 能够理解和操作表格,并使用外部功能命令进行操作。它引入了表格无缝交互的能力,可以实现各种问题的回答、数据操纵 (如插入、删除、查询和修改操作)、数据可视化、分析报告生成和自动化预测等功能。TableGPT 旨在为用户提供方便和可用性,使用户能够轻松地利用表格数据。其核心概念是全局表格表示,它使 LLM 全面了解整个表格,不仅仅是表格的元信息。通过同时训练 LLM 在表格和文本模态中,TableGPT 实现了对表格数据的深刻理解,并通过命令链式操作实现复杂的表格操作。重要的是,TableGPT 的优势在于它是一个自包含的系统,而不是依赖于外部 API 接口。此外,它支持高效的数据处理流程、查询拒绝 (在适当的情况下) 和私有部署,使 domain 数据微调速度更快,并确保数据隐私,从而增强了框架的适用性。
10.Communicative Agents for Software Development
链接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea2a/
ChatPaper综述:本文介绍了一种用于软件开发的通信智能代理。该代理由不同身份的人组成,包括首席执行官、专业程序员、测试工程师和艺术设计师。当人类“客户”向 CHATDEV 公司提出初步任务时 (例如“开发一个围棋游戏”),代理们通过协作聊天进行有效的沟通和相互验证。这个过程能够自动构建包括源代码、环境依赖和用户手册在内的全面软件解决方案。