大模型论文周报丨来自谷歌、微软、OpenAI、Hugging Face、清华大学等机构前沿科研动态

作者：AMiner科技发布时间：2023-06-05

大模型又可以称为Foundation Model模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文，分别来自Open AI、伯克利、腾讯、中科院自动化所、微软等机构。

为了方便大家阅读，只列出了论文标题、作者、AI华同学综述等信息，如果感兴趣可点击论文链接查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1.Let’s Verify Step by Step

作者：Hunter Lightma,Vineet Kosaraj,Yura Burda,Harri Edwards,Bowen Baker ,Teddy Lee,Jan Leike,John Schulman ,Ilya Sutskever

链接：https://www.aminer.cn/pub/64781108b650407c48cfd9ba/

ChatPaper综述（大模型驱动）：本文研究了学习有效的大规模语言模型在处理复杂多步推理方面的重要性。我们发现过程监督对于训练模型解决难题具有重要影响。此外,我们还证明了激活学习可以显著提高过程监督的有效性。为了支持相关研究,我们还发布了PRM800K,这是用于培训最佳奖励模型的完整数据集。

2. GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

作者：Rui Yang,Lin Song,Yanwei Li,Sijie Zhao,Yixiao Ge,Xiu Li,Ying Shan

链接：https://www.aminer.cn/pub/6476d21ad68f896efaf72d88/

ChatPaper综述（大模型驱动）：本文旨在有效地实现大规模语言模型(LLM)使用多模式工具。ChatGPT和GPT 4等先进的私人工具表明了工具的使用潜力。然而,这些模型通常依赖于极其昂贵的计算成本和公开可用的数据。为了克服这些挑战,我们提出了一个基于自指导的GPT4工具,以便允许开放源LLM使用工具。该方法通过引入各种多模式上下文来生成指令,从而有助于解决视觉问题,包括视觉理解和图像生成。实验证明了该方法在不同语言模型上的表现,不仅可以显著提高被捕捉到的工具的准确性,而且可以实现未被捕捉到的工具的零射击能力。

3. Controllable Text-to-Image Generation with GPT-4

作者：Tianjun Zhang,Yi Zhang,Vibhav Vineet,Neel Joshi,Xin Wang

链接：https://www.aminer.cn/pub/6476d21ad68f896efaf72cd8/

ChatPaper综述（大模型驱动）：本文介绍了控制GPT,以引导基于传播的文本到图像管道,通过编码GPT 4生成的程序化模糊图像来提高它们的指令执行能力。控制GPT通过查询GPT 4编码 TikZ代码,生成模糊图像作为扩展模型的参考,并使用这些模糊图像作为扩展模型的文本指南。该研究的一个主要挑战是缺乏一个包含对齐的文本、图像和模糊图像的数据集。我们通过将现有数据集转换为三角形以模仿测试期间使用的模糊图像,解决了这一问题。因此,控制GPT在图像生成方面显著提高了控制性。

4. BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

作者：Wen Yang,Chong Li,Jiajun Zhang,Chengqing Zong

链接：https://www.aminer.cn/pub/647572e0d68f896efa7b78dd/

ChatPaper综述（大模型驱动）：本文介绍了一个名为BigTrans的大型语言模型,它扩展了Lama 13B,并在100多个语言上实现了多语翻译能力。该模型通过对数线性数据集进行优化,将Lama 13B转化为一个大规模并行数据集,涵盖102个自然语言。实验结果表明,BigTrans在许多语言上表现出优异的翻译性能,即使是在8种语言中的表现也优于ChatGPT和谷歌翻译。我们发布了BigTrans模型,并希望其能够提高研究进展。

5. Do GPTs Produce Less Literal Translations?

作者：Vikas Raunak,Arul Menezes,Matt Post,Hany Hassan Awadallah

链接：https://www.aminer.cn/pub/64741c33d68f896efaa7b66b/

ChatPaper综述（大模型驱动）：本文研究了大规模语言模型(LLM)的机器翻译任务,通过使用词对齐和冗余性度量,比较了两种系统生成的英语(E X)翻译,这些翻译在机器翻译质量指标上表现出相似或优于机器翻译质量指标。作者还证明了这一发现在人类评估中也更为明显。文章结果表明,在翻译含有俚语表达的句子时,这些差异尤其明显。

6. Voyager: An Open-Ended Embodied Agent with Large Language Models

作者：Guanzhi Wang,Yuqi Xie,Yunfan Jiang,Ajay Mandlekar,Chaowei Xiao,Yuke Zhu,Linxi Fan,Anima Anandkumar

链接：https://www.aminer.cn/pub/64702deed68f896efa5202ea/

ChatPaper综述（大模型驱动）：这篇论文介绍了一个名为 VOYAGER 的在 Minecraft 中 LLM 驱动的实体终身学习代理。它由三个关键组件组成:1) 自动课程，最大化探索;2) 可执行代码的技能库，用于存储和检索复杂行为;3) 新的迭代提示机制，将环境反馈、执行错误和自我验证融入程序改进中。VOYAGER 与 GPT-4 通过黑盒查询交互，避免了模型参数微调的需要。VOYAGER 的技能是时间延长、可解释和可组合的，这促进了它的能力迅速提升，并缓解了灾难性遗忘的问题。实证结果表明，VOYAGER 在 Minecraft 中表现出极强的终身学习能力，并在完成新任务方面表现出优异的能力，而其他技术则难以泛化。此外，这篇论文还介绍了使用代码作为行动空间的原因，以及使用 GPT-4 生成新技能的方法。

7. HuatuoGPT, towards Taming Language Model to Be a Doctor

作者：Hongbo Zhang,Junying Chen,Feng Jiang,Fei Yu,Zhihong Chen,Jianquan Li,Guiming Chen,Xiangbo Wu,Zhiyi Zhang,Qingying Xiao,Xiang Wan,Benyou Wang,Haizhou Li

链接：https://www.aminer.cn/pub/646edca5d68f896efaddaf7f/

ChatPaper综述（大模型驱动）：本文介绍了 HuatuoGPT,一个大型语言模型(LLM),用于医疗咨询。其基本配方是利用ChatGPT和医生的真实世界数据在监督精细编码阶段充分利用。研究表明,与生成数据相结合的语言模型可以改善ChatGPT的执行能力,从而提高准确性。为了评估和比较这些模型,我们提出了一个全面的评估方案(包括自动和手动指标)。实验结果表明, HuatuoGPT在GPT 4评估、人类评估和医学基准数据集上表现出优异的性能。

8. GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking

作者：Jiayan Guo,Lun Du,Hengyu Liu

链接：https://www.aminer.cn/pub/646edca5d68f896efaddaf75/

ChatPaper综述（大模型驱动）：本文研究了大规模语言模型在图理解方面的表现,采用多种结构和语义相关的任务。通过对10个不同的任务进行广泛的分析,揭示了语言模型在理解图结构和执行相关推理任务方面的当前局限性,同时也强调了进一步创新和新的方法提高其图处理能力的重要性。这些发现为打破语言模型和图理解之间的界限提供了宝贵的洞察力,并为更多有效的图挖掘和知识提取铺平了道路。

9. QLoRA: Efficient Finetuning of Quantized LLMs

作者：Tim Dettmers,Artidoro Pagnoni,Ari Holtzman,Luke Zettlemoyer

链接：https://www.aminer.cn/pub/646d8643d68f896efa0a326e/

ChatPaper综述（大模型驱动）：本文介绍了QLoRA,一种有效的校正方法,可以显著降低内存使用量,同时保持完整的16bit校正任务性能。QLoRA通过一个冷冻、4 bit量化预训练语言模型转换为LoRA,我们最好的模型家族超过了所有以前公开发布的模型,在维尤纳基准测试中达到99.3%的ChatGPT性能水平。QLoRA引入了许多创新,以节省不降低性能,包括(a)4 bit NormalFloat(NF4),一种新的数据类型,用于通常分布权重的信息,(b)双重量化来减少平均内存足迹,以及(c)页面优化器来管理内存 spike。

10. Evidence of Meaning in Language Models Trained on Programs

作者：Charles Jin,Martin Rinard

链接：https://www.aminer.cn/pub/6466fafbd68f896efaeb77ac/

ChatPaper综述（大模型驱动）：本文提出了证据,表明语言模型可以学习意义,尽管只是在文本语料库上进行下一个标记预测。每个程序都会以(文本)输入输出示例为先验,因此我们能够准确定义语言模型的含义(例如,正当性和语义),使程序合成充分适用于识别语言模型中的含义(例如,正当性和语义)。作者训练了一个Transformer模型,然后测试了培训模型的隐藏状态,当该模型完成指定的要求时,检测器能够从模型状态中提取当前和未来程序状态的抽象。