大语言模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了10篇LLM领域的优秀论文,来自字节跳动、微软、谷歌、斯坦福大学等机构。
为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可复制链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
1.A Survey on Evaluation of Large Language Models
作者:Yupeng Chang,Xu Wang,Jindong Wang,Yuan Wu,Kaijie Zhu,Hao Chen,Linyi Yang,Xiaoyuan Yi,Cunxiang Wang,Yidong Wang,Wei Ye,Yue Zhang,Yi Chang,Philip S. Yu,Qiang Yang,Xing Xie
链接:https://www.aminer.cn/pub/64a78f1fd68f896efa01eae2/
ChatPaper综述:这篇论文主要介绍了大型语言模型 (LLM) 的评估方法,重点关注了三个关键方面:评估什么、评估哪里以及如何评估。论文首先从评估任务的角度进行了全面概述,涵盖了一般自然语言处理任务、推理、医疗应用、伦理、教育、自然和社会科学、代理应用以及其他领域。然后,论文深入探讨了评估方法和基准,这些指标是评估 LLM 性能的关键组成部分。接着,论文总结了在不同任务中 LLM 的成功和失败案例。最后,论文指出了未来 LLM 评估方面的一些挑战,旨在为 LLM 评估研究人员提供有价值的启示,以促进 LLM 的进一步发展。
2.LONGNET: Scaling Transformers to 1,000,000,000 Tokens
作者:Jiayu Ding,Shuming Ma,Li Dong,Xingxing Zhang,Shaohan Huang,Wenhui Wang,Furu Wei
链接:https://www.aminer.cn/pub/64a625ccbb296d05669f582e/
ChatPaper综述:这篇论文介绍了一种名为 LONGNET 的 Transformer 变体,能够处理超过 10 亿个 token 的序列,而不会牺牲对更短序列的性能。具体来说,LONGNET 采用了扩展注意力机制,其注意力范围随着距离的增大而指数级扩展。LONGNET 的优点是具有线性计算复杂度和对 token 之间的依赖性,同时可以用于分布式训练极端长的序列。此外,其扩展注意力是标准注意力的替代品,可以无缝集成到现有的 Transformer 优化中。实验结果表明,LONGNET 在长序列建模和通用语言任务方面都表现出色。
3.What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
作者:Yan Zeng,Hanbo Zhang,Jiani Zheng,Jiangnan Xia,Guoqiang Wei,Yang Wei,Yuchen Zhang,Tao Kong
链接:https://www.aminer.cn/pub/64a63bddd68f896efaec67ce/
ChatPaper综述:这篇论文探讨了训练多模态输入的 GPT4 风格语言模型的重要性。近年来,大型语言模型 (如 GPT4) 在给定图像的情况下表现出出色的多模态能力。然而,这些模型的性能在很大程度上取决于设计选择,如网络结构、训练数据和训练策略,而这些选择在历史上并没有被广泛讨论,这使得这个领域的进展难以量化。为了解决这个问题,这篇论文进行了全面系统和全面的研究和测试,量化和定性地研究了这些模型的训练。实现了超过 20 个变体,在控制条件下进行比较。具体来说,对网络结构进行比较,比较不同的 GPT4 模型 backbone 和设计。对训练数据进行分析,探究数据和采样策略的影响。对训练模型的指令进行调查,探索不同提示对训练模型的指令跟随能力的影响。最后,通过 Crowd-sourcing 贡献了第一个所知的包括图像和视频任务的全面评估集,为评估多模态理解能力提供了基准。基于研究结果提出了 Lynx,一个在多模态生成能力方面表现最好的 GPT4 风格模型。
4.Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning
作者:Deepanway Ghosal,Yew Ken Chia,Navonil Majumder,Soujanya Poria
链接:https://www.aminer.cn/pub/64a63bddd68f896efaec660a/
ChatPaper综述:这篇论文研究了如何使用 FLAN 数据集来优化 VICUNA 语言模型的问题解决能力。VICUNA 是一个基于 LLAMA 架构的大型语言模型,已经在 ChatGPT 对话中进行了微调。论文重点研究了第三个关键因素 - 指令数据集的影响,并通过使用 FLANMINI 收集的自定义指令数据集来微调 VICUNA。实验结果表明,通过在 FLAN 数据集上微调 VICUNA,可以获得增强的问题解决能力,并在 INSTRUCTEVAL 基准数据集上取得了显著的改善。
5.MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
作者:Chaoyou Fu,Peixian Chen,Yunhang Shen,Yulei Qin,Mengdan Zhang,Xu Lin,Zhenyu Qiu,Wei Lin,Jinrui Yang,Xiawu Zheng,Ke Li,Xing Sun,Rongrong Ji
链接:https://www.aminer.cn/pub/64990ccbd68f896efaf8480a/
ChatPaper综述:这篇论文介绍了一种名为 MME 的多模态大型语言模型评估基准,该基准用于全面评估多模态大型语言模型的性能。该基准包括 14 个子任务,涵盖了感知和认知能力的方方面面。为了避免数据泄漏,所有指令答案对的注释都是手动设计的。简洁的指令设计使能够公平地比较 MLLMs,而不需要费力地进行提示工程。此外,这样的指令设计可以更轻松地进行定量统计。通过对 10 个先进的 MLLMs 进行了全面评估,结果表明现有的 MLLMs 仍然有很大的改进空间,同时也揭示了后续模型优化的潜在方向。
6.JourneyDB: A Benchmark for Generative Image Understanding
作者:Junting Pan,Keqiang Sun,Yuying Ge,Hao Li,Haodong Duan,Xiaoshi Wu,Renrui Zhang,Aojun Zhou,Zipeng Qin,Yi Wang,Jifeng Dai,Yu Qiao,Hongsheng Li
链接:https://www.aminer.cn/pub/64a39885d68f896efa31e206/
ChatPaper综述:这篇论文介绍了一个名为 JourneyDB 的大规模基准 dataset,用于生成图像的多模态视觉理解。该 dataset 包含 4000 万种具有文本提示的图像,提示用于生成这些图像。为了评估生成图像的理解能力,该 dataset 提供了四个基准测试,包括提示逆转换,风格检索,图像描述和视觉问题回答。还评估了当前最先进的多模态模型在 JourneyDB 上的性能,并进行深入分析,以了解它们在生成内容理解方面的强项和限制。希望提出的 dataset 和基准测试将促进生成内容理解的研究和探索。
7.Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors
作者:Tung Phung,Victor-Alexandru Pădurean,José Cambronero,Sumit Gulwani,Tobias Kohn,Rupak Majumdar,Adish Singla,Gustavo Soares
链接:https://www.aminer.cn/pub/649e52c5d68f896efae488e3/
ChatPaper综述:这篇论文研究了生成人工智能在编程教育中的应用,比较了 ChatGPT、GPT-4 和人类教师在不同编程教育场景中的表现。结果表明,GPT-4 在大多数场景中都远远优于 ChatGPT,并且几乎与人类教师的表现相同。同时,研究还指出 GPT-4 在个别场景中仍然存在困难,为开发更好的生成人工智能模型提供了激动人心的未来方向。
8.Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language
作者:William Berrios,Gautam Mittal,Tristan Thrush,Douwe Kiela,Amanpreet Singh
链接:https://www.aminer.cn/pub/649d037dd68f896efa456882/
ChatPaper综述:论文提出了一种名为 LENS 的模块化方法,用于利用大型语言模型的力量来解决计算机视觉问题。该方法使用语言模型对一组独立的、高度描述的图像处理模块的输出进行推理,以提供对图像的详尽信息。论文评估了该方法在纯计算机视觉场景中,如零和少数样本物体识别,以及视觉和语言问题中的表现。结果表明,使用 LENS 的系统可以与更大的、更复杂的系统相媲美,而不需要任何多模态训练。论文还开源了代码,并提供了一个交互式演示。
9.Are aligned neural networks adversarially aligned?
作者:Nicholas Carlini,Milad Nasr,Christopher A. Choquette-Choo,Matthew Jagielski,Irena Gao,Anas Awadalla,Pang Wei Koh,Daphne Ippolito,Katherine Lee,Florian Tramer,Ludwig Schmidt
链接:https://www.aminer.cn/pub/649bb0eed68f896efa4ddd75/
ChatPaper综述:这篇论文研究了具有良好意图的神经网络是否会受到恶意攻击的影响。现在,大型语言模型被优化以响应用户的问题,并尽可能提供帮助,但不会回答可能造成伤害的请求。但是,恶意用户可以构造输入,绕过这种 Alignment。在这篇论文中研究了这些模型在与恶意用户交互时是否仍然保持 Alignment,发现现有的 NLP-based 优化攻击不够强大,无法可靠地攻击已优化的文本模型。即使当前的 NLP-based 攻击失败,也可以使用暴力攻击找到对抗性输入。因此,当前攻击的失败不应被视为证明已优化的文本模型在对抗性输入下仍然保持 Alignment 的证据。然而,近年来大规模机器学习模型的趋势是使用多模态模型,允许用户上传图像,这些图像影响生成的文本。研究表明这些模型可以被轻易地攻击,即通过对抗性图像输入,使其执行任意非 aligned 行为,猜测改进的 NLP 攻击也可能表现出这种级别的对抗性控制,特别是对于只使用文本的模型。
10.Generate Anything Anywhere in Any Scene
作者:Yuheng Li,Haotian Liu,Yangming Wen,Yong Jae Lee
链接:https://www.aminer.cn/pub/649e52c5d68f896efae488e1/
ChatPaper综述:这篇论文介绍了一种能够生成任意场景、任意地点和任意物体的文本到图像扩散模型。然而,该领域仍然存在一些挑战,例如创建可控制的个人化对象生成模型。为了解决这些挑战,该论文提出了一种简单而高效的数据增强训练策略,该策略指导扩散模型专注于对象身份。通过插入预训练的可控制扩散模型中的可插拔适配层,该模型获得了控制每个生成个人化对象的位置和大小的能力。在推理期间,该论文提出了一种区域指导采样技术,以保持生成图像的质量和精度。该方法在个人化对象方面实现了与性能卓越的模型相当的精度,从而生成了可靠、灵活和可控制的文本到图像扩散模型,可以用于各种应用,例如艺术、娱乐和广告设计。