最强LLaMA突然来袭！只改一个超参数，实现上下文3.2万token，多个任务打败ChatGPT、Claude 2

作者：量子位发布时间：2023-09-30

明敏丰色发自凹非寺

量子位 | 公众号 QbitAI

悄无声息，羊驼家族“最强版”来了！

与GPT-4持平，上下文长度达3.2万token的LLaMA 2 Long，正式登场。

在性能上全面超越LLaMA 2。

和竞争对手相比，在指令微调MMLU(5-shot)等测试集上，表现超过ChatGPT。

在人类评估（human evaluation）上甚至优于10万token的Claude 2，这个话题还在Reddit上引发了讨论。

要知道，这些对比版本中，LLaMA 2 Long使用的最大版本也只有70B，远小于其他大模型。

这让人不禁感慨：Meta确实还是有两下子的。

也有人觉得，这才是最近Meta发布会的最大新闻啊，比Meta版ChatGPT要更令人兴奋。

论文介绍，LLaMA 2 Long使用了4000亿token语料加持下，并进行位置编码修改。

所以LLaMA 2 Long究竟是如何诞生的？

只对位置编码进行了一个非常小的改动

与LLaMA 2相比，LLaMA 2 Long的变化并不多。

一是训练参数上，采用了高达4000亿token的数据源。

——相反，原始LLaMA 2包含多个变体，但最多的版本也只有700亿。

二是架构上，与LLaMA 2保持不变，但对位置编码进行了一个非常小的必要修改，以此完成高达3.2亿token的上下文窗口支持。

在LLaMA 2中，它的位置编码采用的是旋转编码RoPE方法。

它是目前大模型中应用最广的一种相对位置编码，通过旋转矩阵来实现位置编码的外推。

本质上来说，RoPE就是将表示单词、数字等信息的token embeddings映射到3D图表上，给出它们相对于其他token的位置——即使在旋转时也如此。

这就能够使模型产生准确且有效的响应，并且比其他方法需要的信息更少，因此占用的计算存储也更小。

在此，Meta的研究人员通过对70亿规模的LLaMA 2进行实验，确定了LLaMA 2中的RoPE方法的一个关键限制：

即，阻止注意力模块聚集远处token的信息。

为此，Meta想出了一个非常简单的破解办法：

减少每个维度的旋转角度。

具体而言就是将超参数“基频（base frequency）b”从10000增加到500000。

这一改动立刻奏效，缩小了RoPE对远端token的衰减效应，并且在扩展LLAMA的上下文长度上优于一项类似的名为“位置插值”的方法（如下图所示，RoPE PI，衰减效果较为“隐含”）。

Ps. 图中RoPE表示基线方法，RoPE ABF为Meta此次发明的新方法，xPos是另一种应用了该方法的旋转编码变体。

一个问题是，通过上面这个可视化结果，Meta观察到RoPE在长程区域出现了较大的“振荡”，这对于语言建模来说可能不是个好消息。

不过，通过报告几种方法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个任务上的表现来看，问题不大。

而且，尤其在后者任务上，他们提出的RoPE ABF是唯一一个可以始终保持性能的变体。

在附录中，Meta还通过可视化为螺旋图这一非常有趣的方式，将RoPE ABF与RoPE PI的差异进行了理论分析。

结果是，与RoPE PI相比，RoPE ABF的优势主要体现在它能以更大的粒度分配嵌入向量（the embedded vectors），从而使模型更容易区分位置。

此外，他们还观察到，嵌入向量之间的相对距离既对RoPE PI的关键参数有线性依赖性，也对RoPE ABF的关键参数也有对数依赖性。

这也就是为什么我们可以很容易地对基频这一超参数“下手”。

最终，LLaMA 2 Long凭借着这一改动，达成了3.2万的上下文token，并通过长下文连续预训练的共同作用，获得了开头所示的好成绩：

除了全面超越LLaMA 2、在特定任务上超越Claude 2和ChatGPT，Meta也给出了它和一些开源长下文模型的对比。

结果也相当不赖。

One More Thing

值得一提的是，这个最新的版本，是用LLaMA2生成的文本内容来进行训练的。

官方会不会正式发布这一版本，现在还没有更明确的消息，模型的网址也还没有找到。

不过已经有人提前兴奋起来了：

这对可商用微调大模型来说太有用了！

而在此之前，已经有非官方版本实现了3.2万token上下文，也是开源可商用。

“长颈鹿（Giraffe）”基于13B版本的LLaMA2打造。

研究团队提出了一种称为“截断（truncation）”的方法，对原始RoPE编码进行变换。

llama-2-7b-32k-instruct也可以支持3.2万上下文，模型规模是7B。

论文：

https://arxiv.org/pdf/2309.16039.pdf

参考链接：

[1]https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/

[2]https://twitter.com/_akhaliq/status/1707569241191285207

[3]https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/

[4]https://news.ycombinator.com/item?id=37698604

— 完—

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

建筑装修垃圾碟盘分拣设备-高效环保的建筑垃圾分选生产线

随着城市化的加速发展，建筑行业蓬勃发展的同时，也带来了大量的建筑垃圾。这些废弃物如果处理不当，将对环境造成极大的负担。因此，建筑垃圾的资源化利用和环保处理成为了当下亟需解决的问题。在这一背景下，建筑装修垃圾碟盘分拣设备的出现，为建筑垃圾的处理提供了一个高效、环保的解决方案。 [图片] 建筑装修垃圾碟盘分拣设备是一种专门用于分选建筑垃圾中的有用物质的设备。它通过物理或机械的方式，将建筑垃圾中的金属、塑料、木材、砖石等材料进行有效分离，以便进行后续的资源回收和再利用。这种设备的使用大大提高了建筑垃圾的回收效率

创合垃圾分选设备 2024-12-25

ADC/PROTAC Linker | N3-PEG4-NCO | 赛诺邦格

[图片] 一、基本信息英文名：N3-PEG4-NCO外观：通常为粉末状。溶剂：可溶于DMSO等有机溶剂。二、结构特点N3：表示叠氮基团（-N≡N），具有不稳定性和高度亲电性，可以参与多种化学反应，如重排反应、亲电取代反应、环化反应和氧化反应等。PEG4：代表四个单位的聚乙二醇链（-PEG4-），提供优异的亲水性和生物相容性。聚乙二醇（PEG）是一种常用的高分子材料，广泛应用于生物医学、材料科学等领域。NCO：表示异氰酸酯基团（-NCO），具有活泼的化学性质，可以与多种官能团发生反应，如与

赛诺邦格 2024-12-25

正肽生化 2024-12-25

统一钛合能7系ONE独特的全合成技术和低碳环保理念

在机械运动中，润滑油是不可或缺的辅助材料。它不仅能够减少摩擦和磨损，还能提高机械设备的工作效率，延长使用寿命。润滑油的选择对于确保机械系统的正常运行至关重要。统一钛合能7系ONE全合成低碳润滑油作为一款创新产品，以其独特的性能和环保理念，在众多润滑油品牌中脱颖而出，成为全球格斗竞技ONE赛事的指定推荐产品。统一钛合能7系ONE全合成低碳润滑油凭借先进的全合成技术，为发动机提供卓越的保护。该款润滑油采用了先进的全合成基础油，具备出色的高温稳定性和低温流动性，能够在各种极端条件下保持优良的润滑性能。此外，统

科技新盘点 2024-12-25

1901年诺贝尔生理学或医学奖：免疫学的奠基与现代医学的黎明

1901年是诺贝尔奖首次颁发的一年，这一划时代的事件标志着科学成就获得了更广泛的社会认可与奖励。诺贝尔奖的设立源于瑞典化学家阿尔弗雷德·诺贝尔的遗愿，他希望通过奖励对人类福祉作出重要贡献的个人或团体，激励更多科学研究与创新。在五个最初设立的奖项中，生理学或医学奖距今（2024年）已经颁发过115次，共有229名获奖者。生理学或医学奖的首个得主是德国医生埃米尔·阿道夫·冯·贝林（Emil Adolf von Behring），"以表彰他在血清疗法方面的工作，特别是针对白喉的应用，据此他为医学科学领域开辟了

它们的clover 2024-12-25

建筑垃圾风选分拣设备：装修垃圾处理生产线的创新与实践

在城市化的快速进程中，建筑垃圾的产生量日益增加，其中装修垃圾作为一种特殊的建筑废弃物，其处理问题尤为突出。装修垃圾不仅包括了废弃的建筑材料，如砖瓦、混凝土、木材和金属等，还夹杂着大量难以分解的有机物质和有害物质。这些垃圾如果得不到妥善处理，将对环境造成严重污染，同时也浪费了大量的可再利用资源。因此，开发高效的装修垃圾处理技术，实现垃圾的资源化利用，已成为当前环保领域的重要课题。 [图片] 建筑垃圾风选分拣设备作为装修垃圾处理生产线的核心组成部分，其作用不可小觑。这种设备采用先进的物理分选技术，通过风力将轻

创合垃圾分选设备 2024-12-24

最强LLaMA突然来袭！只改一个超参数，实现上下文3.2万token，多个任务打败ChatGPT、Claude 2

推荐体验

相关资讯