当前位置:首页|资讯|ChatGPT|微软|谷歌|OpenAI|AI聊天机器人

ChatGPT战火越烧越猛!Meta公布最新开源大语言模型LLaMA,官方称效果优于GPT-3

作者:BFT白芙堂机器人发布时间:2023-03-02

原创 | 文BFT机器人


ChatGPT的横空出世打开了硅谷科技新局面:微软趁热打铁步步为营,先是将ChatGPT接入了Bing给热度再添一把火,接着又宣布将ChatGPT植入机器人进行了实验,现阶段看可以说是一路领跑。


在AI战火的步步紧逼下,压力一下来到其他大厂身上,谷歌前脚紧急发布AI聊天机器人Bard,后脚其他大厂的布局也在火速铺开。据国外媒体最新报道,马斯克决定成立专属的AI聊天机器人研究实验室,正式对标OpenAI和ChatGPT,入局生成式AI领域


而在硅谷这场AI大战中“掉队”的Mata,这次也终于放出有了新动作!


01


Meta放开源“大招”

不鸣则已,一鸣惊人


近日,Meta公开发布了一款全新的大型语言模型LLaMA(开放和高效的基础语言模型),共有7B、13B、33B、65B四种版本,重要的是上述所有版本均已开源!相关论文《LLaMA: Open and Efficient Foundation Language Models》已发表在Meta官方。


源码:

https://github.com/facebookresearch/llama


论文地址:

https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf Meta AI


公布短短3日,相关推文的阅读量已近300万,目前热度还在持续走高。



而作为Facebook的首席人工智能科学家,杨立昆(Yann LeCun)这次也难掩激动之情,在推特上公开夸赞了自家模型。


02


LLaMA翻身成功

测试结果优于GPT-3


LLaMA采用的模型架构?


在架构选型上与 GPT 系列类似,LLaMA 也是一个建立在 Transformer 基础架构上的自回归语言模型(Autoregression Language Model),并做出了部分改进:


  • lPre-normalization VS GPT3


为了提高训练的稳定性,我们对每个变换子层的输入进行规范化,而不是对输出进行规范化。并使用Zhang和Sennrich(2019)介绍的RMSNorm归一化函数。


  • lSwiGLU activation function VS PaLM


采用SwiGLU激活函数取代由Shazeer(2020)介绍的ReLU非线性方法,以提高性能。此外,在维度上使用的维度是2/3*4d,而不是PaLM中的4d。


  • lRotary Embeddings VS GPTNeo


在位置编码上,删除了绝对位置嵌入,而在网络的每一层增加了Su等人(2021)介绍的旋转位置嵌入(RoPE)。


LLaMA的工作原理是什么?


与其他通用大型语言模型一样,LLaMA 的工作原理是输入将一系列单词作为输入并预测下一个单词以递归生成文本。


LLaMA为什么要设置不同大小的版本?


LLaMA模型的参数


近来的研究表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由基于更多数据训练的更小的模型实现的。换句话说,较小的模型规模加上比较大的数据集,获得的性能可能会比更大规模模型的要好很多。


LLaMA为什么要开源?


开源对于LLaMA模型自身而言也有很大的好处,开源后会有更多的业界人员参与研究,或许能够帮助LLaMA解决自身的偏见性、虚假内容等问题,实现更好的优化。


LLaMA训练结果如何?


值得一提的是,其中LLaMA-13B在大多数基准测试中其结果都明显优于GPT-3(175B),而LLaMA-65B 则能够与最佳模型 Chinchilla70B 和 PaLM-540B 竞争,这样是否意味着小模型参数使用大规模数据集也是一条可以研究的方向。


03


蛰伏已久

终于成功迎战


Meta早在2013年就将成为人工智能领域的先行者作为奋斗使命,并在近十年内斥资数十亿美元打造新型人工智能,可以说Meta在AI领域可谓下了“血本”。


此次也并非Meta第一次发布开源模型。早在去年六月,Meta就开源过一个大型语言模型OPT-668,并赶在ChatGPT之前就已发布了基于OPT模型的聊天机器人BlenderBot3。但这款聊天机器人比起ChatGPT的火爆截然不同,不仅回答的问题出现大量错误,还会回复负面言论及错误信息,并没有在行业内激起太多波澜。




接着,去年11月Meta AI联合 Papers with Code发布了另一款大型语言模型联合 Galactica,旨在运用机器学习来“梳理科学信息”。



但试用版上线后,却出现了大量错误信息,并遭到了很多学者的异议。例如AI 学者、Robust.AI创始人Gary Marcus就对Galactica模型表达了强烈的质疑:“大型语言模型(LLM)混淆数学和科学知识有点可怕。高中生可能会喜欢它,并用它来愚弄他们的老师。这应该令我们感到担忧。”


这款让LeCun盛赞的训练模型,在上线48小时后以仓皇下架告终。


对于ChatGPT的爆火,Meta先前似乎一直持观望态度,在其他硅谷科技巨头先后斥巨资入局“生成式AI”狂潮时,屡败屡战的Meta似乎追击乏力。


LLaMA的公布,让大家知道Meta并没有放弃他们在AI领域的研究,这次的LLaMA能否在激烈的AI大战中占据一席之地,还是会消失在技术更迭的浪潮中,我们拭目以待。



更多精彩内容请关注公众号:BFT机器人

本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1