当前位置:首页|资讯|谷歌|ChatGPT

谷歌Gemma开源了

作者:程序猿小三发布时间:2024-02-23

1、Gemma的表现

自从大模型横空出世之后,大部分大模型都是闭源的,只有少部分模型选择开源。谷歌推出了全新的开源模型系列Gemma,相比谷歌之前的 Gemini模型,Gemma 更加轻量,可以免费使用,模型权重也一并开源了,且允许商用。之前闭源Gemini模型效果还是不如ChatGPT,想利用开源方式迎头赶上。


Gemma也第一时间冲上开源LLM的榜首:


虽然Gemma较轻量,《 Gemma: Open Models Based on Gemini Research and Technology 》论文中提到在QA/推理/数学/编码4个领域已经超越了 Llama-2 7B 和 Mistral 7B。同时与LLaMA2(13B)很接近。


2、Gemma 技术细节

2.1 Gemma模型架构

Gemma 模型架构基于 Transformer 解码器, 与chatgpt等LLM架构差不多。当然也做了一些优化:

(1)多查询注意力:7B 模型使用多头注意力,而 2B 检查点使用多查询注意力;

(2)RoPE 嵌入:Gemma 在每一层中使用旋转位置嵌入,而不是使用绝对位置嵌入;此外,Gemma 还在输入和输出之间共享嵌入,以减少模型大小

(3)GeGLU 激活:标准 ReLU 非线性被 GeGLU 激活函数取代;

(4)Normalizer Location:Gemma 对每个 transformer 子层的输入和输出进行归一化,这与仅对其中一个或另一个进行归一化的标准做法有所不同,RMSNorm 作为归一化层。


2.2 Gemma训练方式:

采用类似ppo微调步骤进行训练:

(1)预训练(pretraining):分别在来自网络文档、数学和代码数据上进行训练。

(2)监督微调(Supervised Finetuning):根据基于 LM 的并行评估结果来选择自己的混合数据,以进行监督微调。

(3)人类反馈强化学习(RLHF):使用 RLHF 对监督微调模型进一步微调,不仅从人类评分者那里收集了偏好对,还在 Bradley-Terry 模型下训练了奖励函数。

更多细节见《Gemma: Open Models Based on Gemini Research and Technology 》

3.谷歌为何开源

很显然,谷歌急了,在LLM领域上,互联网巨头谷歌一直在追赶,从未领先。谷歌自从AlphaGo之后,就再也没重回AI巅峰,它急需一个模型宣布自己“王者归来”:

(1)之前发布的Gemini, 与OpenAI相比未见优势。

(2)Meta采用开源方式,已经吸引很多开发者参与进来, 谷歌希望借Gemma 的开源,谷歌能够吸引更多的人使用自己的 AI 模型,而不是直接投奔 Meta、Mistral 这样的竞争对手。

(3)谷歌没有预告的开源,从这次谷歌发布的时间和形式来看(有消息声称LLama近期也要发布新版)。谷歌真的急了。

毕竟闭源有OpenAI,开源有Meta、Mistral,谷歌真的不容易。不过这样百家争鸣的形势,会加快LLM领域的快速发展。期待他们下一次华山论剑。


参考文章:

(1)https://www.toutiao.com/article/7338237867640013347/?app=news_article

(2)https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1