简单讲一下PaLM 2吧。
1.PaLM->PaLM 2
首先先说说PaLM,PaLM的参数量是5400亿,比1750亿的GPT-3要大,架构也是decoder-only,没有开源。
PaLM至今仍然是transformer架构模型中最大的一类,毕竟是采用了一些技巧来接近硬件极限的一个模型。再大就要MoE出手了,然而MoE是稀疏的,实际运行参数并不多,而且相关开发工具少(所以很多开源大模型不用MoE)
然而这篇论文真的是跟OpenAI学坏了,就是模型名+技术报告,虽然也不是一点技术细节没提吧,但整体就是一个性能评估报告。
2.PaLM 2的相关信息
单纯列举几点吧,主要是单纯技术报告真的没什么好看的(而且实际内容不多,大部分都是附录和参考文献)
(1)PaLM 2是一个模型族,最大的PaLM 2-L也比540B的PaLM要小。理所当然运算就快
(2)之所以不做更大是有原因的。之前就有一些研究表明很多大语言模型没有得到充分的训练,或者说,数据量跟不上模型参数量的变化。因为更早之前一些研究表明数据增长比模型规模增长慢是更好的,然而新研究推翻了这一结论,谷歌研究表明确实两者应该1:1扩大。
(3)也就是说,PaLM 2的数据集比PaLM大得多。并且,PaLM 2的数据集包含了更多的语言和更少的英语占比,还开发了混合语言训练等方式使得模型跨语言能力更强
(4)如果说OpenAI很关心模型对话的流畅程度(ChatGPT的核心技术RLHF目的是与人类对齐,然对齐是有代价的,OpenAI称之为对齐税),谷歌还是LamDA开始的一贯作风——死磕模型安全性与准确性。对于毒性内容,PaLM 2有5步骤的检测流程,依然丧心病狂
(5)接下来就是人民群众喜闻乐见的模型PK了,PaLM 2在推理等方面相比PaLM有了长足的进步,也在很多单项上打败了GPT-4。不过实际体验如何还是要实践检验。据说Bard底层已经是PaLM 2了,有些人使用后说比GPT-4还是有些差距。
花师小哲-中二 2023-01-12
花师小哲-中二 2023-10-08
花师小哲-中二 2023-03-20
花师小哲-中二 2023-03-26
花师小哲-中二 2023-03-10