当前位置:首页|资讯|GPT-4|阿里巴巴|英伟达

Meta:一个「搅浑」大模型市场的选手

作者:机器之能发布时间:2023-07-22

原标题:Meta:一个「搅浑」大模型市场的选手

机器之心PRO · 会员通讯 Week 29

---- 本周为您解读 个值得细品的 AI 业内要事 ----

1. Meta:一个「搅浑」大模型市场的选手 Meta 本次开源了什么?Llama 2、PaLM 2、GPT-4 等模型对比,谁赢了?「牵手」微软 Azure、亚马逊云科技、高通,Llama2 正在进行哪些 「合纵连横」?…

2. 前阿里巴巴 VP 贾扬清解密新公司业务新公司 Lepton AI 是做什么的?Lepton AI 所在赛道目前情况如何?赛道主要选手背后的资方实力如何?分别都在做什么?贾扬清什么来头?Lepton 项目的合作者都是谁?背景如何?...

3. 工信部提出算力基础设施工作重点...工信部近期还透露了哪些重点方向?

4. 谷 歌对话机器人 Bard 能力升级 Bard 的发展历程「全回顾」、除了 Bard,谷歌家还有哪些你不知道的 LLM?...

5 . 6 月版本的 GPT-4 能力退化实锤「测评原文」都讲了什么?GPT-4 能力退化真的有这么夸张吗?还是检测的方式有问题?...

6 . Transformer 或将被取代? RetNet 凭什么有机会替代 Transformer?RetNet 如何打破「不可能三角」?Transformer 的「江湖地位」如何?OpenAI 为何选择 Transformer?RetNet 之前,还有哪些工作试图挑战 Transformer?...

7 . 百度 AI 社交出海产品 SynClub 上线 「SynClub」是做什么的?百度为什么选择出海?在海外都推出了哪些产品?AI 社交赛道还有哪些产品?...

8. OpenAI 千万美金支持记者使用 AI是资源置换还是数据付费?OpenAI 还拉拢了哪些媒体机构?创作者与 AI 公司的版权争议怎么看?...

9. 我国公布首个生成式 AI 监管办法...该办法何时施行?专业人士如何解读该监管文件?...

10. 中国常驻代表于联合国安理会提出人工智能治理五原则 ...近期,在国际层面还有哪些 AI 治理、AI 监管相关倡议?...

11. 传国产 GPU 公司壁仞科技今年欲上市港股 非英伟达不可吗?全面盘点英伟达 GPU 产品替代厂商、方案...

12. 传英伟达和英特尔将参与 Arm IPO Arm 冲击 IPO,在上市前有哪些动作?面对 AI 新趋势,Arm 在生成式 AI 方面又有哪些动作?...

13. 传 Character.AI 正进行新一轮融资谈判 ...Character.AI 之前融了多少钱?近期在商业化方面有何新动作?...

14. 传苹果将于明年推出自研 GPT 产品 ...

本期通讯总计 24186 字,可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①Meta:一个「搅浑」大模型市场的选手

日期:7 月 19 日

事件:Meta 发布开源、免费、可商用版本的新一代大语言模型 Llama 2。同时,Llama 2 模型将在微软 Azure、亚马逊云上线,高通也将支持 Llama 2 模型在终端侧的部署。

Meta 本次开源了什么?

1、 一直以来 Llama 可以说是 AI 社区内最强大的开源大模型,但因为开源协议问题,一直不可免费商用。

2、对于开源社区来说,这个大模型就是「全村的希望」。它的出现将进一步缩小开源大模型与闭源大模型的差距,让所有人都有机会基于它构建自己的大模型应用。

3、Meta 本次发布的 Llama 2 模型在此前 LLama 1 限制性面向研究团队开源的基础上,允许免费研究或商用。

4、在附加商业条款中提到,日活大于 7 亿的产品需要单独申请商用权限。

5、本次Meta 开源Llama 2 基础、对话共2款模型, 包含 70 亿(7B)、130 亿(13B)和 700 亿(70B)参数,6个模型版本。

模型 说明 开源版本
Llama 2 Llama 2 是 Llama 1 的升级版本。

Llama-2-7b、Llama-2-13b、Llama-2-70b

Llama 2-Chat Llama 2 的对话调优版本。

Llama-2-7b-chat、Llama-2-13b-chat、Llama-2-70b-chat

项目地址:https://github.com/facebookresearch/llama

论文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

对比上一代,LlaMa 2 强在哪?

1、模型尺寸 up:对比上一代 LlaMa 有四个不同尺寸,LlaMa 2 含 70 亿、130 亿和 700 亿四种参数变体版本。

2、更多训练数据:对比上一代最多采用 1.4 万亿 token,LlaMa 2 的训练数据达 2 万亿,增加了 40%。

3、上下文窗口(context window)翻倍:LlaMa 2 的上下文窗口支持 4096 个 tokens,对比上一代(2048)实现翻倍,同时采用了分组查询注意力机制。

4、对话精调:在 LlaMa 2 的三个参数版本之上,Meta 推出了对话精调版模型 Llama 2-Chat,其在单轮和多轮提示方面均显著优于开源模型。

5、允许免费商用:对比一代羊驼仅授权与学术界的部分研究者,LlaMa 2 是免费可商用版本。此外,根据附加商业条款,日活大于 7 亿的产品需要单独申请商用权限。

6、与闭源模型差距缩小:根据测评结果,Llama 2 模型在推理、编码、精通性和知识测试等外部基准测试中的性能表现优于上一代 LlaMa,也优于其他开源语言模型。

模型

LLama

Llama 2

PaLM 2

GPT-4

架构

采用Transformer 架构,使用了预归一化和SwiGLU激活函数;增加了旋转嵌入 [GPTNeo]

Llama 2采用标准的Transformer架构,使用了预归一化和SwiGLU激活函数。

基于Pathways的Transformer

Transformer

参数量

70亿、130亿、330亿、650亿

70亿、130亿、340亿(未发布)、700亿

未透露具体参数

GPT-4包含了Ada、B-FPE、PM-FPE 3个系列的模型:1、Ada系列参数量从7亿到2000亿不等。2、B-FPE系列参数量从100亿到1300亿不等。3、PM-FPE系列参数量从20亿到 540亿不等

训练数据

1.4 万亿个 token

2万亿个token

在100多种语言的大规模语料库上进行训练

总计训练数据达到1.3万亿 token 量级

能力测评

LLaMA-13B 的性能在大多数基准上优于 GPT3-175B ; LLaMA-65B性能可与Chinchilla-70B和PaLM-540B竞争。

Llama 2的各个模型在多项学术基准测试上均优于Llama 1和其他开源模型, 与 GPT-4

和PaLM-2-L的性能仍存在较大差距。

在常识推理、数学和编程语言方面优于GPT-3和GPT-4

在多项技术基准测试中,GPT-4的表现优于GPT-3;GPT-4的表现与人类水平非常接近。

Meta为什么要开源 Llama 2?

1、近几个月来,Meta 推出的 LLama 系列、Databricks 推出的 Dolly 2.0 等开源大模型都在冲击着采取闭源方式的 OpenAI 的 GPT-4 和谷歌 PaLM。

2、业内普遍认为,开源厂商目标在于打造大模型时代的「新 Linux」。

3、Meta 在其官网文章中表示,「我们相信,开源的方法是当今人工智能模型发展的正确途径,尤其是在技术进步日新月异的生成式领域。」Llama 2 的免费开源或将会对大模型市场格局产生极大影响。

Llama 2 模型的推出,会对大模型市场格局产生哪些影响?

1、挑战闭源公司的 API 收费模式

OpenAI 等闭源公司的主要收入来自 API 许可费,其中包括让其他商业公司使用 GPT-3 等模型,并根据使用量收取费用。然而,Llama 2 的免费开源可能会挑战这种收入模式,影响 OpenAI 等公司的利益。据报道,70%的美国小型企业已经在使用 ChatGPT,65%的美国红杉资本投资的创业公司和上市公司也正在使用大模型应用。[1]

2、对国内大模型公司商业授权模式产生冲击

一些国内公司通过开源大模型并提供商业授权作为竞争优势。随着 Llama 2 允许免费商用,这些公司的优势将受到挑战。

3、引发更多 下游行业尝试基于 大模型技术路线开发AI 应用

① 打破预训练过程的算力门槛


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1