北京时间7月23日晚,Meta发布最新开源模型Llama 3.1,拥有8B(80亿)、70B(700亿)和405B(4050亿)三个参数版本。Meta宣称Llama 3.1 405B可媲美OpenAI和Anthropic旗下最好的闭源模型。
据官方披露,Meta使用了15万亿个Token(字符)的数据,以及1.6万块英伟达H100 GPU来训练Llama 3.1 405B。外界据此估计训练成本高达数亿美元。
Llama 3.1 405B的上下文长度扩展至128K,大致是一本50页书的长度。上下文长度即模型一次能够处理的最大Token数量,长度越大,大模型具备更强的处理复杂对话能力。
Meta介绍,Llama 3.1 405B可用于长文本摘要、多语言会话和编程助手,支持英语、德语、法语等八种语言,不包括中文。此外,Llama 3.1 405B目前仅支持文本操作,Meta发布的一篇论文透露正在开发图像、视频、语音等多模态能力,但尚未准备好发布。
Meta称,实验评估表明,和GPT-4、GPT-4o和Claude 3.5 Sonnet等头部闭源模型比较而言,Llama 3.1 405B在一系列任务上具有竞争力。具体来说,Llama 3.1 405B在多语言、长文本、数学推理等能力上表现较优,而在编程等性能上和顶尖水平有一定差距。
模型能力测试对比。来源:Meta官网
从本周开始,美国用户可通过WhatsApp和meta.ai官网访问体验Llama 3.1 405B,随后该模型将部署到Instagram和Facebook等其他Meta旗下产品。开发者还可以从AWS(亚马逊云)、微软Azure和谷歌云等托管云平台下载使用。
作为开源模型阵营的支持者,Meta CEO扎克伯格发文表示,企业利用开源模型,可以使用自定义数据、按照自身喜好进行训练微调。如此一来,企业掌握了主导权,而不必受制于闭源模型厂商。另外,Llama 3.1 405B的运行成本更低廉,推理成本大约是使用 GPT-4o 等封闭模型的一半。更为关键的是,许多企业需要处理敏感数据,但无法将其通过API接口传输给封闭模型,如果使用Llama则无需担心与Meta共享数据。
扎克伯格还说,开源模型将确保世界各地更多的人获得人工智能带来的好处和机会,“权力不会集中在少数公司手中”。
接受彭博社采访时,扎克伯格透露,Meta已经在开发Llama 4。
采写:南都见习记者 杨柳
车视界科技 2024-12-17
科技新知 2024-12-17
车视界科技 2024-12-17