当前位置:首页|资讯|扎克伯格|AI大模型|人工智能

扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切

作者:华尔街见闻发布时间:2024-04-19

原标题:扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切

4月18日,Meta重磅推出Llama 3,称其为“迄今能力最强的开源大模型”,Llama3的登场又一次影响着AI大模型的竞争格局,引爆AI圈。

同日,Meta CEO 扎克伯格与知名科技播客主持人Dwarkesh Patel的专访也同步发出,在这个长达80分钟的访谈里,主要围绕Llama3、通用人工智能(AGI)、能源问题、AI安全问题、开源的风险以及意义进行了探讨。

扎克伯格称,AI已成为Meta的核心,Meta AI现在是目前可免费使用的最智能的人工智能助手,即将推出的Llama 3的大型版本将拥有超过4000亿参数。

在AI模型的训练和发展方面,小扎提到Llama 3的出现证实了大规模数据和计算资源对于AI模型的重要性,未来,训练大型AI模型可能面临资本和能源限制等挑战,强调AI的出现不是试图取代人类而是为了赋予人们更强大的工具完成更有挑战性的任务,以下为访谈要点:

  • 最小参数的Llama3 80亿和最大参数的上一代Llama2 700亿模型性能是同一量级,而最强大的4050亿参数版本还在路上。

  • Llama 3的出现证实了大规模数据和计算资源对于AI模型的重要性,AI正在从一个"问答"工具,转变为一个更广义的"推理"系统,它需要理解问题的上下文,融合多方面知识并运用逻辑推理得出结论。

  • 多模态是Meta重点关注的领域,特别关注的一个模态是情感理解,如果能够在这方面取得突破,使人工智能能够真正理解并表达情感,那么人与机器之间的互动将会变得前所未有的自然和深入。

  • AI确实会改变人类的工作方式,有望显著提高程序员的工作效率,但AI的出现不是试图取代人类,而是希望通过这些工具,赋予人们更强大的能力,让他们能够完成更多以前难以想象的工作。

  • AI将像电脑的出现一样,从根本上改变人类的生活,带来许多以前不可能的新应用,推理将深刻改变几乎所有的产品形态。

  • 在AI发展遇到GPU瓶颈时,或资金不足问题前,会首先遇到能源问题,如果人类能够解决能源的问题,完全有可能建造出比现在规模更大的算力集群。

  • 我认为未来会出现META AI通用助理产品,每个企业都希望有一个代表他们利益的AI,AI将推进科学、医疗保健和各种领域的进步,最终会影响产品和经济的方方面面。

  • 我认为未来如果人工智能过度集中化,其潜在风险可能不亚于它的广泛传播,如果一个机构拥有比其他所有人更强大的人工智能,这是否也是一件坏事?

  • 我认为训练的发展有多种可能性,其中商品化确实是其中之一。商品化意味着随着市场上选择的增多,训练的成本将大大降低,变得更加亲民。

  • 关于存在性风险的问题确实值得我们深入关注,目前我们更关注的是内容风险,即模型可能被用于制造暴力、欺诈或其他伤害他人的行为。

  • 开源正成为一种全新的、强大的构筑大模型的方式。虽然具体的产品会随着时间的推移不断发展、出现和消失,但它们对人类社会的贡献却是持久的。

  • Meta可能很快就会在自研芯片上训练大模型,但Llama-4可能还无法做到。

以下是访谈全文:

Llama 3顶配版仍在训练

Dwarkesh Patel:Mark,欢迎来到这个播客。

Mark Zuckerberg:谢谢你邀请我。我是您播客的忠实粉丝。

Dwarkesh Patel:非常感谢你的赞美。让我们先聊聊这次采访发布时也会同步发布的产品。能跟我讲讲关于Meta AI和相关模型的最新进展吗?有哪些令人兴奋的地方?

Mark Zuckerberg:我想大多数人会关注到的是Meta AI的新版本。我们正在做的最重要的事情是升级模型。我们发布了Llama-3。我们以开源的方式提供给开发者社区,同时它也将为Meta AI提供支持。关于Llama-3有很多值得讨论的地方,但我认为最重要的一点是,我们现在认为Meta AI是人们可免费获得的最智能的AI助手,我们还整合了Google和Bing以获取实时知识。

我们将让它在我们的应用中更加突出,在Facebook和Messenger的顶部,你可以直接使用搜索框来提出问题。我们还增加了一些我认为非常酷、人们会喜欢的创作功能。我觉得动画是个很好的例子,你基本上可以拿任何图像,让它动起来。

人们会觉得非常惊艳的一点是,它现在可以如此快速地生成高质量的图像,实际上是在你输入的同时实时生成和更新的。你输入你的查询,它就会去适配,比如"给我看一张牛站在有山脉背景的田野里,吃着夏威夷果,喝着啤酒的图片",它会实时更新图像,这非常酷,我想人们会很喜欢的。我觉得这将是大多数人在现实世界中能感受到的。我们正在推出它,虽然不是所有地方,但我们从少数几个国家开始,未来几周和几个月会扩大范围。我认为这将是一件很了不起的事情,我真的很兴奋能把它交到人们手中。这是Meta AI的一大进步。

但如果你想深入了解一下,Llama-3显然是技术上最有趣的。我们正在训练三个版本:我们实际上训练了三个版本,分别是80亿、700亿和4050亿的密集模型,其中4050亿的模型仍在训练中,所以我们今天并未发布。但我对80亿和700亿的表现非常兴奋,按照它们的规模来看是领先的。我们会发布一篇博客文章,附上所有的基准测试结果,人们可以自己去看看,它显然是开源的,所以大家有机会去试用它。

我们有一个新版本的路线图,将带来多模态性、更多的多语言性以及更大的上下文窗口。希望在今年晚些时候,我们能推出4050亿参数的版本。就目前的训练情况来看,它在MMLU上已经达到了85分左右,我们预计它在许多基准测试中都会有领先的成绩。我对这一切都非常兴奋。700亿的版本也非常棒。我们今天发布它。在MMLU上大约是82分,在数学和推理方面有领先的成绩。我觉得把它交到人们手里会非常酷。

Dwarkesh Patel:有意思,这是我第一次听说MMLU作为一个基准。这太令人印象深刻了。

Mark Zuckerberg:80亿参数的版本几乎与我们发布的最大版本的Llama-2一样强大。所以最小的Llama-3基本上与最大的Llama-2一样强大。

Dwarkesh Patel:在我们深入讨论这些模型之前,我想回到过去。我猜想你们是在2022年开始采购这些H100的,或者你可以告诉我具体是什么时候。当时股价受到重创。人们问这些资本支出是怎么回事。人们不买账元宇宙。我想你花费资本支出来购买这些H100。你当时是如何知道要买H100的?你怎么知道你需要GPU?

Mark Zuckerberg:我想是因为我们当时在开发Reels。我们总是希望有足够的算力来构建一些我们还看不到的未来的东西。我们在开发Reels时遇到了这样的情况,我们需要更多的GPU来训练模型。这是我们服务的一个重大进化。我们不仅仅是对你关注的人或主页的内容进行排序,我们开始大力推荐我们所谓的非关联内容,也就是来自你没有关注的人或主页的内容。

我们可能向你展示的内容候选库从数千个量级扩大到数百万个量级。它需要一个完全不同的基础设施。我们开始着手进行这项工作,但在基础设施方面受到限制,无法以我们想要的速度赶上TikTok的进度。我基本上是这样看的,我想:"嘿,我们必须确保不再陷入这种境地。所以让我们订购足够的GPU来完成Reels、内容排名和信息流方面需要做的事情。但让我们再加倍。"再次强调,我们的普遍原则是,总会有一些我们还看不到的未来的事物。

通往AGI之路

Dwarkesh Patel:你知道那会是AI吗?

Mark Zuckerberg:我们认为那将是与训练大型模型有关的事情。当时我认为可能与内容有关。这只是经营公司的一种模式匹配,总会有另一个需要应对的方向,当时我深陷于试图让Reels和其他内容的推荐系统运作良好。这对Instagram和Facebook来说是一个巨大的突破,能够向人们展示来自他们甚至没有关注的人的有趣内容。

但事后看来,这个决定非常正确,这决定源于我们的落后。这并不是因为"哦,我想得太多了"。事实上,大多数时候,我们之所以做出一些后来看起来不错的决定,是因为我们之前搞砸了一些事情,只是不想重复犯错而已。

Dwarkesh Patel:这完全是题外话,但我想趁现在问一下。我们一会儿再回到AI的话题。2006年你没有以10亿美元的价格出售,但我想你心里肯定有一个你愿意出售的价格,对吧?你有没有心里盘算过,"我认为Facebook当时的实际估值是多少,而他们给的价格并不合理"?如果他们出价5万亿美元,你当然会卖。那么你当时是如何权衡这个选择的?

Mark Zuckerberg:我觉得有些事情只是个人层面的。我不知道当时我是否有足够的精明去做那样的分析。我周围的人都在为10亿美元找各种论据,比如"我们需要创造这么多收入,我们需要做到这么大。这显然是很多年以后的事了。"这远远超出了我们当时的规模。我当时并没有真正具备参与那种辩论所需的金融专业知识。

内心深处,我相信我们正在做的事情。我做了一些分析,"如果我不做这个,我会做什么?嗯,我真的喜欢创造东西,我喜欢帮助人们沟通。我喜欢了解人与人之间正在发生的事情和互动。所以我想,如果我卖掉这家公司,我可能会再建一家类似的公司,而我还挺喜欢现在这家的。那又何必呢?"我认为人们做出的很多最大的赌注往往只是基于信念和价值观。其实要做前瞻性的分析往往是非常困难的。

Mark Zuckerberg:我不知道时间表具体如何。我觉得这些事情都会随着时间逐步推进。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1