当前位置:首页|资讯|GPT-4|大语言模型|LLaMA

1000万美元!这家美国创企“烧出”最强开源大模型 能力号称接近GPT-4

作者:腾讯科技发布时间:2024-03-28

1000万美元!这家美国创企“烧出”最强开源大模型 能力号称接近GPT-4

划重点:

  • 1 Databricks发布开源大语言模型DBRX,吊打Llama 2-70B和Grok-1。
  • 2 DBRX在若干项基准测试中的得分非常接近OpenAI的闭源大模型GPT-4。
  • 3 Databricks投入约1000万美元耗时数月时间成功开发出DBRX。
  • 4 DBRX有1360亿个参数,相比之下Llama 2有700亿个参数,Mixtral有450亿个参数,Grok-1有3140亿个参数。

腾讯科技讯 3月28日消息,据国外媒体报道,美国人工智能初创公司Databricks日前发布了开源大语言模型DBRX。该公司声称,在语言理解、编程和数学方面,DBRX的测试得分吊打GPT-3.5、Mixtral、Meta的Llama 2-70B以及埃隆·马斯克(Elon Musk)旗下xAI的Grok-1等开源模型。作为混合专家模型,DBRX的输出Token速度高Llama 2一筹。

图注:Databricks员工庆祝开源大语言模型DBRX大获成功

本周一早晨,数据科学与人工智能公司Databricks的大约十多位工程师和高管聚集在公司会议室,通过Zoom视频会议等待他们开发的人工智能语言模型的测试结果。该团队花费了数月时间和大约1000万美元训练在设计上与OpenAI的ChatGPT相似的大语言模型DBRX。但在最终的测试结果出来之前,他们也不清楚自己开发的大模型究竟有多么强大。

“我们超越了所有的开源大模型,”Databricks首席神经网络架构师、开发DBRX的团队负责人乔纳森·弗兰克尔(Jonathan Frankle)最终告诉该团队。消息一经公布,会场上立即响起雷鸣般的掌声和欢呼声。弗兰克尔通常会喝无因咖啡,但是在通宵达旦的撰写完测试结果报告之后,他也抿了几口冰拿铁。

Databricks计划在开源许可下发布DBRX,意味着允许其他人在其工作基础上开发大语言模型。弗兰克尔分享的数据显示,在衡量人工智能模型回答常规知识问题、阅读理解、解决令人烦恼的逻辑难题和生成高质量代码的十几个基准中,DBRX均优于其他所有可用的开源模型。

DBRX的性能吊打目前最受欢迎的两款开源人工智能模型--Llama 2和Mistral的Mixtral。当DBRX的得分呈现在会议室的屏幕上时,Databricks首席执行官阿里·古德西(Ali Ghodsi)先是高呼“酷毙了!”,然后又突然发问:“等等,我们打败了马斯克的产品吗?”弗兰克尔对此答复称,DBRX的表现性能确实超越了马斯克旗下的xAI最近宣布开源的Grok AI模型。他还补充说:“如果马斯克对此结果发表一条刻薄的贴子,我会认为这就是成功。”

令Databricks感到惊讶的是,DBRX在若干项基准测试中的得分非常接近闭源大模型GPT-4,后者被业界广泛认为是目前机器智能的巅峰。“我们为开源大语言模型设定了新标准,”弗兰克尔笑着说。

Databricks通过开源DBRX,为当前生成式人工智能热潮的开放运动注入了新动力,同时也向行业内顶尖公司的保密做法发起了挑战。尽管OpenAI和谷歌不愿公布GPT-4和Gemini等大语言模型的代码,但 Meta等竞争对手选择了开源模式,认为只有更多研究人员、企业家、初创公司和老牌企业都掌握了相应的技术,才能进行更好地推陈出新。

Databricks表示,它还想要公开其开源模型的创建过程,相比之下Llama 2的开发者Meta还没有公布创建该模型的一些关键细节。

Databricks计划发布一篇博客文章,详细介绍创建该模型所涉及的工作。届时,外界不仅能够了解到构建领先人工智能模型的复杂性和挑战性,而且也能明白开发人工智能模型的成本会大幅减少的原因。(编译/无忌)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1