文 | 甲子光年,作者 | 苏霍伊,编辑 | 王博
3月27日,美国数据和人工智能公司Databricks宣布开源Mosaic Research团队主导开发的通用混合专家(MoE)大语言模型DBRX。
DBRX的研发历经数月,耗资约1000万美元,共包含1320亿参数,16个专家网络,每次推理时会启用其中的4个专家网络和360亿参数。
DBRX在语言理解、编程、数学和逻辑等方面表现卓越,不仅在性能上超过了开源大模型Llama 2、Mixtral以及马斯克新开源的Grok-1,而且在多项评分上已经逼近GPT-4。
HyperWriteAI CEO Matt Shumer在测试后直呼:“新的开源之王降临!”
Databricks首席神经网络架构师、DBRX开发团队负责人Jonathan Frankle幽默地表示:“如果我们能得到马斯克一条‘酸’我们的推文,就证明我们真的成功了。”
Databricks联合创始人、CEO Ali Ghodsi在X中写到:DBRX在标准基准测试中击败了以前所有的开源模型,它在保持高性能的同时更加经济。DBRX有着大约两倍于Llama2-70B的“智慧”,但参数量只有36B左右。由于实时使用的专家参数只有36B,所以它的速度(tokens/秒)几乎是Llama2-70B的两倍。
简单来说,DBRX比Llama2-70B更“聪明”、更“高效”。
图片来源:@Ali Ghodsi
MosaicML团队也是AI领域最大收购案的主角。去年6月,数据和人工智能公司Databricks以折合人民币约94亿元的价格,收购了员工总数仅为62人的MosaicML公司。
今天MosaicML研究团队的成就,足以证明Databricks的好眼光。
通过开源DBRX模型,Databricks希望突破当前生成式AI热潮中的“保密主义”。他们的目标是推动技术创新,让强大的AI工具被更多开发者使用。
领先的细粒度MoE大模型
Databricks在博客文章中介绍,DBRX是一个采用了细粒度(Fine-grained)混合专家(MoE)架构的基于Transformer的解码器型大型语言模型(LLM)。
它共有132B的参数,其中36B的参数在任何给定的输入上处于激活状态。DBRX在12T个文本和代码数据的tokens上进行了预训练。与其他开源的MoE模型(如Mixtral等)相比,DBRX的特点是细粒度(Fine-grained),即它使用了更多数量“小专家”。DBRX拥有16个专家,每次选择4个;而Mixtral和Grok-1分别拥有8个专家,每次选择2个。这种设置提供了65倍以上可能的专家组合。
DBRX还采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)技术,同时使用了GPT-4的分词器。DBRX在一组精心挑选的、包含12T tokens的数据上进行了预训练,其最大上下文长度达到了 32k tokens。
DBRX在语言理解、编程、数学和逻辑方面轻松击败当前顶尖的开源模型,包括Meta的Llama 2-70B、法国MixtralAI的Mixtral以及马斯克的xAI开发的Grok-1。
Databricks还提出了一个全新的开源基准测试指标“Gauntlet”,可以通过30多种不同的先进模型基准测试。
同时,DBRX 在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面超越了现有的开源模型。
DBRX在语言理解、编程和数学方面的测试结果来源:Databricks博客
综合基准测试方面,DBRX团队在两个综合基准测试上评估了DBRX Instruct等。一是Hugging Face开源LLM排行榜,评估的任务包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande、GSM8k的平均分。二是Databricks模型测试套件,涵盖6个类别的30多项任务套件:世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程。
DBRX Instruct这两个综合基准测试上得分都是最高的。其中,在Hugging Face开源LLM排行榜中得分74.5%,第二名是Mixtral Instruct,得分72.7%。在Databricks的模型测试套件中得分66.8%,第二名依旧是Mixtral Instruct得分60.7%。
而在编程和数学方面,DBRX Instruct与其他开源模型相比,它在HumanEval和GSM8k上得分更高。DBRX 在这些基准测试上超过了Grok-1,要知道Grok-1的参数量是 DBRX的2.4倍。在HumanEval上,DBRX Instruct甚至超过了专门为编程构建的CodeLLaMA-70B Instruct,虽然DBRX Instruct最初的设计目的是通用大模型。
在衡量大语言模型性能的指标MMLU(Mean Multi-Language Understanding)上,DBRX Instruct同样表现最好,达到了73.7%。
DBRX与其他开源模型的测试对比来源:Databricks博客
DBRX Instruct与GPT-3.5等优秀的闭源模型相比较,同样表现出色。
在几乎所基准测试中,DBRX Instruct几乎都超越了GPT-3.5。在常识推理方面,DBRX Instruct在MMLU(73.7% vs. 70.0%)、HellaSwag(89.0% vs. 85.5%)和WinoGrande(81.8% vs. 81.6%)上表现超过GPT-3.5。在编程和数学推理方面,DBRX Instruct表现尤为出色,如HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)所测量。
DBRX与闭源模型的测试对比来源:Databricks博客
除了基准评测外,Databricks还公布了DBRX在长上下文任务以及检索增强生成(Retrieval Augmented Generation, RAG)任务中的表现。
DBRX Instruct 训练时使用了一个巨大的上下文窗口,能处理高达32000个token。在长上下文任务的性能评估中,它与Mixtral Instruct、GPT-3.5 Turbo和GPT-4 Turbo进行了比较。基于论文《Lost in the Middle》的KV-Pairs和扩展的HotPotQA任务HotpotQAXL,DBRX Instruct 在大多数情况下都优于GPT-3.5 Turbo,并且与Mixtral Instruct表现相近。
DBRX Instruct还拥有利用额外信息处理复杂任务的能力。在RAG任务中,DBRX Instruct 结合了从维基百科检索的信息,在Natural Questions和HotPotQA基准测试中展现了与Mixtral Instruct和LLaMA2-70B Chat等开放模型以及GPT-3.5 Turbo相当的竞争力。
普遍而言,MoE模型在推理方面比其总参数数量所推测得更快。因为它们对每个输入使用的参数相对较少,DBRX也不例外。DBRX的推理吞吐量比132B非MoE模型高2-3倍。
推理效率和模型质量通常是相互权衡关系:通常情况较大的模型具有更高的质量,而较小的模型则具有更高的推理效率。
MoE模型的推理速度往往比其总参数量所暗示的速度要快,因为它们对每个输入使用的参数相对较少。与非MoE模型相比,DBRX的推理吞吐量提高了 2-3 倍,即使总参数量达到132B。
MoE架构能够在模型质量和推理效率之间实现更好的权衡,这一点在密集模型中通常难以达到。例如,DBRX在质量上超过了LLaMA2-70B,由于其活跃参数数量仅为LLaMA2-70B的一半,DBRX的推理吞吐量最多可以提高2倍。Mixtral是另一个MoE模型改进的例子:它的体积比DBRX小,质量较低,所以推理吞吐量更高。
DBRX的推理效率来源:Databricks博客
具有开源基因的团队
创造这一成果是一个富有活力并具有开源精神的团队。
上周一,在DBRX发布之前,大约十几名Databricks工程师和高管拉了一个线上会议,共同讨论他们是否已经成功构建了一个顶级的AI大模型。
此前,该团队花费了数月时间和大约1000万美元来训练DBRX,但在最终测试的结果出来之前,他们并不知道这个模型有多强大。
“我们已经超越了所有!”Jonathan Frankle说出了一句让大家兴奋的话。
团队成员们发出了欢呼声、喝彩声,还在ZOOM线上会议评论区发出了大量鼓掌表情符号。大家还发现,平时尽量避免摄入咖啡因的Frankle,这一刻正在啜饮冰拿铁。
时间回到十多年前。
Databricks起源于学术界和开源社区,由Apache Spark、Delta Lake和MLflow的原始创建者于2013年创立。Databricks官网介绍,作为世界上第一个也是唯一一个云端Lakehouse平台,Databricks结合了数据仓库和数据湖的最佳特性,提供了一个开放且统一的数据和AI平台。
Databricks创始团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的Spark引擎,为了让更多人能够使用它,他们决定开源Spark,并将Spark商业化。
2013年9月,DataBricks获1400万美元投资,投资方为Andreessen Horowitz(A16Z)。
Ali Ghodsi是Databricks的联合创始人,2016年他成为了公司的CEO,目前他负责公司的发展和国际化拓展。
除了在Databricks的工作,Ghodsi还是加州大学伯克利分校的兼职教授,并且是伯克利分校RiseLab的董事会成员。他是开源项目Apache Spark的创造者之一,其学术研究在资源管理、调度和数据缓存方面的思想已经被应用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年从瑞典中部大学获得MBA学位,2006年在瑞典皇家理工学院获得分布式计算领域的博士学位。
除了Ali Ghodsi,目前Databricks的AI决策层成员还有:Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。这三位之前都来自被Databricks收购的MosaicML。
MosaicML由Hanlin Tang和Naveen G. Rao于2021年创立,Jonathan Frankle担任创始顾问和首席科学家,MosaicML开发的愿景是通过让更广泛的人群和企业更容易使用人工智能来实现人工智能民主化。
Jonathan Frankle现在成为了Databricks首席神经网络架构师、DBRX开发团队的负责人,他是MIT计算机科学与人工智能实验室的博士后研究员,也是哈佛Kempner研究所的附属教员。他的研究方向是神经网络的学习动力学和训练算法,旨在提高大语言模型的效率同时降低训练成本。
Naveen G. Rao是Databricks生成式AI方向的副总裁。他曾是英特尔人工智能产品组前副总裁兼总经理,主管AI产品开发和战略,包括推出专为加速深度学习设计的硬件和软件优化。
作为计算机架构师和神经科学家,他在2016年随Nervana Systems并入英特尔,此前担任Nervana CEO,将其建设为深度学习领域的领导者。Rao曾在高通研究神经形态机器,职业生涯还包括在Kealia Inc.、CALY Networks和Sun Microsystems的工程师角色。他拥有杜克大学的学士学位和布朗大学计算神经科学博士学位,发表多篇神经计算论文,持有视频压缩等领域专利。
Databricks神经网络方向的CTO Hanlin Tang,曾是MosaicML的联合创始人、CTO。Hanlin Tang拥有哈佛大学的生物物理学博士学位,研究人类视觉循环神经网络。他曾领导英特尔实验室的人工智能实验室,专注于应用深度强化学习、自然语言处理和扩展大型模型。
致力于开放人工智能研究EleutherAI执行董事Stella Biderman表示,目前几乎没有证据表明开放性会增加风险。开放模型有利于经济增长,因为它们有助于初创企业和小型企业,也有助于“加速科学研究”。
Databricks希望DBRX能够做到这两点。Jonathan Frankle表示,除了为其他人工智能研究人员提供一个新的模型来研究和构建他们自己的模型的有用提示之外,DBRX还可能有助于更深入地理解人工智能的实际运作方式。
Databricks团队计划研究模型在训练的最后一周是如何变化的,这可能会揭示出一个强大的模型是如何获得额外能力的。“最让我兴奋的部分是我们能够在这个规模上进行科学研究。”Jonathan Frankle说。
Databricks接下来将发文详细介绍创建DBRX的工作过程,这种透明度甚至连Meta在发布Llama 2时也未能做到。
Allen研究所(Allen Institute for AI)的CEO Ali Farhadi表示,围绕AI模型构建和培训更大透明度是“必需的”。
Ali Farhadi说:“我很高兴看到任何开放性的努力。”“我确实相信市场的相当一部分将转向开源模型。”
*参考资料:《Inside the Creation of the World’s Most Powerful Open Source AI Model》,Wired