当前位置:首页|资讯|OpenAI|苹果|Hugging Face|LLaMA

OpenAI掀小模型血战!苹果小模型来了:性能超越Mistral-7B

作者:AI研习所发布时间:2024-07-23

上周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。

继Mistral NeMo发布之后,近期加入这一赛道的还有苹果。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上发布了名为DCLM-7B 开源模型。该模型包含两种参数规模——70亿和14亿,发布即开源。最大70亿参数超越了Mistral-7B ,性能接近Llama 3、Gemma。


苹果机器学习团队的Vaishaal Shankar 将 DCLM 模型描述为「真正开源的最佳模型」,因为 DCLM 不仅开源了模型权重,还开源了训练代码和预训练数据集。


项目背景

大型语言模型(LLM)目前面临的一个评估挑战是缺乏受控比较。

LLM 研究通常会比较采用不同架构、计算或超参数的模型,因此难以理清影响语言模型质量的因素。在此基础上,苹果的研究团队提出了一个新的语言模型数据比较基准——DCLM。

这是语言模型训练数据整编(curation)的首个基准,目的是通过设计高质量的数据集来提升LLM的模型性能,尤其是在多模态领域。

研究团队发现基于模型的过滤,即由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。

什么是DCLM-7B?

DCLM的整体设计思路相当直接:它采用了一个标准化的实验框架,这包括了固定的模型结构、训练代码、超参数以及评估,其最终目的是确定哪种数据处理策略最适合培养出高效的模型。


使用 DCLM,研究团队构建了一个高质量数据集 DCLM-BASELINE,并用该数据集从头开始训练了一个 7B 参数模型 —— DCLM-7B。


DCLM-7B具体表现如何呢?

DCLM-Baseline-7B是一个基于解码器的Transformer语言模型,它采用了先进的架构设计,并基于PyTorch与OpenLM框架进行优化。

这种架构使得模型在处理语言任务时更加高效和准确。模型的训练过程同样值得关注。它使用了AdamW优化器,学习率峰值为2e-3,权重衰减为0.05,批处理大小为2048个序列,序列长度为2048个标记,并在H100GPU上进行训练。这些细节都体现了苹果在模型训练上的精益求精。

而具体的训练结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。


以下是 DCLM-7B 在各种任务(部分)上的评估结果:


与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。


最后,为了测试新数据集效果,有业内人士用卡帕西的llm.c训练了GPT-2 1.5B,来比较DCLM-Baseline与FineWeb-Edu这两个数据集。


结果显示DCLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。


值得一提的是,相比模型性能,DCLM做出的「真正开源」的典范更加引人关注。对比大部分科技巨头推出的产品,DCLM 已经能够创建多个高质量数据集,这些数据集在各个规模上表现良好,并且优于所有开放数据集。只搞闭源模型,或「犹抱琵琶半遮面」,只开源代码或权重的做法,大方的苹果获得了网友的好评。

未来展望

回到开头所说的,“小”模型在当下已成最新趋势。

先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型号模型。它们在广泛的推理和常识基准上优于类似大小的模型。

然后便是OpenAI突然发布了GPT-4o mini,不仅能力接近GPT-4,而且价格大幅下降。

无风不起浪,就在GPT-4o mini发布同日,Mistral AI联合英伟达发布了12B参数小模型——Mistral NeMo。从整体性能上看,Mistral NeMo在多项基准测试中,击败了Gemma 2 9B和Llama 3 8B。(详情可阅读上周五我们发布的相关推文)

所以,为啥大家都开始卷小模型了?原因呢可能正如smol AI创始人提醒的,虽然模型变小了,但在能力相近的情况下,小模型大大降低了成本


就像他提供的这张图所示,以GPT-4o mini为代表的小模型整体比右侧价格更低。


结语:开启不疯狂烧钱的大模型竞赛

在科技世界,变小、变便宜、变好用的历史潮流总是不断复现。大型机时代,电脑是富豪和精英才能接触到的高精尖奢侈品。进入小型机时代,技术进步把计算设备变得越来越便携好用,PC和手机才进入普罗大众的日常工作与生活。

就像我们需要有庞大算力的超级计算机,也需要普通人能塞进口袋的手机,生成式AI时代需要极致智能的大模型,也需要离用户更近、更具成本效益、能满足特定应用需求的经济型模型。

OpenAI GPT-4o仍然站在最强AI大模型的峰顶,但它不再像以前那般举世无敌,多款GPT-4级大模型已经实现了相近的性能。同时,更加紧凑、高效的大模型正在挑战“越大越好”的观念,“以小博大”的新趋势有望改变AI开发方式,为AI在企业及消费环境中的落地开辟新可能。

卷向小型化的转变,标志着AI产业的重大变革,大模型竞赛开始从专注于提升性能转向关注现实世界更细致的需求。在这股热潮之中,以面壁智能为代表的中国开源力量正在盎然生长,通过一系列技术创新,以更加经济可行的方式来验证大模型知识密度定律,最终推动大模型在实际应用场景中的落地进程。

而DCLM-Baseline-7B的开源,是苹果在AI领域的又一重要贡献。它不仅展示了苹果在AI技术上的实力,也为全球的AI研究者和开发者提供了一个宝贵的资源。随着这个模型的开源,我们可以预见,未来将有更多创新的应用和研究在这个基础上诞生。

而不管是大模型还是当下炙手可热的小模型推理,都离不开强大的显卡支持,在这小编向大家推荐一款来自UCloud优刻得的一款4090云服务器,相比较于市面上的一些GPU共享算力平台的资源,不仅价格实惠,性价比高,性能强劲 的同时还拥有独立IP、预装主流大模型及环境镜像,支持7X24的小时的售后服务。同时,UCloud还推出了9.9元/天的4090特惠,方便大家体验使用 价格非常香,可以放心上车!


高性价比GPU算力:

https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0723_wenzhang



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1