文 | AI鲸选社
对于猎豹移动CEO傅盛来说,他今年最呼吁的一件事情,正在成为潮流——小模型逐渐成熟,成为企业落地商业化主力军,这令他十分开心。
可能很多人会困惑,大模型(LLM)正火的当下,什么是小模型(SLM)?目前,市场通常将参数规模远少于GPT-4或Llama-13B的千亿大语言模型,一般参数只有1.5B、3B、7B的模型称为小大模型。
要说小模型现在有多火,仅仅7月下半月,4家科技公司纷纷推出自己的小模型。
Hugging Face推出了高性能的小型语言模型 SmoLLM,包括 135M、360M 和 1.7B,能够直接在浏览器中运行;
OpenAI紧随其后发布了GPT-4o mini,直接让GPT-3.5 Turbo成为历史;
Mistral AI与英伟达合作推出了拥有 12 亿参数的 Mistral Nemo,多语言支持、128K 上下文,性能优于L3 8B和Gemma 2 9B;
苹果也不甘示弱,发布了70亿参数的小模型 DCLM-7B,并立即将其全部开源。
如果将时间线再往前推到今年上半年,可以发现小模型市场早已经开始“神仙打架“,比如微软4月发布了Phi-3、谷歌2月发布了Gemma-7B等。
半年6款知名的小模型发布,行业挂起了小模型的旋风。
而此前国内小模型的忠实拥趸,可能只有猎豹移动和面壁智能。不同于其他大厂有大小系列模型覆盖,2023年猎豹直接发布了中小模型Orion-14B,应用于企业私有化模型落地。
尽管小模型市场竞争不激烈,但前赶集网技术总监、小晨科技创始人蒯义刚告诉鲸哥:企业部署私有大模型,服务的海外客户最常见的模型是GPT-3.5 turbo,国内的百度文心多一些。
现在情况大变,无论GPT3.5还是GPT-4,已经成企业市场的“旧爱”了,这些参数小能力大的小模型凭借超高性价比,一时成为市场的新宠。2024年会成为SLM元年吗?
参数不如大模型,小模型凭啥火了?
在Scaling Law(尺度定律)的信仰下,一直向着万亿大模型进军的科技巨头们,纷纷转向了小模型赛道,在市场看来可能有3大原因:
第一大原因就是大模型实在太贵了。
对于开发者而言,训练大模型和烧钱无异。蒯义刚就说道:“好的大模型也十分贵,GPT-4的使用成本是GPT-3.5的10倍。”
最先进的大模型,这么贵的原因,首当其冲的就是硬件训练成本,GPU、TPU和CPU集群都是基本军备。前有OpenAI用了25,000块A100芯片训练GPT-4,后有马斯克宣布要用10万块H100组成超级AI训练集群。其次就是能源消耗,有数据显示,全美AI数据中心的耗电量足以点亮整个纽约市。此外,人力成本、训练数据成本也都是一笔不小的开销。
而随着模型的参数数量呈指数级增长,训练成本也在急剧上升。Anthropic首席执行官Dario Amodei在一档播客节目中表示,目前正在开发的人工智能模型的训练成本高达10亿美元。但未来三年AI模型的训练成本将上升到100亿美元甚至1000亿美元。至于GPT-4o“仅仅1亿美元的开发成本,已经不值一提。
主流AI模型的训练和推理成本
这种成本上的巨大负担,让巨头们纷纷放下参数执念,投身小模型。
小语言模型可以理解是大语言模型的浓缩版本,参数更少,设计更精炼,自然需要更少的数据、训练时间以及硬件成本。
比如可能仅仅聚焦于法律问题上的小模型,参数不到100亿,那它的训练成本往往可能不到1000万美元。
而且小模型的性价比不仅体现在训练端,对于用户来说也是如此。
由于小模型训练成本低、并且在相应过程中消耗的算力更少,因此小模型的使用价格也显得更加亲民可人。
目前OpenAI的GPT-4o的百万Tokens输入和输出价格分别是5美元和15美元,而GPT-4o mini的百万Tokens输入价格仅为15美分,输出价格仅为60美分,价格速降了96%~97%。
从Artificial Analysis的统计中可以清晰看到大模型与小模型的成本差距。OpenAI CEO 山姆奥特曼对此的形容是:通往智能的成本已经「too cheap to meter」(便宜到无法计量)。
第二,除了便宜,小模型的性能也已经拉满。
最新发布的GPT-4o mini,在lmsys(测评榜单)的较量中展现出了超强实力,不仅与GPT-4o的满血版本并列榜首,还将Claude 3.5等强劲对手甩在身后。
lmsys的排名机制是由用户自主出题,随机抽取两个模型进行一对一的较量。这种机制有效防止了模型通过“刷题”来获得虚高的评分,主打一个真实。
分数不代表一切,实际使用体验也是效果不错。
据OpenAI公布的案例显示,GPT-4o mini已与Ramp和超人等公司进行了合作,反馈发现在执行从收据文件中提取结构化数据,或在提供线程历史记录时,生成高质量电子邮件响应等任务时,GPT-4o mini的表现明显优于GPT-3.5 Turbo。
更令人期待的是,GPT-4o mini 的API 现已支持文本(且大幅改善了非英文的效率)和视觉,未来还将支持文本、图像、视频和音频输入和输出。
不仅是GPT-4o mini,其他几家的小模型也是争奇斗艳。
主流小模型价格能力评价
被誉为「欧洲版 OpenAI」的 Mistral AI 旗下小模型Mistral NeMo,从整体性能上也在多项基准测试中,击败了Gemma 2 9B和Llama 3 8B。并且该模型专为全球多语言应用而设计,在英语、法语、德语、葡萄牙语、中文方面等方面表现尤为突出。
而苹果这次推出DCLM-7B 模型,在MMLU基准上的5-shot准确率达到了64%,与Mistral-7B和Llama 3 8B不相上下,但计算量只有后者的六分之一。在53个自然语言理解任务上,它的平均表现也可以与Llama 3 8B相媲美。
此外,苹果这波格局了一把。不仅模型本身开源,连训练数据集都一并公开,让人们可以完整复现他们的工作。
第三、小模型除了性价比杠杠的,也凭借着小巧的身姿进入了更多的应用场景。
大模型在使用场景上有很多局限。比如智能手机、物联网设备等边缘设备,通常具有有限的计算能力和存储空间,无法承载大型语言模型,而这时候小模型则可以完美嵌入。
又比如在对实时性有严格要求的应用领域,例如实时图像分析、语音识别和动态推荐系统,小模型由于参数少,能够迅速地进行推理,以极短的延迟满足用户的即时需求。
性价比超高,为何小模型现在才爆?
小模型有这么多优点,为什么巨头们现在才开始“真香”反转呢?
Open AI的产品主管Olivier Godement解释,这单纯是“纯粹的优先级”问题。之前公司专注于GPT-4这类大模型上,随着时间的推移,OpenAI才关注到开发者对于小模型的需求。
但也有观点认为,大模型是通往小模型的必经之路。
大型模型的训练就像是海绵吸水,尽可能把所有数据、信息囊括其中。而这样做,有利有弊。大型模型在海量数据的依托下,能够更好、更准确的处理新新任务,但同样也可能因为学的太杂,而出现不同知识的重叠、混合和冲突。
而小模型则是站在大模型的肩膀上进一步优化。小模型接收的数据,则是由超大模型进行清洗的高质量数据。比如对于GPT-4o mini进行训练的数据,就是由GPT-4进行清洗的。
而这种先做大模型,再进一步瘦身的训练模式正在成为新趋势。科技巨头们对于不再一味求大,而是求精。
在2023年4月,OpenAI的首席执行官Sam Altman宣布了大型AI模型时代的结束。他指出,数据质量是AI训练的关键成功因素,并且认为关键问题是人工智能系统如何从更少的数据中学到更多的东西。而这个观点也得到微软、Hugging Face等其他玩家的认可。
而这种不断精简优化的过程则会不断形成正循环。每一代模型都会帮助生成下一代的训练数据,直到获得“完美的训练集”。
未来,和阶梯式上升的小模型质量形成对比的,则是不断下降的小模型价格。
傅盛曾在WAIC中说道,“千亿参数大模型一年私有化授权费用就是几千万,到今天应该还是,然后私有化部署以后,买服务器的费用最低成本160万(当时的价格)”。
大模型太贵了。蒯义刚也和AI鲸选社说道,他们现在私有化部署一般是四五十万,为了成本考量几乎不太做微调。他们作为落地服务商没有赚太多,大头还是大模型企业的授权费用。
现在企业使用大模型成本可能会大幅降低了。AI Grant 的两位合伙人 Daniel Gross 和 Nat Friedman在访谈中, LLM成本在质量不变差的情况下,每年可以降低 90% 的情况。
OpenAI也确实基本在证明了这件事。OpenAI 基本是以每 3 个月作为一个周期,总会有其中至少一个模型成本下降 60% ,或者成本下降至少 60% 的情况下,质量还更高了。而一个模型基本上一年会经历两次的降本增效,每次降低 60%,两次过后就刚好是比之前降低了 90% 左右。
GPT-4o mini就是这种逻辑的成果体现。而且随着高质量数据集以及训练方式的改进,这些小模型有些能力甚至更突出。
正如 AI Grant 所说,没理由认为更小的模型不会有更好的表现。“最近这些 9B 的模型已经震撼到我们了,没有任何数学证明 3B 做不到同样的效果。如果 3B 做到了,没理由不运行在本地,那么那时候除了一些电耗问题外,我们更多的肯定是在做本地处理 + 云端模型的路由。”
换言之,未来将不断涌现越来越多更精简、更高效、更便宜的小模型。未来就像OpenAI创始成员及研究科学家Andrej Karpathy所发言,未来大模型的尺寸竞争趋势即将逆转,尺寸竞争正在倒退。
企业落地最爱,小模型加速商业化
“企业专用大模型,百亿参数就够了。”是傅盛过去一年经常说的话。
但实际上,2023年将小模型向垂直方向微调,打造出媲美大模型的效果,效果并没有那么好,百亿参数没那么够。
但现在情况不一样了,gpt-4o-mini 在很多场景中不用微调,都不比Chat-4 turbo差。
有AI创业者反馈:“gpt-4o-mini 的效果真的不错。首先是速度非常快,比 4o 快多了,几乎不需要等待,就可以读取结果了。其次是实际的表现,GPT-4o-mini 目前仅在复杂场景中还需借力,只有比较复杂一点的编程没有搞定。“日常的需要搜索引擎+blog 或者教程才能解决的任务,基本GPT-4o-mini 都可以完成的不错。”
在大模型的托举之下,小模型正在用更加轻盈的姿态落地。HuggingFace CEO Clem Delangue 甚至指出,多达 99% 的使用场景可以通过 SLM 来解决,并预测 2024 年将是 SLM 元年。
蒯义刚说道,最近有家此前做了医疗和房地产领域的客户,都是用的大模型。4o-mini发布那天,他看了下资料,比GPT-3.5 Turbo更好的性能,更长的输出,多模态支持 ,更低的费用,以及更好的非英语语言的支持,感觉是天赐的好模型。
“最近谈的一个招聘客户,预计就是使用4o-mini。”生意预计会好做,也让他的笑声多了起来。
但他也提到,看行业分析,未来大模型、小模型会相辅相成落地企业的部署。
这意味着模型生态向着流动、精准进一步发展。而从使用场景上,大模型、小模型也将分工明确。
大模型将继续在需要广泛知识基础和高级认知能力的领域中发挥其核心作用;而小模型则以其轻巧的身形和高效的性能,在成本敏感、对响应时间有严格要求的应用场景中大放异彩。
正如Forrester Research的资深AI分析师Rowan Curran所比喻:“并非时刻都需要跑车,有时一辆小型货车或皮卡车更为合适。未来的模型应用不会单一,而是根据不同需求选择最适宜的工具。”
甚至,未来大、小模型之间会出现任务的上下级协作。
DeepMind、普林斯顿大学和斯坦福大学的研究人员近日提出了一项名为 LATM(LLMs As Tool Makers)的创新框架,即让大型语言模型生成自己的软件工具来处理新任务。
它带来了一种全新的大、小模型的分工形式。即将需要具备高强度算力才能实现的工具制造过程可以分配给功能强大、资源密集型的模型,例如 GPT-4;而将相对简单的使用工具过程分配给轻量级、经济高效的模型,也就是小模型。这种模式既节省成本又保证性能。
如今市场上,99%的企业实际上还没有部署大模型进业务,小模型风靡后,辅以大模型托底,这一巨大的市场会不会在2024年被撕开?