大模型能力全面释放的一个关键门槛是,能在多大程度上降低试错成本。跨过这个关卡,云厂摊薄算力成本只是时间问题
文|吴俊宇
编辑|谢丽容
和其他科技公司相比,字节跳动做云业务较晚——2021年才开始。因此,字节旗下的火山引擎暂时未进中国市场份额前五强。不过,2023年大模型爆发,给火山引擎创造了弯道追赶的机会。
做云三年,火山引擎迎来了市场拐点。2024年是大模型加速落地的关键一年。各行各业正在用大模型开发AI原生应用,这让推理算力消耗速度大幅增长。
5月16日,火山引擎总裁谭待对笔者表示,2023年火山引擎营收增速超过150%,增速比2022年还高。利润率也在持续提升。火山引擎营收体量还不大,但每年都超额完成了预期增长目标。所以,火山引擎管理层对市场份额、排名等问题并不焦虑。
多位中国云厂商高管近期表达了同一个观点:2023年以来,算力大盘的结构变化是,智能算力(GPU芯片为主的算力)增速大于通用算力(CPU芯片为主的算力)。2024年以后,推理算力增速,会大于训练算力增速。
火山引擎正在为这一变化做准备。其中一个重要动作是——大幅降低推理的token价格(大语言模型中,token指文本单位。一个token可以是单词、标点、数字、符号等)。不同模型的参数、性能有差异,因此价格差异较大。在火山引擎5月15日的发布会上谭待表示,字节跳动旗下豆包通用模型Pro-32k的价格是0.0008元/千tokens。该价格比国内外同等规格模型的推理价格便宜90%以上。
火山引擎大幅降低推理价格的逻辑是什么?谭待说,这可以分成“为什么要这么做”、“为什么能这么做”两方面进行解释。
其一,为什么要这么做?火山引擎需要降低客户的试错成本。谭待认为,2024年下半年AI应用会爆发。2012年-2014年是移动互联网爆发早期,中国曾出现APP创业潮。AI应用也会出现一波类似的小高潮。
其二,为什么能这么做?云在规模够大时,可以摊薄成本。字节跳动用云规模足够大。抖音等App就要大量使用推理。火山引擎还可以通过云计算工程手段降低成本。其中包括优化异构算力的分布式推理、优化资源调度等。
大模型推理大降价
云计算市场目前有两条确定的增长曲线。
在算力大盘中,智能算力增速远超通用算力。IDC在2023年12月预估,2022年-2027年中国智能算力规模年复合增长率将达到33.9%,同期通用算力规模年复合增长率仅为16.6%。
在智能算力方面,推理算力的增速远超训练算力。IDC在2023年12月预估,2023年中国AI服务器训练工作负载占比58.7%,推理负载占比41.3%。2027年中国AI服务器训练负载占比仅为27.4%,推理负载占比72.6%。也就是说,训练负载占比2023年达到高峰,虽然此后算力消耗总量还在增长,但占比将逐年下滑。因为训练模型完善成熟后,模型、应用产品会逐步投产,届时将消耗更多推理算力。
推理,指的是用训练好的模型生成内容,生成内容往往以token为单位进行计算。按token计费,这是目前国内外云厂商大模型应用的主流商业模式之一。
火山引擎降价的直接原因是——降低客户试错成本,激发AI应用生态。
谭待认为,目前大模型生态尚处于初期。做大生态,关键是要把大模型做好,把应用落地,把成本做低。企业客户大模型创新的失败概率超过90%。因此必须考虑试错成本。谭待进一步解释,模型推理价格降低超过90%后,企业客户尝试创新的心理负担会更小。AI应用创业者融资压力也会减轻。如果其他云厂商都参与降价,AI应用生态才有可能逐渐繁荣。
AI应用的生态繁荣趋势,在硅谷已经初现端倪。谭待今年3月在硅谷和创业者、开发者交流,感受到了类似2012年-2014年中国移动互联网初期热火朝天的气氛。“基座模型很强,两三个人的创业团队,很快获得营收,很快获得融资。希望中国市场未来一段时间也能有这种趋势。”
火山引擎大幅降低推理算力价格,对行业有巨大影响。国内某头部云厂商的一位技术人士此前预判,火山引擎此举会直接影响行业游戏规则。一个应用背后可能有几十个模型支撑。应用要在几十个场景中权衡模型成本、精度、速度。这不仅成本高,还考验软件工程能力。火山引擎把价格打到这么低,会消除很多开发者的成本顾虑。
他的观点是,目前阿里云、腾讯云等均未实现推理token盈利。火山引擎更难做到盈利,但这会逼迫其他云厂商快速跟进。否则,市场份额会被火山引擎抢走。
事实确实如此。豆包大模型推理token大幅降价后一周,阿里云采取了应对措施。阿里云5月21日宣布,旗下多款大模型的推理token降价,降价幅度为67%-97%。当日,百度文心大模型旗下两款模型ENIRE Speed、ENIRE Lite宣布免费。腾讯云在5月22日也宣布,旗下多款大模型推理token降价,降价幅度为50%-87.5%。
阿里云相关负责人在公开活动中表示,推理成本过高,是制约大模型规模化应用的核心因素之一。大幅降低大模型推理价格,就是希望加速AI应用爆发。
谭待甚至认为,云厂商按token计费,并非很理想的商业模式。这在未来甚至可能有变化。因为,token消耗数量无法真实反映不同业务、场景的客户价值。另一位云厂商技术人士对此表示认同。在他看来,按token计费是算力资源不够丰富时的无奈之举。这种商业模式合理但不友好。云厂商可以充分衡量算力成本。然而,企业客户做大模型应用创新,成本无法预估,效果无法预判。
OpenAI技术社区2023年10月曾有AI开发者表达了类似的困惑——应用消耗的token成本无法准确预估。用户为了优化结果通常会多次输入内容,输出内容长度也不可控。结果是,很难根据token成本设计产品定价。这个困惑也是社区内很多开发者的共鸣。
上述云厂商技术人士认为,未来云厂商甚至不应该靠收token费用盈利。移动互联网早期,一些移动App需要用户付费。但这种商业模式很快全被微信、支付宝、美团、滴滴这些免费App颠覆了。2012年-2014年移动互联网处于早期,当时曾出现App爆发潮。云厂商期望中的AI应用生态应该朝这个方向努力。随着现象级的AI应用诞生,新的商业模式也会诞生。
推理成本受规模、技术影响。推理价格战,接下来会考验云厂商的客户规模、技术能力。
云一旦形成规模,便能依靠弹性持续降低边际成本。火山引擎公布的一组数据显示,目前火山引擎日均处理1200亿tokens文本,生成3000万张图片。字节跳动旗下的抖音、今日头条等业务,大量使用推理算力。谭待说,火山引擎可以把不同业务的负载混合调度,提高单卡推理效率,进而大幅降低成本。
优化模型结构也可以降低推理成本。常见做法包括,模型稀疏、减枝、压缩等。目的在于,减少模型大小和计算需求,进而加快推理速度。一位SaaS企业人士提到,MOE(Mixture of Experts,一种模型设计策略,通过混合多个专业模型,获得更好的性能)策略也能发挥不同模型的性能优势,进而降低推理成本。
为应用爆发做准备
外界一个常见疑问是,目前智能算力供不应求,推理价格战是否会加剧?
事实上,目前真正紧缺的是训练算力。这部分算力依赖先进AI芯片(如英伟达H100/A100),训练算力的确供不应求。但推理算力可用的芯片种类繁多(如英伟达A10/A30/A40等,英特尔、AMD旗下芯片,甚至是很多国产AI芯片),目前尚没有“卡脖子”危机,市场暂时供应充足。
推理成本会随着时间推移而不断下降。这是摩尔定律(芯片性能大约每两年翻一倍,同时价格下降为之前的一半)的必然结果。一种常见观点是,推理价格战加速了降价进程,AI应用会提前爆发。
AI应用的特点是,它比SaaS应用更轻量级、碎片化、原子化。一位云厂商生态销售负责人直言,大模型会让大量中小型独立应用开发商诞生。3人-5人的小团队,也能短时间开发出爆款应用。AI应用、SaaS应用的生态将交错融合。部分场景,AI应用更易用、更便捷,会逐渐替代SaaS应用。部分场景,AI应用长在SaaS软件上,它是SaaS应用的组件。这就像微信、支付宝等APP上还有小程序。
事实上,软件行业也在迎来10年来的第二次剧变。2014年云计算普及之初,SAP、Oracle、Salesforce、Adobe等基础软件公司开启云转型,随后纷纷跃升至千亿美元市值。2024年,这些软件公司又开启了AI转型——投资、收购AI创业公司,或是把AI融入软件产品、业务流程中。
一批AI独角兽也在诞生。微软投资的OpenAI估值已超过800亿美元,亚马逊和谷歌投资的Anthropic估值超过180亿美元。国际市场调研机构SaaS Academy 2024年1月数据显示,全球AI软件收入预计将从2018年的95亿美元增至2025年的1186亿美元。到2025年,AI将融入几乎所有软件产品中。
事实上,火山引擎已经帮部分企业客户落地大模型,并部署了AI应用。火山引擎的特点是,它不会只提供IT基础设施,而是更贴近企业客户实际业务需求。
OPPO手机的智能助理名叫“小布助手”。火山引擎用知识库能力帮“小布助手”提升了知识问答的准确度。过去半年,“小布助手”在豆包大模型的基础上,开发了模拟面试、英语教学、情感陪聊等功能。
捷途汽车是奇瑞汽车旗下的子品牌。捷途汽车与火山引擎智能客服、智慧营销等方面有合作。捷途汽车通过豆包大模型开发了捷途智能客服“AI小捷”,它能24小时回复客户提问,还能帮人工客服挖掘用户需求。捷途汽车还在和火山引擎共同训练销售培训大模型,捷途汽车希望借助“AI销售助理”提升全国一万多名销售人员的沟通技巧。
目前,大模型主要被用于客服、问答、知识库等场景,这场景暂时未超出市场预期。上述云厂商技术人士认为,理想情况是,B端、C端都会诞生有足够有影响力的应用。
中国某头部云厂商一位高管认为,移动互联网阶段,中国诞生了微信、抖音、快手、滴滴、小红书等公司。大模型落地阶段,中国科技公司同样有实力催生新一轮应用繁荣。关键在于,云厂商要为应用爆发做好准备。
谭待判断,AI应用的爆发速度取决于三个因素:算力价格、模型质量、开发难度。因此,除了大幅降低推理token价格,火山引擎还在模型平台、应用生态、基础设施三层进行准备布局。
应用生态繁荣,不是一两个天才的想法,要靠一群人的智慧结晶。生态繁荣要有很多人、低门槛试错,才有可能出现。这个观念也贯穿在火山引擎的基础设施、模型平台、应用生态建设过程中。
近一年来,全球云厂商在围绕生成式AI重新布局基础设施、模型平台、应用生态。这三层技术架构的逻辑关系是——基础设施围绕AI芯片提供大模型训练、推理所需的算力;模型平台集成自研、三方或开源大模型,提高应用开发效率;生成式AI应用要选择模型进行开发,直接面向业务。
模型平台层,火山引擎的重点是开放生态,提供字节跳动或第三方的高质量模型。火山引擎的“火山方舟” MaaS(即Model as a Service)平台延续了2023年确定的生态开放策略。它不仅支持字节跳动旗下的豆包系列大模型,也支持百川智能、智谱AI、月之暗面第三方大模型,以及Llama、Databricks、Mistral AI等国际知名的开源模型。开发者可以选择适合自己的模型。
应用生态层,火山引擎策略是,帮客户降低AI应用的开发、使用门槛。火山引擎有一套自研AI SaaS应用(数据飞轮、ChatBI报表、智能创作云等)。火山引擎还推出了扣子AI应用开发平台专业版,这可以降低AI应用开发门槛。火山引擎还发布了“万有计划”豆包企服联盟,目的是帮SaaS企业自身AI升级。
基础设施层,火山引擎正在提升系统承载能力。一种预判是,AI应用爆发后,突发流量、业务高峰也会随之而来。因此,火山引擎正在提供万卡规模的GPU(图形处理器)资源池,以此支撑大模型推理服务。谭待介绍,万卡集群本身管理难度就更大,再加上多种型号的AI芯片并行,AI芯片率故障率很高。因此,云厂商需要提高运维能力,确保系统稳定。
弯道追赶的关键一年
2024年会是火山引擎弯道追赶的关键一年。
国际市场调研机构IDC今年4月数据显示,2023下半年中国公共云服务整体市场规模(IaaS基础设施/PaaS平台软件/SaaS应用软件)204.8亿美元,同比增长8.7%。其中,公共云IaaS市场前五分别是,阿里云(27.1%)、华为云(13.5%)、天翼云(12.9%)、腾讯云(8.7%)、移动云(8.6%)。
2023年火山引擎营收增速超过150%,增速比2022年还高。营收增速也超过了中国市场其他头部云厂商。谭待预判,2024年火山引擎仍将保持高速增长。
火山引擎弯道追赶有几个关键因素——没有历史包袱,拥有充足算力,形成了差异化竞争。智能算力,尤其是推理算力爆发,这被认为会打破云计算市场的原有格局。
过去三年,中国云市场处于调整期。部分中国云厂商在削减政企项目,这导致营收增速只有个位数,甚至是负增长。火山引擎没有这些包袱,因此营收增速更快。
云需要算力储备。大模型无论是训练、推理,都需要充足的算力资源。一种行业内常见的说法是,字节跳动的智能算力储备在国内位居前列。
储备算力的直接原因是,有足够的业务需求。早在2022年末ChatGPT诞生之前,一些中国云厂商在转售闲置的GPU芯片。在当时,字节跳动的抖音等业务对训练、推理等算力需求大。火山引擎又在自动驾驶、生信计算等新兴领域获得了理想汽车、毫末智行、晶泰科技等一批头部客户。
在种种因素的影响下,火山引擎反而在不断囤积算力资源。ChatGPT诞生后,2023年中国掀起了大模型训练热潮,火山引擎顺其自然地成了很多创业公司的选择。智谱AI、月之暗面、Minimax、零一万物最初都在火山引擎上进行训练,百川智能也部分使用了火山引擎的算力。
多位云厂商高管的一致观点是,2024年中国智能算力供不应求的局面虽然有所缓解,但供不应求的格局短期内不会有根本变化。有万卡算力储备的公司,在未来12-18个月能够吸引更多训练、推理的需求,火山引擎会是少数几个可选项之一。
和其他中国云厂商相比,火山引擎的一个重要差异是更关注企业客户的业务场景和业务增长。
中国云厂商过去一个长期被诟病的问题是,只销售云资源、云平台,不关注企业客户的业务增长问题。这导致企业客户在数字化转型过程中,IT投入无法带来相应的业务回报。火山引擎作为后来者,吸取了这一教训。因此,火山引擎的PaaS(平台软件)、SaaS(应用软件)通常更贴近企业实际业务场景。
一批对业务增长有迫切需求的企业倾向于选择火山引擎。火山引擎的数据飞轮、数据消费等产品工具已被企业客户广泛接受。这改变了很多企业IT战略、业务战略无法统一的问题。
大模型爆发为国际、中国云厂商带来了更明确的增长预期。大模型推理算力爆发,会是火山引擎的重要机会。火山引擎的高速增长预期更确定。
国际云市场在2022年-2023年曾处于低迷期。当时受宏观经济影响,企业普遍在优化IT成本。亚马逊AWS、微软Azure、谷歌云遭遇了多个季度的营收增速下滑。但2023年末,亚马逊AWS、微软Azure、谷歌云靠大模型重回正常增长轨道。在国内云市场,2023年四季度以来,腾讯云、百度云也已恢复增长。阿里云预期2024年下半年将实现增长复苏。
云计算是长坡厚雪的赛道,不断降价做大规模是一个有效手段。国际市场的推理价格战在去年底就初现端倪。谷歌的Gemini模型、亚马逊投资的Claude3模型就接连推出了低廉的推理token价格,其价格远低于OpenAI的GPT-4系列。
至于中国市场,推理算力这一轮集体降价只是起点。可以预见的是,在众云厂的合力之下,未来算力资源的成本会越来越低。