每经记者 杨昕怡 每经编辑 梁枭
“字节大模型的发展路径是,先to C打磨产品,等模型能力具备竞争优势后,再to B拓展市场。”9月25日,火山引擎总裁谭待在接受包含《每日经济新闻》记者在内的媒体群访时表示。
基于这一发展路径,在早期版本今年5月应用于剪映团队研发的AI创作平台“即梦”后,豆包视频生成模型在9月24日的2024火山引擎AI创新巡展上正式亮相,并面向企业市场开启邀测。
自Sora开启了“视频的ChatGPT时代”后,国内快手、智谱AI、MiniMax和阿里等大模型玩家相继推出了同类产品,如今字节跳动入局,能否改变视频大模型的现有竞争格局?
通过发布会现场对两款视频生成模型的效果演示,谭待认为,无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均已达到业界领先水平。
与此同时,“音乐生成模型”和“同声传译模型”一并在会上发布,再扩字节AI版图。
作为业内率先进行大模型降价的选手,火山引擎在商业化上加速明显。谭待向《每日经济新闻》记者表示,to B调用量增长迅速。“对to C业务没那么清楚,但感觉也很顺利。我认为AI能实现端到端地解决问题,to B、to C业务边界没有那么明显。”
《每日经济新闻》记者从发布会了解到,截至今年9月,豆包大模型日均Tokens使用量已超1.3万亿,日均生成图片5000万张,日均处理语音85万小时。
字节进军AI视频,“一落地就开始考虑商业化”
8月31日,“AI六小龙”之一的MiniMax发布了视频生成模型video-1;9月19日,可灵AI完成第9次迭代,发布“可灵1.5模型”,同天的云栖大会上,阿里云再推全新的视频生成模型——不到一个月的时间里,本就硝烟四起的视频生成模型领域又迎来了新玩家。
在9月24日的火山引擎AI创新巡展上,豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布。
《每日经济新闻》记者注意到,这两款大模型支持的视频内容生成最长时长暂未公布,即梦App显示支持3秒、6秒、9秒和12秒的视频内容生成。与之相比的是,可灵在6月21日上线了视频续写功能,可让视频延续约5秒,最长可生成约3分钟视频。
发布会现场 图片来源:每经记者 杨昕怡 摄
“不同场景对视频时长要求不同,我们更关注针对不同行业的解决方案。”谭待在接受《每日经济新闻》记者采访时表示,豆包视频生成大模型在行业中的优势主要在于指令遵循能力、多镜头切换的一致性以及视频生成的泛化能力等方面。
发布会现场,多条官方视频的演示体现了上述能力:例如,在一条一男一女骑马驰骋的演示视频中,在长达10秒的画面里,两人表情、动作各异,但都表现得自然流畅。
值得关注的是,豆包视频生成大模型支持生成黑白、3D动画、2D动画、国画、厚涂等多种风格的内容。
“对于视频生成模型来说,(生产内容的)不同风格是很难做的。技术之外,主要看数据源的丰富程度。”一位大模型技术人员向《每日经济新闻》记者表示。谭待将其归因于“全栈能力的优势、技术突破以及抖音和剪映对视频的理解”。
秉持实用主义原则,谭待表示,新款豆包视频生成模型“从一落地就开始考虑商业化”,使用领域包括电商营销、动画教育、城市文旅和微剧本。
在商业化上同样“着急”的还有可灵。在8月20日晚间的二季度业绩电话会上,快手联合创始人、董事长兼CEO程一笑将可灵的商业化视作当务之急,“力争尽快实现可观的商业化变现规模”。
谈及定价策略,谭待透露,豆包视频生成模型的价格未定。“视频模型和语言模型应用场景不同,定价逻辑也不同,要通过新体验、迁移成本等来衡量产品价值,(产品)最终能否广泛应用也取决于它是否比以前的生产力ROI(投资回报率)提升了很多。”
“价格已不是创新门槛”,云厂商来到AI时代新战场?
除了全新的视频生成模型,本次活动还发布了豆包音乐模型和同声传译模型。截至目前,豆包全模态大模型家族已涵盖大语言模型、视觉大模型和语音大模型三大品类,共发布了13个大模型。
但光有模型是不够的,不乏业内人士称,目前大模型厂商落地应用是“拿着锤子找钉子”。那么,如何发现钉子、如何更省力地用合适的锤子钉钉子,这些都可能成为云厂商在AI时代的新挑战。
首先是横亘在大模型厂商和企业之间的成本问题。
在5月的发布会上,谭待宣布,豆包主力模型的推理输入价格仅为0.0008元/千Tokens,比行业便宜99.3%,打响了大模型领域的价格战。
“成本是关键,价格降十分之一,量就可能涨十倍。”在谭待看来,模型调用量和应用覆盖是当前关注重点,“我们主要关注应用覆盖,而不是收入,我们认为新场景的解锁更有价值,例如聊天、陪伴、生产力等方面的场景升级和企业应用场景的拓展。”
不过,他也坚持,面向B端市场的业务前提一定是要可持续,“不能像to C业务一样考虑靠广告盈利”,“to B产品要实现正毛利,我们有能力也有信心做到。”
在豆包大模型率先降价后,阿里通义千问、百度文心一言等模型也都陆续降价。今年云栖大会上,阿里云百炼平台上的三款通义千问主力模型再次降价,阿里云CTO周靖人甚至表示“相比未来庞大的应用,还太贵了。”
对于这一行业现状,谭待表示,降价后,从调用量来看,成本已不再是创新的阻碍,“接下来要做的是在这个价格基础上,提高模型的质量和性能,质量指的是让模型能力更强、更多元。”
经过一轮“普降”后,大模型行业将不再一味只“卷”价格,现阶段要比拼的是模型性能,这一点也在客户端的需求上得到了佐证。
据谭待观察,对于大模型的落地,to B市场的需求变化缓慢,核心需求是降本增效。“企业应用AI时,以前是自上而下规划,失败概率大,现在需要自下而上创新。”
《每日经济新闻》记者注意到,在辅助企业进行数字化转型的过程中,火山引擎今年联合各方成立了智能终端大模型联盟、汽车大模型生态联盟、零售大模型生态联盟,且外部客户已覆盖手机、汽车、金融、消费、互娱等30多个行业。
如今,字节手中又多了几把称手的“锤子”,怎样找到各行各业中与之匹配的更多“钉子”,就是接下来对火山引擎的考验了。