如果2023年是文本生成大模型爆发的一年,那从2023年下半年到2024年上半年,就是视觉大模型(包括图片和视频)的井喷期,MidJourney V6,Sora,Stable Diifusion 3-Ultra等模型引领了这个潮流。
现在,视觉模型的创业井喷仍在继续,最新的例子是Black Forest Labs,它由Stable Diffusion的原始团队创立,并且刚推出了尺寸12B,采用DiT(Diiffusion Transformer)架构的视觉大模型FLUX.1,具有媲美最先进模型的输出表现。
本图片由FLUX.1生成,作者viet
Black Forest Labs近日获得Andreessen Horowitz(a16z)领投,天使投资人Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun以及其他著名的AI研究和公司建设专家参与投资的3100万美元种子轮融资。它还透露General Catalyst和MätchVC的后续融资也已经有了眉目。
FLUX.1文本生成图像模型有三种版本,它除了有闭源以API提供的方式外,还可以在Apache2.0许可下开放获取。在StabilityAI风雨飘摇的现在,它让开发者们拥有低成本使用的强大视觉基础模型,为开源人工智能社区注入了新的活力。
Black Forest Labs由杰出AI研究人员和工程师组成,在学术界、工业界和开源世界都拥有良好的积累。他们此前创建了VQGAN和潜在扩散(Latent Diffusion)模型,Stable Diffusion图像和视频生成模型(如Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像合成的对抗性扩散蒸馏(Adversarial Diffusion Distillation)。
它的核心领导团队由Robin Rombach、Patrick Esser和Andreas Blattmann组成,尤其Robin Rombach,他是Stable Diffusion的两位主要创建者之一。可以说,他们在潜在扩散模型上的工作为Stable Diffusion奠定了基础,并影响了如DALL-E 2和3,以及Sora等模型的核心架构元素。
Black Forest Labs表示,他们的核心信念是,广泛可访问的高性能模型不仅能在研究社区和学术界内促进创新和合作,还能增加透明度,这对信任和广泛采用至关重要。
FLUX.1模型家族
Black Forest Labs最新发布的是FLUX.1文生图模型家族,这一系列模型均采用DiT(Diiffusion Transformer)混合架构,尺寸为12B(在视觉模型中属于超大尺寸),它还采用了构建流匹配(flow matching)方法等新型扩散模型训练方法,以及引入旋转位置嵌入和并行注意力层来提高模型性能和硬件效率。
这一系列新模型在图像细节、提示遵循、风格多样性和场景复杂性等方面取得了良好的效果。例如,它可以生成高分辨率图像,人体生成更具有解剖学合理性,而且因为Transformer的加入,在复杂指令遵循上表现更优。
FLUX.1共有3个版本,FLUX.1 [pro],FLUX.1 [dev]和FLUX.1 [schnell]。
FLUX.1 [pro]是性能最佳的版本,具有一流的提示跟随、视觉质量、图像细节和输出多样性。它可以通过Black Forest Labs的API以及Replicate和fal.ai等模型云平台获得。
FLUX.1 [dev]是一个开源权重的指导蒸馏模型,它是从FLUX.1 [pro]蒸馏而来,FLUX.1 [dev]在保持类似质量和提示遵循能力的同时,比同等大小的标准模型更高效。FLUX.1 [dev]的权重可在HuggingFace上获取,但它不是一个可以商用的开源模型。
FLUX.1 [schnell] 专为本地开发和个人使用量身定制,它采用的是宽松的Apache2.0开源协议,推理代码可在GitHub和HuggingFace的Diffusers中找到。这个模型在推理速度上进行了优化。
Black Forest Labs将FLUX.1系列模型与Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra等主流视觉模型进行了对比,无论是竞技场ELO分数,还是对模型尺寸,生成质量,指令遵循等指标的平衡,它都达到了SOTA。它开源的两个模型,也超越了Stable Diifusion 3系列的相应类型模型。
今年,其实视频模型的流行程度,超过了文生图,Black Forest Labs也预告了其视频模型,这个视频模型将以FLUX.1为基础,实现高精度,高清晰度和高速度。
a16z在一篇博文中表示:“视觉AI正面临供应链问题。尽管图像和视频生成的基础模型正在迅速发展,但这些基础模型只是AI价值链的起点。要发挥这些模型的最大潜力,需要全球最优秀的产品和工程团队来打造令人愉悦、简单且量身定制的工作流程和终端用户体验——这便是价值链的终点——而无需成为生成建模研究的专家。
因此,我们非常高兴地宣布对Black Forest Labs(BFL)的种子投资。这个团队致力于为开发者构建世界上最好的开源视觉模型。BFL专注于解决这一需求,只关注价值链的起点部分,从而让开发者和产品工程师能够专注于终点部分。”
为什么会有视觉模型的井喷?一方面,这是需求导致的,视觉模态对于人们的刺激,显然会比单纯的文字更大,另一方面,这和AI模型的本质,以及实现AGI的道路有关。
Transformer模型的本质是预测下一个Token,AI模型的本质是对数据的“压缩”,那么视觉模型预测的就是下一个视觉影像,压缩的是视觉数据,这比对文字的压缩更接近真实世界,一些学者也认为这离实现AGI更近。
而还有顶尖的AI学者认为,视频还不够,模型的数据应该是三维的,需要引入“空间”这个属性。例如,美国国家工程院院士李飞飞对国内媒体表示,实现AGI的关键一环是“空间智能”,而非二维智能。只有通过空间智能,才能看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。
从学术世界回到AI视觉模型的创业和应用。目前的格局与文本大模型类似,分为模型派和应用派。
模型派以OpenAI为例,它的杀手产品仍然只有ChatGPT,DALL·E 3是作为一个功能嵌入应用中,它并没有为视觉模型开发专门的应用,也没有针对某个具体的场景进行针对性优化。
应用派,在ToC方向比较典型的还是MidJourney,它已经有自己的完善应用生态,也有自己不断迭代中的模型。在ToB方向,大厂的Adobe将AI视觉模型的能力融入到它的视觉工具套件Firefly中,也有synthesia这样专注于用AI视觉模型为企业生成类真人avatar的创业公司。
在国内,有快手可灵,智谱CogVideoX(开源)这些视频模型,而且在Sora还是“期货”的时候,它们已经逐步开放了,其效果也具有较强的竞争力。
还有一类创业公司类型是模型+应用,在国内比较典型的例子是Hidream.ai。它具有自研的DiT架构大尺寸视觉模型,不仅有针对专业创作者的文生图和文生视频应用,在电商、视频彩铃等垂直场景也有专用工具。
这一类创业公司是具有学术/商业/大厂背景的顶尖创业者,在AI创业时应该选择的方向。
也许你已经注意到,Black Forest Labs的FLUX.1系列模型中,有两个模型都是开源的。事实上,开源模型对于AI的开发者生态及创业和应用生态是相当重要的,因为一方面,开源模型使开发者社区能够探索更广泛的应用和用例,也允许外部研究人员分析模型中的潜在偏见或问题,帮助模型建立了信任并提高了可靠性。
另外一方面,开源模型对于创业公司和小型企业使用AI特别重要,它帮助这些企业降低了模型训练负担,进而促进了小团队在应用方面的创新性。要知道MidJourney获得1亿美金收入时,整个团队只有十几人。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的,36氪经授权发布。