欢迎来到「C位」,它是CMC资本团队全新打造的与创业圈、科技产业、学术界分享交流的频道。通过这个窗口,我们关注和记录在当下发生的诸如企业数字化、产业智能化、业务自动化、无人驾驶与智能车、新能源技术、元宇宙等一系列科技领域中的技术前沿、创业实践,以及行业趋势思考,内容形式包括业界对话、行业观察、投资观点等等。我们期望以开放的信息分享和坦诚的观点解构为特色,注重质量,持续输出。
本期「C位观察」由CMC资本董事总经理易然执笔,给大家带来AI领域系列专题的第一篇研究——「生成式AI与AIGC 」(上)。
易然 Yi Ran
CMC资本 董事总经理
专注投资领域:基础软件、云计算、TMT、B2B
长文预警:本文超过5000字,
预计阅读时长:13分钟
1
导言
如果谈到2022年海外科技最热的领域方向,生成式AI (或称作AIGC) 绝对是绕不开的一个词。 尤其是伴随着今年7月-8月Midjourney、Dall-E和Stable Diffusion等相继发布或面向公众开放 ,诸多爱好者们生产了大量的AI文转图作品进行广泛传播。 经过各类媒体的热烈报道,充满着可能性和想象力的生成式AI(或AIGC),在创业和投资生态的寒冬中注入了一股热潮。
图:Stable-diffusion(蓝色)在Github的加星速度远超历史上的著名开源项目
文化内容是CMC资本的创立之源,也是我们产业生态的核心之一;科技创新对内容带来的变革则是我们多年来重要的投资主题。同时,我们联合汪军教授等海内外学者设立了上海数字大脑研究院,专注于预训练大模型和新一代AI技术应用。因此,我们对于生成式AI、大模型乃至 AGI(Artificial General Intelligence) 领域一直有深度的关注。
本文在生成式AI的背景和应用方面,不再重复简介,而期望更多从生成式AI的产业发展方向与挑战,分享一些我们的观察,与各位创业者和同行交流;在这个系列的后续两篇中,我们也会分享对大模型和AGI的一些最新观点。
2
新的篇章还是新的泡沫?
人工智能在历史上的每一次大进步,都曾激起人们广阔的想象以及随后的冷静,但也会留下影响深远的应用与坚实的技术和人才积累。我们认为这次生成式AI的热潮也不例外。
图:AI发展的几个路径与阶段
回顾产业发展的简短历程,第一波机器学习浪潮主要完成回归、分类、推荐、排序等以“相似性”为核心的 数据类应用 ,从2014/15年开始,各种深度学习的框架得到广泛应用,使得AI的发展进入了新的阶段,我们主要看到以视觉语音识别、NLP等为代表的 感知类应用 的大发展;深度学习模型也使得推荐排序等数据类应用(如内容、广告等)效果不断进步。由于模型特点和数据的局限性,决策和生成等类型的任务则尚未出现大规模的应用。
而从2017年Attention is all you need论文介绍Transformer框架开始;学术和业界实验室接连发布Elmo, BERT、GPT、Dall-E、悟道、Megatron等一系列大模型。而随着这些大模型逐渐开源或对外合作,2020-2021年开始,涌现了一大批基于大模型的应用。同时,这些模型的通用性、自训练和大规模并行训练、对人工标注数据需求少等特性,使其在决策和生成类任务上,相比于以前的方法在效果和实操性上具有极为显著的进步,能够真正走向应用(我们会在下一篇文章讨论大模型相关的话题)。同时,也为AI真正走向认知、AGI甚至机器意识开启了更多的可能性。
与此同时,AI在生成类任务的应用上还非常初步。一方面,诸多模型还存在一些技术上的明显缺陷。比如在图片生成中,现有预训练大模型往往出现对于手部处理不好、对物品空间和特征关系的混淆、无法生成准确文字等等问题,参见下图。(注:很多问题在后续的模型版本中都有不断的改善)
图:目前生成式AI常见问题举例:非人类手部、混淆的空间位置颜色、不合理的大小比例、无法准确输出文字和字体
另一方面,对于刚投身生成式AI或AIGC行业中的多数创业者而言,能够真正找到客户需求,实现Product-Market-Fit,仍然有不少的挑战。在于行业研究和与创业者交流的过程中,我们意识到,寻找有明确需求的生成式AI应用场景,需要从技术可行性和应用突破性进行清晰的思考。
从技术可行性角度(Is it feasible?),应用场景大概率需要符合几个特性:
1. 开放式命题和解决方案
这一代模型仍然不适于需要严密逻辑推理的命题
2. 对真实性没有要求,对精确性也有一定的容忍
模仿生成的方法本就和真实性存在冲突(比如Meta用于帮助学术论文撰写的模型Galactica就出现了许多错误信息甚至引用不存在的论文)
生成式AI目前在能力和成熟度上仍然有许多缺陷
3. 存在人的介入和决策(Human-in-the-Loop)
以生成为主要目的,且往往是多模态之间的转化,需要人的主观意愿作为输入(比如画什么主题、写什么内容)
目前几个主流大模型主要基于LLM(large language model)训练, prompting等方法对于提高模型效果极为有效
由于上述开放性和非精确性的特性,也需要人的参与和判断
从应用突破性角度(Is it 10x better?),初创企业可以从以下几个角度进行探索和验证:
1. 在创意领域中也可寻找 高重复性、高人力消耗 的任务
生成效果再好,如果仅能解决少数任务也容易沦为玩具。只有能系统性解决大规模人力成本问题才有明确商业价值
可能的方向包括:大批量文本、图像、视频、音频等的编辑、风格化、再创作等;虚拟世界中大规模的资产(尤其是3D模型)、人物、设定与对话的生成;大规模的个性化销售邮件和客服;(对效果要求不高的)简介/宣传短片/广告等视频制作
2. 在“反人性”的任务上提供协助
这类产品门槛较低,也是目前最为常见的AIGC应用或者以工具插件方式出现
不瞄准ROI,而从提供便利性出发,确实存在类toC的机会,grammer.ly的成功也证明了这一点
需注意的是,这一方向尤其容易面临着更同质化的竞争以及来自于该领域领先平台的直接威胁(Adobe/Figma, Microsoft/Github, Canva, Notion)
可能的方向包括:代码与开发(包括前端设计),各类文章、营销素材、演示材料撰写,设计创作的灵感激发,知识库/内容库的搜索和总结
3. 实现以前人工不易完成的任务
从无到有:生成没有版权成本和潜在纠纷的图片、音乐、音效等(),以及声音模拟等多模态任务
优化SEO/推荐效果的文字、广告物料
3D模型压缩、图像还原和清晰度提升
各领域的具体公司以及业务发展情况,在许多媒体报道和概览文章中都已有介绍,本文不再赘述。但可以明确的是,这一领域创业公司即便在今年的经济形式下,也迎来了快速的发展,代表性公司中不乏数倍的用户增长,跟据Base10较宽泛口径的统计,在今年也有10亿美元量级的总融资规模。Jasper(7500万美元ARR)和Copy.ai(1000万美元ARR)等公司已经在商业化方面有了可喜的表现。
在海外,据不完全统计,可能已经至少有200多家创业公司专注于生成式AI的方向,同时我们也看到在国内已经有小几十家新创公司投身于这一热潮当中。
图:生成式AI领域公司在2022年用户增长显著,融资热度较高; 资料来源:Base 10
图:代表性公司Jasper和Copy.ai收入增长表现;资料来源:Sacra
3
巨头还是创业公司的机会?
这几乎是新技术方向和新领域涌现时老调重弹的问题。把这个问题引申一步,核心还是“是创业公司先在go-to-market/客户触达方面赶上巨头,还是巨头在产品方面先赶上创业公司”。
但这个老问题在生成式AI领域,可能会变得尤为现实:
AI本身是通用技术。在上一波AI热潮中,除了少数新的应用领域如自动驾驶以及安防监控(中国的特殊市场),AI带来的变革和红利还是多数被互联网大厂和一些产业巨头所获得。
生成式AI目前看来主要是在成熟方向的应用(内容娱乐、创意营销、设计开发等),均有非常成熟的软件与平台;如果新一批创业公司的产品只具有改善而非颠覆性的优势,很难突破现有生态系统对于终端用户的把控(Github, Photoshop, Figma, Notion均推出了生成式AI的工具和插件,而微软更是Open AI的主要出资方)。
这一代AI技术较大程度上依赖于大模型的发展,且仍在快速进步和迭代,需要拥有顶尖的技术团队和较高的训练成本,否则在技术上也有很大的淘汰风险。这都使得创业公司自己维护一个分支的大模型的门槛极高。
值得注意的是,与前代用专门甚至独家的数据集训练的模型不同,通用大模型本就基于极为广泛乃至公开的数据进行训练,这使得数据的独占性对于大模型的训练变得没那么重要,模型层倾向于集中而非分散。
目前,生成式AI领域的初步生态和格局已经开始浮现:
图:生成式AI领域产业与市场格局示意
在基础设施层,格局仍然稳定,AI相关的开发平台、工具、基础软件等也已经较为明朗。
而模型层则是生态中全新的环节,其竞争也才刚刚开始。
在大厂中,谷歌作为领域内的学术奠基者仍然在持续迭代,但并没有明确以此建立平台的计划,Meta也处于类似情况。亚马逊则更是缺乏模型层布局。相对而言,微软+Open AI的联合目前思路较为清晰,Open AI已经建立围绕其GPT-3模型建立API体系,且已经有至少300种应用(还在快速增加),而微软或将优先为生态提供算力。
但目前独立融资的,如Stability等仍然在迅猛发展,形成一定的挑战。在国内,阿里、百度和北京智源研究院也以在领域内不断有建树。
在这些模型中,多数已经开源,甚至开始积极建立生态。我们认为,,应用层的创业公司能够在产业链上分享多少利润,一个很关键的变数就是模型层各家开源的策略和程度。
模型层定位于开发环节,赢得更多的开发者,建设更丰富的生态是取胜的关键,充分进行开源,似乎是竞争中合理甚至必要的选择。
但这在经济性上似乎又面临不小挑战。前面已经提到模型层持续训练的高成本,如果模式过于免费导向,或者开源商业化方式设计不当,很容易处于持续投入的状态。
开源带来的另一个可能性,是应用层的公司可能会基于开源大模型,自己针对应用领域仍然进一步进行fine-tuning和蒸馏剪枝等。这可能使得在模型层专注于SOTA (State-of-the-art)的中小公司生存空间受到挤占。
而模型层公司如果能和基础设施层(IaaS)的资源使用或ML Ops等开发工具进行更深度的进行结合,则会有更加清晰的商业模式。
模型层的商业模式设计是个有趣的命题,我们将会在系列的下一篇文章详细探讨,相信未来也会看到很多动态变化。而相应的开源程度和策略,对于应用层创业者的发展和利润空间又有相当的影响力。
至少在目前看来,Stability等采用的模式类似于数据库/大数据领域的开源基础软件,创业公司仍然有以较低成本自己使用和调整模型的可能性。
如果模型层公司直接进入应用层竞争呢?很有可能面临一个两难的选择:1.如果保持开源,则其应用相对竞争对手没有该有的技术优势,而在产品/业务端又积累不够;2.如果停止开源或分岔,则模型层的平台业务会受到很大影响。
现在做任何判断,当然都还为时过早。但基于目前的产业演进格局,如果能利用好如下几点优势,我们对于广大创业公司在应用层的发展可能性,还是充满信心的:
1. 结合行业知识和优势,构建业务端的生态
生成式AI的应用一定离不开与现有的行业场景和参与者的工作方式紧密结合,无论是营销、设计、开发等职能,还是建筑装修、媒体娱乐、电商、法律等行业
面向B端的创业者必须发挥好垂直行业的认知和经验,在产品定义上持续保持自己的独到优势。如某AI视频编辑软件,面向不少中小型出海电商客户,一方面要针对其终端市场多语言、多文化进行一些核心功能的加入;另一方面考虑到客户对于广告投放方法和素材制作的陌生,需要提供更好的帮助
2. 依靠但不迷信大模型,综合运用各类技术创新
Diffusion等模型确实带来了生成式AI领域一些突破性的进展,但绝不是唯一的模型和方法,行业的具体落地往往需要综合运用多类型的AI生成技术(音频、文字、对话、表情、虚拟人、风格化等等),也很可能可以结合GAN等更成熟的方案
不少创业公司自己基于开源模型进行fine-tuning,或结合了自己的一些其他算法创新,在其所专注领域上取得了很好的效果或成本节约
3. 打铁还需自身硬,快速找到PMF和商业化路径是首要考虑
在当前较为严苛的资本市场环境下,即便是较热的领域,投资者也很难持续靠星辰大海的信仰支持烧钱
创业公司必须不断迭代,直到找到明确的PMF。以Jasper为例,2年内实现15亿美元估值的背后;是他们长达8 年时间的探索,创始团队经历了 2 个 失败的SaaS 创业和一个市场营销公司的小规模退出,才目前迎来了AI的突破发展能够很好助力营销的机遇,而营销+Saas又是他们非常熟悉的领域。目前市场情形下,可能无法容许进行这么长时间的探索,要求创业者以最小代价摸清市场需求,快速完成转型调整
(未完待续)
「C位观察」锂电池专题:展望下一代锂电池技术(二) | C位
「C位观察」AR专题系列(3):见微知著,气象万千——微显示的路线探索 | C位
本文来自微信公众号“CMC资本”(ID:CMCCapital),作者:C位,36氪经授权发布。