神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:生成式人工智能(GenAI)的势头十分迅猛,似乎所有白领行业的市场都可以用 GenAI 重新做一遍。人人都对这场淘金热摩拳擦掌,但是你最好先冷静一下,想想看自己能不能真的淘到金子。或者也许你的确淘到了金子,结果却发现换来的还不够买镐和铲的钱。本文对此进行了全面盘点。文章来自编译。
生成式 AI 淘金热的狂飙开始了,你系好安全带了么?科技巨头会拿起自己的镐和铲子统治这个市场吗?哪些初创企业会发财致富?“X 的 copilot”会成为找到富矿的商业策略吗?创业公司该如何竖起高墙来阻止其他的探矿者?美国能再次拥有储量最丰富的金矿吗?
生成式 AI 的淘金热正在进行得如火如荼。生成式人工智能 (GenAI) 现在已经能够创作各种内容——如文字、图像、视频和音频——而且质量往往与人类创作的内容已经没有区别。写作、视觉设计、编码、营销、游戏制作、音乐创作和产品设计只是 GenAI 迅速影响的人类创造力的其中几个领域。随着创意服务集成到 Microsoft Office 365、Slack、Discord、Salesforce Cloud 和 Gmail 等产品之中,在我们不知不觉间,GenAI 就将让数十亿人的生产力提高到新的层次。我们很快就会用 GenAI 来创建我们的初稿。
那么谁能靠 GenAI 赚钱呢?我向 OpenAI 的 Dall-E-2 文本生成图像服务提出了这个问题,它为我生成了下面这张图像。还不错。
给 Dall-E-2 的提示:“谁将从生成式 AI 中赚钱?”
2018 年,我写过一篇讨论人工智能领域谁能赚钱的热门博文。本篇是我在 GenAI 吸引了数十亿美元投资、有了成千上万个新用例之后的后续文章。从本质上来说,在这场淘金热中有可能捕捉到价值的可分为五个“层”:
基础设施层——提供芯片和云基础设施的公司会运行大量底层的 GenAI 计算机模型。
基础模型——公司开发出文本、图像、音频等生成式创意输出的大模型。
应用——正在开发创造性应用的大小公司,那些应用将被消费者、企业和政府所使用。
行业和组织——作为自身创造性活动的一部分,会有各个行业、组织从 GenAI 应用、工具和平台之中析取价值。
国家——在国内及跨国界建立、出口和部署 GenAI 技术的国家。
©生成式 AI 价值捕获的五个层面
那么这 5 层分别会有哪些赢家呢?
凭借着自身的云服务与硬件芯片,科技巨头已经在 GenAI 基础设施层占据主导地位。
将提供 GenAI 基础设施的科技巨头及芯片公司的例子
微软和谷歌在美国的云计算市场处于有利地位,而百度和阿里巴巴在中国处于有利地位。其庞大的超级计算机云计算基础设施可以运行 GenAI 那些复杂、昂贵的文本、视觉与音频大模型。已经有很多开发者使用他们的云 AI API 服务及工具来开发应用,随着创业者一拥而上,去解决几乎无限的 GenAI 用例,这种趋势预计会加速。亚马逊对基础模型的态度一直保持沉默,所以他们会如何做出回应将是一个大问题。
GenAI 要使用大量算力来生成创意输出。OpenAICEO Sam Altman 表示:
没办法,到了一定时候我们得将 [ChatGPT 和 Dall-Ee] 货币化;计算机的成本太高了。”
有传言称,Open AI 训练 GPT-3 光是电耗就花了 1200 万美元。所以毫不奇怪,2023 年初,OpenAI 从微软那里又拿到了 100 亿美元的投资,其中大部分将以 Microsoft Azure 超级计算基础设施访问积分的形式出现。
芯片制造商对超级计算机能力的需求垂涎三尺。NVIDIA(纳斯达克股票代码:NVDA)的市值已超过 5000 亿美元,股价已从 2018 年的 60 美元上涨至 2023 年初的 240 美元。科技巨头也在投资自己的专为 AI 优化的芯片。美国最近禁止向中国出口先进人工智能芯片,这将加速中国对半导体行业的国家援助和国内投资。考虑到所需要的投资金额,这个领域的赢家将是那些大玩家或得到大玩家支持的人。
科技巨头的规模与业务范围赋予了他们在开发 GenAI 基础模型方面的竞争优势。这些模型利用了科技巨头庞大的计算资源,并且有大量数据可供训练。比方说,OpenAI 的 GPT-3 文本模型,也就是所谓的大型语言模型 (LLM),是基于约 45 TB 的文本数据进行训练的,这些文本数据代表了从大部分英语互联网“吸走”的 5000 亿个单词。同样地,OpenAI 的 Dall-E-2 文本生成图像模型利用了 6.5 亿个图像-标题对进行训练。
由于未能抓住这些基础模型的数十亿最终用户在未来产生的巨大收入流,从而失去了在云服务领域的领导地位——科技巨头可不希望这样的事情发生。微软已经与 OpenAI 进行深度合作,谷歌最近则推出了 Bard 语言聊天机器人,这个模型补充了谷歌的 Imagen 模型,可以用来根据输入文本创建逼真的图像。
中国的科技巨头也没有停滞不前。阿里巴巴正在测试一项内部聊天服务。百度已经提供了 ERNIE-ViLG,一种文本生成图像的参数模型,而且目前正在测试一种新的聊天机器人服务。 科技巨头的规模为其提供了一些创业公司难以复制的优势。
文本、图像、视频、音频以及工具和服务的基础模型提供者示例
科技巨头具有可解决基础模型的真实性、偏见以及毒性问题的规模优势
科技巨头也可能是唯一能够应对 GenAI 阴暗面的参与者。尽管 GenAI 仍处于起步阶段,但基础模型的问题正在变得越来越明显。这些问题包括真实性(GenAI 生成的内容完全是错误的)、偏见(对特定群体的偏见)以及毒性(比如种族主义、厌女或仇恨言论)。2023 年初,由于金融市场对谷歌 Bard 聊天机器人服务给出的错误及冒犯性的答案感到恐惧,令 Alphabet 的市值缩水了 1000 亿美元。微软的限制版的 Bing 聊天机器人也表明,AI 会对用户越出保护措施的提问做出令人不安的(甚至是种族主义的)回应,虽然微软的股价并没有因此受到重挫。还有一种叫做提示注入(prompt injections)的新型网络攻击,这种攻击可以通过注入恶意指令来绕过护栏。
开发这些基础模型的人面临的挑战是确保输出既可靠又准确。基础模型不能简单地复述从广泛的互联网搜集到的有偏见和有毒的内容。这些模型也会有“幻觉”。这意味着它们可以自信地为可能与事实不符的问题提供结构合理、貌似头头是道的答案。正如 Character.AI 的联合创始人 Noam Shazeer 在《纽约时报》上所说的那样:
“……这些系统不是为真实性而设计的。它们是为似是而非的对话而设计的。”
或者换句话说,他们是自信的废话艺术家。
科技巨头无法承受模型失败可能带来的声誉、财务和战略风险。他们正在建立包括护栏和模型调整在内的监管监督系统。为了建立起用户对自己的信任,同时满足可能的监管要求,科技巨头需要为模型透明度、可解释性以及来源引用设计解决方案。基于人类反馈的强化学习 (RLFH) 需要一支真正的人类队伍来审查和评估模型对问题的回答。这些不是可以大规模解决的简单问题。在这一点上,处在有利地位的依旧是科技巨头,因为无论是资金、工程人才、数据集,还是数十亿用户所带来的这个人类反馈循环的规模,别人都没法跟他们相提并论。
科技巨头的模型未必适合所有情况
尽管规模庞大,但科技巨头也无法垄断完基础模型这一层所有的市场。他们的模型大体上属于横向,非常适合回答你能想到的任何消费者型问题,虽然未必能回答正确。但是,这些模型未必总能很好地满足那些垂直型任务的企业需求。为什么? 因为科技巨头的横向模型 (1) 在执行专业任务上未必总是表现良好,(2) 往往不能保护企业的专有数据,(3) 没有接受过非英语语言的训练,(4) 缺乏透明度和可解释性,(5) 不太适合在边缘设备和本地使用,(6) 在他们的云端运行的话可能很昂贵,并且 (7) 导致公司对科技巨头形成依赖。
一些资金极其充足的初创企业正在提供科技巨头基础模型的替代方案
科技巨头的基础模型并不适合所有人。这为部分资金极其充足的初创企业留下了空间。这些初创公司已经筹集了不少资金,如果不是数十亿美元的话,也有数亿美元了。
Anthropic 成立于 2021 年,专注于更可靠、可解释及可指导的大规模语言模型。目前公司并已筹集超过 10 亿美元的资金,其中最近有 3 亿美元的投资来自谷歌。
AI21labs 为其 Jurassic-1 文本模型筹集了 1.19 亿美元。Jurassic-1 的参数量超过 1780 亿,规模与 GPT-3 相似。
Cohere 已为大规模语言模型(LLM)以及自然语言处理 (NLP) 即服务筹集了 1.65 亿美元。
BLOOM 这个 LLM 项目获得了私营公司 Hugging Face 以及欧洲研究机构的支持,其目标是建立一个具备 1760 亿个参数的开源 LLM。它接受了 46 种人类语言的训练,其中包括 20 种在大多数 LLM 中代表性不足的非洲语言。
总部位于英国的 Stability AI 最近为其开源图像生成服务 Stable Diffusion 筹集了高达 1 亿美元的资金,公司估值已超过 10 亿美元。
科技巨头意识到了他们模型的局限性。尤其是微软,这家公司最近宣布,企业可以在不必担心自己的专有数据被共享的情况下“微调”他们的模型,从而让“为所有人开发出更好的模型”成为可能。
不过,这些举措没法令所有人满意。德国初创企业 Adelph Alpha 最近就筹集了 3100 万美元,它正在通过自己面向“欧洲”的模型来应对企业对科技巨头基础模型的担忧。但是,他们能不能跟那些科技巨头掰手腕上尚不得而知。
科技巨头将会赢得横向型基础模型的竞争,为少数资本十分充足的初创公司留下了一点空间。或许像 BLOOM 和 Stable Diffusion 这样的开源模型将赢得部分规模市场,或者至少能找到一个利基市场。按照惯例,将会有一些工具和服务提供商通过提高这些基础模型的易用性来获利。但总的来说:
科技巨头的市场主导地位只会越来越巩固,因为凭借着从基础云服务中赚取的大部分资金,他们有能力免费赠送基础模型。
虽然 GenAI 淘金热的镐和铲子会被科技巨头抢走,但应用层的竞争环境似乎更加公平。既有的企业软件公司、“全栈”型初创公司以及由这些基础模型支持的数千家初创公司将会提供新的 GenAI 应用。
传统的企业软件公司,比如 Salesforce 与微软等,会通过有机的或吸收思想的方式将 GenAI 功能带给他们的数十亿用户。微软还会把 GenAI 聊天机器人服务整合到自己的 Bing 搜索应用之中,直接挑战谷歌在搜索领域的霸权地位。
少数资金雄厚的初创公司将提供专门的“全栈”应用。在对专门数据、序列以及计算有要求的领域,这些公司会开发出自己的底层基础模型。比方说,通过利用应用建立自己的模型,GenAI 可以彻底变革药物发现和材料科学。投资者会被这些初创公司所吸引,因为这样的公司可以带来丰厚的经济回报,并且面对竞争具备强大的防御能力。
比方说,Adept AI 已经筹集了 6500 万美元用于开发基于 LLM 的、拥有自然语言界面的下一代机器人流程自动化 (RPA)。尚未公开的 Inflection.ai 也在做类似的事情。Character.AI ,一个利用角色的声音和知识的聊天机器人,已经以约 10 亿美元的估值筹集了 2 亿美元至 2.5 亿美元的资金,用于专业 LLM 的全栈实现,从而为实时的客服代表企业应用提供支持。
GenAI 的采用速度会非常迅速。就算 AI 生成的营销文案的初稿不完美,编辑起来也很简单。ChatGPT 是史上增长最快的消费者 app,在推出后仅两个多月的时间内,其月活用户就超过了 1 亿。这意味着对数量几乎无限的 GenAI 创意应用的争夺将十分激烈,且瞬息万变。
提供应用来解决主要 GenAI 用例的主要初创公司示例
你能想象到的每一个用例都会有一个“Copilot”GenAI 应用
将 GenAI 投入使用之后,你会看到世界各地的消费者、企业和组织用上由建立在这些基础模型之上的初创公司开发的应用。许多 GenAI 初创公司将利用“Copilot for X”商业模式来帮助用户完成“创造性”的任务,如写作或编码,以及重复性的任务,如数据输入或表格填写。以下是部分在各种垂直用例中竞相赚钱的初创公司。
聚焦一般文本写作的初创企业正在实时协助用户完成日常写作任务,比方说撰写电子邮件、创作文档,以及填写文本表单。AI21labs 的 Wordtune 将“像专业撰稿人一样重写你的文字。”写作助理之王是 Grammarly,这款 app 已经赚了超过 4 亿美元。写作初创企业的名单很长,包括 Lex、HyperWrite、Compose AI 以及 Rytr。
聚焦销售和营销的初创公司包括已筹集 1.45 亿美元,俨然已成庞然大物的 Jasper.ai。Anyword 也已融资超过 4500 万美元,提供“用于实现销售高转化率的文本内容”。面向语言生成的 Persado 筹集了超过 6600 万美元的资金,“在 96% 的情况下生成的文字表现优于你最好的文案。”初创公司越来越聚焦于特定任务,比方说撰写产品营销说明。
图像生成初创企业要靠 Open AI 的 DALL-E-2、Stability AI 的 Stable Diffusion 以及 Midjourney 的文本生成图像基础模型提供的支持。这方面的初创企业有帮助用户创建拼贴画的 Art Breeder 等。
脸部与头像生成的消费者型初创公司包括 Lightricks 的 Facetune 应用。这款 app 可帮助创建“完美的”Instagram 图像。此外,Lightricks 也已融资 3.5 亿美元。非常受欢迎的 Lensa AI app 的用户可以用它来创建个人的“魔法头像”。可让用户将他们的脸换成不同设置的 Reface 已经筹集了 550 万美元的资金。
产品设计初创公司包括 Botika,他们正在“重塑时尚摄影”,可以创作出在各种环境下穿着优质服装的超逼真模特图像。在 Maket 的协助下,“从文本提示生成建筑计划只需要几分钟,而不是几个月。” 对于希望翻新的房主来说,Tailorbird 加快了平面图的出图速度。Swapp 则筹集了 700 万美元来帮助实现项目施工文件的自动化。面向房地产设计的 TestFit 已经筹集了 2200 万美元。
聚焦视频的初创公司则提供视频构思、生成、编辑与员工协作的工具。其中 Runway 是资金最充裕的,他们存进银行的钱还有近 1 亿美元。Magnifi 已筹集了超过 6000 万美元用于视频编辑,而 InVideo 已筹集了超过 5300 万美元。包括融资 2600 万美元的 Hour One 在内,有好几家初创公司都是做文本生成视频服务的。总部位于伦敦的 Synthesia 是一家头像视频创作平台,目前已融资超过 6700 万美元。总体而言,NFX 追踪到有 54 家初创企业从事视频生成业务,总共已筹集了 5 亿美元的资金。
音频方面的 GenAI 初创企业包括音乐创作公司 Soundraw、Boomy 与 Aiva。Splash 已经筹集了 2300 万美元的资金,他们的工具可让用户创作原创音乐,还能根据任意旋律演唱歌词。语音服务 DupDub 的融资额超过了 2.5 亿美元,且已拥有 100 万用户。Descript 已筹集了超过 1 亿美元的资金,可为音频转录、播客、屏幕录制、音频及视频编辑提供语音克隆。Deepgram 的演讲文本服务可以与科技巨头以及 OpenAI 的 Whisper 一争高下,目前已获得超过 8700 万美元的资金。
游戏生成初创企业有望为制作工作室节省 1 亿美元的制作成本。 可帮助创建 2D 到 3D 模型的 Masterpiece Studio 筹集了 600 万美元。 专注于为游戏、电影和 meta-verse 开发 AI 配音演员的 Replica 已经筹集了 500 万美元。 游戏工作室 Latitude/AI Dungeon 已为基于文本的游戏生成筹集了 400 万美元。VoiceMod 已经筹集了超过 700 万美元,用于在《堡垒之夜》(Fortnite) 等游戏以及 Skype 等 app 提供实时语音转换。另外还有做创建 3D 表面纹理的初创公司 Ponzu,创建非玩家创建 (NPC) 虚拟角色的初创公司 Charisma AI 等。初创企业 Inworld 的方向是做“创建沉浸式现实、虚拟角色和虚拟空间”的 AI 开发平台,目前已筹集了 7000 万美元的资金。总体而言,A16Z 目前追踪到 50 多家游戏行业的初创公司。
Chatbot 及对话式 AI 初创公司包括已融资 1.9 亿美元的垂直健康症状检查工具 ada,以及已筹集约 7000 万美元的英国初创企业 Healthily。鉴于人工智能每年可以为呼叫中心业务节省 800 亿美元,初创公司在这个领域也在疯狂融资。Cresta AI 已经筹集了超过 1.5 亿美元的资金,总部位于伦敦的 PolyAI 也已为其“超人语音助手”筹集了 6800 万美元。
编码助理类初创公司纷纷效仿微软的 GitHub Copilot,声称可以自动生成高达 40% 的代码。Warp 是一家将自然语言转换为计算机命令的公司,已融资 7000 万美元。Tabnine 也已经筹集了 3000 万美元的资金。
知识管理、摘要和企业搜索类初创公司包括融资 1.68 亿美元的 Primer AI 以及融资 6300 万美元的 Otter。总部位于斯德哥尔摩的初创公司 Sana Labs 已筹集了 5460 万美元,用于促进组织内信息的发现、共享与再利用。
那么哪些初创公司会胜出呢?
流入到 GenAI 应用类初创公司的资金并不短缺。全栈型初创公司将在药物发现等垂直领域筹集大量资金,他们将在这些领域开发出高度专业化的模型和应用。在更广泛的 B2B 领域,竞争将渗透到横向和纵向,而商业模式则以 copilot 为中心。一方面,横向创业公司会提供跨行业的服务,比如 Jasper 的销售和营销助理。另一方面,初创企业的关注点会越来越垂直化,专门瞄准某个行业、功能以及任务。
获胜者将通过采取以下措施实现规模化与可防御性:
高投资回报率——对于所处理的用例具备很高的 ROI,并且在短时间内能证明价值。
专有及定制的基础模型——利用本地化、专业化以及专有的公司数据针对特定受众进行“微调”。
工作流——证明可用性,同时与客户流程深度集成,使得一旦安装进去就很难移除。
反馈循环——比方说,利用人类反馈的强化学习 (RLFH),从而改进模型与用户意图的一致性。
形成飞轮——RLFH 与其他的反馈越多,通过“微调”得到的模型性能就越好,使用量越大,因此势头就越猛。
投资的规模和速度——由于 IP 掌握在基础模型所有者手上,因此利润率较低,这场游戏完全就是拼规模。那些能够快速建立自己的品牌并吸引大量用户和客户,从而推动飞轮旋转的将成为品类的领导者。
在 B2C GenAI 消费者领域,行动迅速、消费者获取预算充裕的横向玩家很可能会赢得比赛。
总部位于英国的 AutogenAI 就是有能力赢得投标管理助手类 B2B 初创企业的例子之一。过去两年,他们已经开发出了一款应用,可帮助企业节省时间和金钱,同时提高投标、招标以及建议书的质量。他们利用企业网站的内容、中标与未中标的情况、营销文案以及年度报告等样例对 OpenAI LLM 进行了“微调”。它们还提供人机监督用户界面,协助审查生成内容与事实的来源和准确性。这种做法实现了一个关键的人类强化学习循环,增加了使用率。客户正在逐渐加大对他们的应用的使用,把它当作自己的下一代知识管理和搜索工具,从而令其更具粘性。
部分GenAI 初创公司将会被收购,成为大型企业和消费者 app 的特色功能。比方说,拥有数百万用户的大型社交媒体公司将会收购最新的面部与头像创建初创企业。现有的图形设计软件公司将收购最有前途的图像和视频编辑初创公司。比方说,作为 CRM 及 ERP 应用的一部分,微软现在就提供了原生的 GenAI “Microsoft Dynamics 365 Copilot”。
简而言之,如果某些勇敢又幸运的初创公司能够为他们的 copilot 用例快速建立起规模和飞轮的话,则他们将获得丰厚的回报。同样地,部分全栈初创企业将在药物发现等专业用例场景下蓬勃发展。由于融资规模庞大、市场统一,且个人、企业以及政府对创新的采用迅速,美国初创企业将占据主导地位。但是,大多数的初创企业将空手而归,因为在这场淘金热当中,到头来他们只能给镐和铲这些工具的供应商(主要是美国的科技巨头)的利润做贡献。
译者:boxi。