AI App 的机会和凋零

作者：Guoen_0发布时间：2024-08-04

OpenAI

这篇文章尝试回答几个问题：

Q1 - AI Native App 成不成立？
Q2 - Killer App 为什么还不出现？
Q3 - OpenAI 会还会让哪些赛道价值归零？
Q4 - 在 AI 领域创业和个人择业最好避开哪些坑？

1. AI Native App 成立吗

当我们讨论 AI Native 和非 AI Native 的时候我们在讨论什么。

一种区分：

端到端的使用 LLM 完成任务即 AI Native。例如 GPTs 形式。
在传统 App 之上叠一个 LLM 协助任务即非 AI Native。例如 Copilot 形式。

这种区分是粗暴的。

首先，我们知道 GPTs 一样可以使用 FunctionCalling（Action）去调用传统 App 的 API，某种程度上讲 GPTs 也可以看做某种 Copilot；

其次，Copilot 如果强化到用户 80% 的工作都围绕 Copilot 人机界面达成（例如 Copilot 界面从对话列表窗口进化到多模态实时交互和意图识别），那 Copilot 某种程度上也可看做是 AI Native 的。

这种区分方式，形式大于内容。

我认为马斯克作为 OpenAI 最早的联合创始人之一，他的理解是更准确的：

AI 的自动化等级

那么：
哪些任务已经能做到较高的 AI 自动化等级？
一个 App 是由哪几个相关任务共同构成的？
一个 App 的综合 AI 自动化等级是否足够击穿用户价值，形成 Killer App ？

2. 基座模型过滤网

技术性判断和历史性经验告诉我们：

基座模型的能力存在一个过滤网。即当前模型版本能完成的任务（AI 自动化等级）是存在上限的。

我们使用思维链、反思机制、Agent专家、多智能体、产品工作流程等等工程化手段确实有证据能提升 AI 表现。但是这些努力只是不到 50% 的提升（效果提升），可能不如一次基座模型的大版本迭代（任务击穿）。GPT-3.5 无法完成的任务，只有 GPT-4 才能解锁。GPT-4 也存在同样的问题。

对于任务的难度要求可以从两个维度观察：

推理复杂度：对于数据的处理、分析、预测，任务规划、回忆、决策等。
交互复杂度：对于环境的理解，对于用户的输入和意图的理解。多模态，实时响应，思考-行为一致性等。

基座模型在这两个维度的表现（曲线）形成了一个过滤网。

例如：GPT-4 的交互复杂度不够高，而 GPT-4o 多模态交互的提升可能会让【在线辅导】这个任务被击穿。用户在多模态的环境（例如白板画布、多媒体教育）进行学习，比在单模态（对话框）进行学习的效率要高非常多，通过摄像头也能在现实环境里辅导用户。

一个相对宏观的任务可以由几个相对具体的任务组成（Epic User Story & Child User Story）。通过查看具体任务有多少会处在基座模型过滤网内，就能鉴定宏观任务的 AI 自动化等级。

对于宏观任务来说，会有一个最核心的关键任务。只要关键任务处在过滤网内，这个用户场景就有可能被击穿。并且，这个关键任务应该是前台的面向用户的（而不是后台运作的），它会是下文提到的 Key。

3. Timing & Key

通过【基座模型过滤网】大致可以判断一些事情发生的 Timing。不过仍然有两种选择：

提前布局（创新变革）

在下一代基座模型（GPT-5）发布之前，选择处在下一代过滤网之内的功能进行提前开发，并组合成一个产品业务。可能在当下（GPT-4）效果并不好，但是在下一代模型发布之日立即更换基座模型，实现击穿。

顺势而为（改造护城河）

按照 AI 自动化等级的观点，没有 AI Native App，只有 App + AI。在当前业务里加入当代过滤网能做的任务，逐步提升用户价值。

这两种选择都是可行的，因为要让用户切换一个产品是需要付出更多努力，创造更多惊喜。

用户收益 = 新体验的价值 - 旧体验的价值 - 切换成本。只有用户收益能打正，提前布局才可能会有所斩获，否则顺势而为也能坚守住护城河。

这也解释了为什么今天任然没有出现 Killer App：大部分场景下使用 LLM 的用户收益还打不正。

同时也说明：过去的 Killer App 很可能仍然是将来的 Killer App。

但是仍然有一个非常关键的洞察：创新变革发生在【交互复杂度】，并且已经有两把钥匙 Key。

首先。一个 App 要实现一些用户价值，必然是由功能 Feature 支撑的，同时这也是开发成本。但是对于用户来说，它并不会在乎你付出了多少成本来开发这项功能，它不会在乎是 AI 实现还是 Coding 实现。用户只在乎它得到什么。

其次。在过去对于交互复杂度高的事情，用户往往要很多的连续输入才能拿到期待的输出结果。例如填表单，做选项，点击跳转页面，手动键入，复制/上传/P图/拼接/缩放等等成本极高。而现在，AI 的关键能力是对用户意图的理解，直击结果。减少中间操作从而降低用户成本，扩大收益。

反例：试图用 LLM 去做那些不在【当代过滤网】内的任务，反而设计了较长的 Workflow 让用户做较多的 Input 动作（例如不断的 prompt 和人工检查、干涉 AI），用户成本并没有降低，收益打不正。

最后。多模态模型可能彻底改变人机界面，制造出魔法式的用户体验。主要有两类：

I型体验：多模态模型能够瞬间定位用户具体需求——那些交互复杂度较高的任务，需要从多种复杂情况因素（多维度/多模态）的聚合才能锁定需求。反复输入和跳转的传统人机界面（甚至人-人协作）会被改变。

II型体验：多模态模型可以自动修改前序流程产物——那些 Workflow 较长（前/中/后期），并且效果展示靠后的的任务，需要在看到后期产物才能更好的确定如何修改前期、中期产物。前/中/后期分离的传统人机界面（甚至人-人协作）会被改变。特别是那些前期产物是文字工作的任务（前期已经处在【基座模型过滤网】内）。

以上可能是创新变革发的关键钥匙 Key：I型-多维瞬间定位需求；II型-在后期自动修改前序产物。并且不局限在人机界面，可能人和人的关系也会被改变。

多模态体验参考另外一篇文章：《Apple 计算器 Math Notes 与 AI 多模态画板》

小结：Timing 由【基座模型过滤网】筛选出来，Key 是两个【交互复杂度】的创新变革。

4. 谁会凋零

挡在 OpenAI 和 AGI 路上的项目全部都会凋零。

有不少项目已经因为 OpenAI 新版模型的发布而宣告作废。

过去对于 AI 产业链有一种理解：

所谓 AI 层就是指自研 LLM ，例如 GPT-4o、Gemini，文心一言，智普 AI，dall-e、Stable Diffusion 等等。
所谓应用层就是调用模型 API 做应用，如 ChatGPT、GPTs、Copilot、Midjourney、智能客服、智能教育等。
所谓中间件层就是利用一些工程化手段帮助 LLM 更好的发挥作用，来实现应用层的东西。例如 OpenAI 的 Assistant 工具，Zapier 这样的 Action 自动化平台，Dify 和 Poe 这样的 Bot 平台，Pinecone 向量数据库。放到传统 App 开发领域是例如前端框架、3D引擎（Unity、虚幻5）等等，这些大众就比较熟悉了。

这三个层是大众眼里能看到/感知到的产业。其他的例如硬件层的变化趋势大众没有太多机会接触到。

但是，这种理解可能存在某些偏颇。

首先。我们并不能保证 AI 不会改变这些层的含义和空间。

例如，我们说工程化手段作为基座模型的效果提升，但是大版本的基座模型迭代才会击穿任务。

所以中间件层确实会存在，但是它的空间会被大大的压缩，因为它不是决定性因素。并且自研 LLM 的厂商来做中间件以提升模型效果才是有价值的，而第三方厂商（不自研 LLM）做中间件其实没有门槛也没有商业价值，几乎肯定会被官方覆盖（或者收购）。

其次。大部分用户本质上只关心内容层。

今天大部分人使用电子设备并不是因为喜欢电路板和天线，也不会痴迷于研究页面跳转的逻辑关系和 Prompt Engineering，它们只想在设备上得到服务和消费内容。

如果一个足够强大的个人助手诞生（例如更强的 Siri ）应用层的空间可能也会被压缩，特别是仅仅提供服务的应用。因为这些服务入口会被个人助手承接。过去的一些前台应用会退到后台（服务层 Service）。

另外。一些挡在 AGI 路上的项目也会被覆盖。

例如：安全领域。大范围商用的 AGI 一定是安全的。LLM 官方（例如 OpenAI）一定会攻克这道难题，安全会被做到模型参数内部。在比较优势下，一个能力相近但是更安全的模型一定会取代另外一个能力相近但是不够安全的模型。如果一个厂商专门做 LLM 安全领域，但是它并没有自研 LLM，那么它的工作就是挡在了 OpenAI 的路上，它会被官方覆盖。

例如：记忆领域。专门做记忆的项目也可能会凋零。因为记忆是 LLM 的关键能力，AGI 的趋势是做到模型内部。OpenAI Assistant API 有开放 Tools/Action 外挂方式，但没有开放 Knowledge 外挂方式，官方应该是对怎么做 Memory 有自己的理解的规划。

例如：图像领域。目前有 SD、Pika 等这种专用图像模型，OpenAI 也有 sora。AGI 的趋势是多模态大模型，Pika 们实际上挡在 AGI 的路上，它们可能有三种结局：

专注自研图像模型，然后被 OpenAI 多模态大模型覆盖，业务凋零。
自研多模态大模型，参与 AI 层的竞争，前途渺茫。
在未来逐渐放弃自研模型，接入 OpenAI 多模态大模型并且 Fine-tune 它。在某些用户场景使用两个 Key 做【交互复杂度】创新变革，在应用层立住脚。

综合以上因素，重新画 AI 产业链空间可能是这样：

紫色块是自研 LLM 厂商的领域，红色块才是第三方开发者的领域。
其中个人助手的空间取决于服务层的支持和 AI 层的支持。如果服务层有足够多的服务，AI 层又有足够强的能力调度这些服务（使用 FunctionCalling（Action）去调用服务层的工具）。那么个人助手是会挤占应用层的空间的。
最终应用层剩下的空间可能会取决于内容层的空间上限。因为用户存在无限的渴望，需要用无限的内容去填补。产出内容消费的应用可能会一直存在机会。