神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:鉴于人工智能写代码已经非常溜了,你很容易会产生这样的想法,既然脏累活都是人工智能模型干的,那只关注市场需求和商业模式就行了。错,生成式人工智能天生具有不确定性,这个坑可得注意了。文章来自编译。
在我们这里,做的每件事背后都有一个基本循环:写作 -> 开发 -> 重复。开发会让你接触到以前隐藏的世界。写作能帮你找到一种精确、简洁的方式来表达你知道什么以及为什么。这个循环未必是线性的——有时候我们会从开发开始,然后转向写作,有时候我们会先从写作开始——但我们认为,这种做法确实带来了一种特别有效的创造新事物的手段。
本文深入阐述了用 AI 开发产品的方式,为什么新的 AI 产品的关键风险是可行性,以及如何通过快速实验来应对这些风险。
当我开发第一个 AI 项目时,所采用的方法跟过去开发产品是一样的:明确一个问题,规划解决方案,构建最小可行产品(MVP),然后进行迭代。这是一种相当直白的软件驱动法:快速开发,测试,学习,然后改进。
但是,这种方法并没有奏效——于是我自问:用 AI 开发跟传统软件开发究竟有何不同呢?
我加入公司的时候是怀揣着一个很有野心的目标的:在三个月内打造九款产品——也就是每 10 天打造一个项目。我的第一个项目 Mindtune 是传统广告技术和社交媒体算法的替代品,用 AI 驱动的。我的假设是,大家对社交媒体推送那些公式化的、冷漠的内容已经厌倦了,而 AI 可以提供更相关、更个性化体验的机会。
我做 Mindtune 的时候就考虑到了需求验证,因为传统软件项目这一块往往做不好。你得做出登录页面、跟潜在客户交流、分析竞争对手,然后才会投入资源打造产品。创始人长期以来一直都是按这个模板走的,就好象是一种条件反射。我们未必会停下来问问自己打造这个产品是否有可能?
用人工智能开发需要我们打破惯例,用不同的方式去做。人工智能产品带来了一系列的独特风险,如果你不了解这些风险,就肯定会犯错误。
在做 Mindtune 的过程中,我识别出了三种风险模式,这些模式帮助我准确了解自己承担的风险类型,更重要的是,让我了解是什么决定了它是否成功。我会深入探讨其中的每一种风险、它们之间的关系以及人工智能是如何颠覆了传统的初创企业“风险链”的。我希望创始人和开发者能够更好地了解自己想法存在什么风险,以及如何最好地化解这些风险,从而避免在创意迷宫中走错路。
任何初创企业都会涉及到三种风险:可行性(feasibility)、价值以及生存力(viability)。
可行性风险:是不是确实可以开发出来?这属于典型的工程挑战。比方说,SpaceX在开发可重复使用的自着陆火箭时就面临可行性风险。
价值风险:用户从中能否获得价值?这是产品市场匹配的核心。Airbnb 就是价值风险的一个很好例子——大多数人最初认为这个想法很荒谬,认为没有人愿意住在陌生人的家里。
生存风险:我们自己能否从中获取价值?众所周知,Facebook 与 Google 早期就面临生存风险。他们知道自己的产品深受人们喜爱,但需要时间和实验才能找到可持续的商业模式。
这三种风险的相互作用方式至关重要。可以把它们看作一个链条:可行性 → 价值 → 生存力。如果产品技术上不可行,那其他两种风险就不重要了。如果可行但没价值,你又会陷入困境。而就算用户喜欢你的产品,你还是得想办法从中赚钱。
这三种风险可不是按顺序出现的;每种风险的大小都会因产品类型而异。
传统软件的可行性风险一般都不高。Facebook 的第一版开发并未涉及任何突破性的技术飞跃。马克·扎克伯格是在哈佛的宿舍里写出代码的。真正的挑战在于价值和生存力风险:大家会用吗?它能否成为一项盈利业务?
相比之下,深度科技——基因疗法、聚变反应堆和自动化通用智能等项目,它们是将全新的技术推向市场。这类创新有明确的需求和商业模式(比方说,一种治疗现有疾病的药物),因此价值和生存力风险较低。其风险在于可行性:深度科技初创企业要冒着风险,打造一些他们不能 100% 确定是否可行的东西。
我以开始觉得 Mindtune 可能会像软件产品,可行性风险较低,价值和生存力阶段的障碍会大一些。但从我的经验来看,人工智能会给可行性和价值带来独特挑战,需要新的办法应对。
首先,风险模式不一样。人工智能初创企业主要分为两类:一种是深度人工智能初创企业,一种是应用人工智能初创企业。
深度人工智能初创企业做的是基础模型或硬件,比方说 Groq 的芯片与 Figure 的人形机器人。其最大的风险是可行性。这些公司通常从事前沿研究,其所追求的突破有无可能实现未必总是很清楚。这属于高风险、高回报的领域。
Sparkle 和 Lex 等应用型人工智能初创企业则是利用 OpenAI 等公司的现有模型和 API。其关键风险在于价值。应用型人工智能公司需要证明自己所使用的 AI 能创造价值,而且比非 AI 解决方案更好、更快或更高效。此外这类企业还存在可行性风险:AI 模型未必不总能按照预期的方式运行,需要更多的思考和改进才能获得良好结果。
Mindtune 是一款应用型人工智能产品:它利用了已有的人工智能模型来提供更个性化的社交媒体信息流。我相信它的价值——用户对不同的社交媒体体验是欢迎的——而且这种商业模式已经得到现有产品的验证。但我现在越想越觉得我错过了一个重要步骤:那就是没有把这项技术的可行性考虑清楚。我一度认为,就因为我可以设计人工智能模型来提供结果,所以就等同于可始终如一地获得正确结果。我低估了用人工智能来开发的可行性风险,甚至连应用人工智能的可行性风险也没考虑到。
传统软件从根本上来说是确定性的:如果逻辑和参数设置正确,代码就会产生可预测的输出。
生成式人工智能有着本质上的随机性:结果未必是一致的,输出质量可能会因输入数据和模型本身的细微差别而波动。所以你得不断测试,好确定结果是否可靠,且对用户来说足够有价值。因此,传统的工程直觉并不完全适用。
慢慢地,你会意识到人工智能模型能做什么、不能做什么,但这些直觉没有像对传统软件的直觉那么准确。就算是经验丰富的人工智能工程师也会遇到意想不到的结果。技术可行性风险比传统软件更大,因为模型在测试过程中可能会给你带来惊喜,或者惊吓。但这种风险不像深度科技那样令人生畏,深度科技可能需要基础科学上的突破才能向前发展。相反,生成式人工智能的风险介于软件和深度科技之间——可行但不可预测。
由于这种不可预测性,跟生成式人工智能打交道需要更多的实验性方法。传统的软件开发,精心打造的第一版可能需要一些细微调整——改改按钮位置,调整一下文案——而不是彻底改造。可是,对于生成式人工智能来说,第一版可能就需要不断“调整”了——调整提示、合并其他数据、调整参数——为的是提高可靠性,增加用户价值。而且每次调整都会让结果略微有所改变,所以不断迭代、不断测试对于获得期望的结果至关重要。
我在做 Mindtune 的时候,一开始先是开发软件体验(线框、登录等),然后测试模型(GPT-4o、Claude 3.5 Sonnet、Gemini Pro 1.5 和 Llama 3.2),看看能不能给个性化广告生成足够好的内容。这是错的:评估模型输出的质量时我发现返回的结果不一致。其实我应该先看看输出的结果,然后再去折腾软件组件,因为最终决定项目可行性的是底层模型的质量,而不是位于其上的软件。
这个迭代过程还需要用直觉去判断什么时候该停止或做出调整。在发挥模型能力与识别模型上限之间有着微妙的平衡。有时候,尽管已经反复调整过了,但输出可能永远也无法达到可接受的质量,这时候你就得放弃了。或者,你可能会觉得再迭代几次就可以得到想要的结果。
不过,这个阶段也有玄机。有时候,应用人工智能缺乏可行性表明这个项目不值得去做。但有时候,尽管可行性较低,可你仍确信是有价值的——因此不该放弃这个项目,而是应该换个做法。你可能一开始以为自己做的是一个应用人工智能项目,然后意识到自己其实在做的是深度人工智能,而且为了让项目可行,你得进入研究模式,去构建自己的模型。这样一来可行性风险会增加,但项目价值也可能变大,因此更值得去做了。
是,不管做什么你都得了解风险状况,但这一点对于人工智能来说尤其重要。如果你知道所需承担风险的性质,就可以确定该优先分配资源和精力到什么地方。这还会迫使你在每个阶段提出合适的问题:我们能做这个吗?别人会用吗?只有这两个问题搞定后,才可以提出能否围绕着它建立可持续发展的业务这个问题。
不管是应用型还是深度型的人工智能初创企业,其运营的复杂程度与传统软件产品都不一样,需要更深入了解风险的相关性,并愿意去探索未知领域。很多开发者以为用生成式人工智能 API 就可以消除技术风险,但那只是多套了“一个壳”而已,别自欺欺人了。那怕使用的是现有模型,也需要进行大量实验。
低估这种技术风险会导致浪费时间浪费资源。你很容易会产生这样的想法,既然脏累活都是人工智能模型干的,那只关注市场需求和商业模式就行了。但实际上,确保人工智能按需要运行是重大挑战之一。实现可靠和有价值的结果需要的不仅仅是接入 API,还需要你不断调整、测试和深入了解模型的行为。
译者:boxi。