文|沈筱
编辑|王与桐
毋庸置疑,通往AGI时代的大门正在开启。OpenAI在GPT-4宣传片中提到,其与微软的合作正致力于将生成式AI技术塑造成对世界真正有用的东西。
OpenAI所谓的“有用”,是通过实现生成式AI技术在各行各业中的大规模落地应用,来提升生产力,并最终提高人类生活质量。这也是谷歌、百度等一众企业期望达成的目标。
而这些企业近期的一系列动作表明,他们正试图抢先塑造行业未来格局——在寻求构建模型层技术优势的基础上,致力于成为未来AGI生态中基础设施供应者;同时,以引领新技术的应用落地方向、吸纳更多合作伙伴的方式,推动中间层和应用层发展。
3月3日,OpenAI开放基于GPT-3.5的ChatGPT模型接口;
3月15日,谷歌推出PaLM模型API和Generative AI App Builder平台;Anthropic发布类ChatGPT产品Claude;OpenAI紧随其后发布GPT-4;
3月16日,百度发布文心一言;
3月24日,OpenAI推出ChatGPT插件,允许ChatGPT通过授权访问外部信息源,调用开发者自有API,实现与第三方应用程序的连接;
3月27日,百度智能云在线下举办闭门交流会,推出大语言模型服务平台文心千帆 。
上述行动,也无不指向生成式AI技术的初探期或已结束。OpenAI领跑,大厂争锋,其他创业公司也不甘示弱,模型层混战已然开启。接下来将迎来技术落地应用的集中探索期。
百度CEO李彦宏在此前接受36氪专访时也表示,未来行业生态中,最大的创业机会产生于应用层。但是,当前生成式AI技术突破对各行各业的颠覆性仅初现端倪,行业最终形态尚无定论,最终能否呈现出模型层、中间层、应用层分而治之的格局仍未可知。
在模型层混战的情况下,应用层企业将面临何种机遇和挑战?又该如何摸索发展路径?企业可以在哪些方面构建差异化,基于当前的行业生态定位形成一定优势?这些问题的答案还需进一步探索。
当前,与OpenAI深度绑定的微软,除了基于Azure云计算平台,承担部分基础设施供应商的角色,也正在尝试加速新技术商业化的探索。3月16日,微软宣布推出Microsoft 365 Copilot,将GPT-4接入Office全家桶,并于近日推出网络安全产品Security Copilot。同时,在应用层,已经有Shopify、Duolingo等开始利用生成式AI技术进行产品、服务创新的企业;还有诸如Jasper AI、Character.AI,直接基于生成式AI技术打造产品、服务,试图占据应用层风口的创业公司。
同样,在国内,也有较早布局AIGC领域的企业。为了了解他们的看法和做法,带着上述问题,36氪采访了Nolibox 创始人兼CEO徐作彪、CTO 何宇健。
Nolibox是国内最早一批探索生成式AI技术在设计领域中应用的企业之一,聚焦于将美学原理、设计模型与人工智能技术进行深度融合。36氪此前报道了Nolibox的Pre-A轮融资新闻。
目前,Nolibox已经接入了Stable Diffusion、GPT、百度文心等多个大型语言模型,并在对相关模型进行二次开发的基础上,构建了画宇宙、图宇宙两大核心产品,服务于服装、电商、游戏、教育等多个有智能设计需求的应用场景。
以下是专访内容,经36氪编辑:
随着市面上可用的大模型涌现,应用层企业迎来了发展机遇。
一方面,企业可以综合对比不同模型,选择与业务契合的最优解。另一方面,通过接入不同模型能力,企业可以进一步丰富产品形态。现阶段,应用层企业可以与模型层企业达成合作,发挥比较优势,以挖掘特定领域和场景的机会。
36氪:近期,OpenAI动作频频,在开放基于GPT-3.5的ChatGPT模型API之后又推出了GPT-4。OpenAI一系列动作对行业内自研大模型的企业有什么影响?
Nolibox:作为技术领先者,OpenAI开放更优性能的模型接口,对自研大模型的企业会是很大的挑战。
目前OpenAI基于GPT-3.5的ChatGPT模型API成本已经被压得很低,也压缩了其他厂商的实际利益空间,甚至是生存空间。另一方面,这些企业的投资回报周期可能会被拉长,因为涉及与更优性能模型的对比、竞争。从资方角度来讲,会关注这些厂商自研的大模型与GPT差距有多大,是否可靠,是否能够投入到应用层面。
对试图进入该领域的初创公司来说,做大模型需要有相关背景。企图平地而起制作大模型,是很困难的。
36氪:谷歌的PaLM、百度文心一言近期也纷纷官宣。对应用层企业来讲,大模型混战会带来什么影响?
Nolibox:对我们做应用层的企业来说更多是机遇。
首先,市面上可用的大语言模型越多,我们的选择就更多。企业能在对比模型表现、效果、速度、成本等因素的基础上找到契合业务的大模型。从价格的角度来讲,我们调用第三方大语言模型API的成本降低了,相应产品和服务给到市场的价格也会变低。
其次,在接入不同模型能力后,我们能够服务的企业也变多了。一是能进一步丰富产品形态,二是能够基于相关模型进行二创,提供相应的API。
另外,我们一直标榜自己是多模态画板产品,无论是GPT-4,还是百度文心一言,新的多模态模型出现,给了我们验证多模态产品形态的好机会。
36氪:Nolibox目前也使用了多个不同的底层模型,是如何布局的?
Nolibox:我们已经接入了Stable Diffusion、百度文心、GPT,以及其他一些开源的大模型。目前我们的API二创主要是在Stable Diffusion的基础上,底层的building block则融入了一些我们积累下来的技术,比如better transformer和模型的dynamic loading,使得部署成本、推理速度都得到了较大的优化。
我们首先接入的图像生成类大模型,文本生成类的大模型是后来陆续接入的。GPT是今年刚接入的,一开始使用的是GPT-3 davinci接口,GPT-3.5 API开放后,我们也正在测试看哪款的效果会更好。另外,我们内部也会对GPT-4进行评估,本质上还是看业务逻辑,有没有链路能够和GPT-4契合。
36氪:会产生新的挑战吗?比如,从市场层面来说,未来可能有更多竞争对手涌入。
Nolibox:首先,和大部分做应用的友商不太一样,我们基本不做C端。虽然我们在C端有相应的产品,但它更像是一个广告位,起到“招商引资”的作用。我们主要的目标客户是B端。在B端,我们自认为做得不错,产品形态比较独特。很多B端客户也看重我们的能力,而且客户在对比了多家之后选择了我们,所以目前我们不会过于担心竞争的问题。
其次,市面上的竞争对手越来越多,反而是督促着我们把自己的产品做得更好。
另外,我们和国内友商也在持续交流,包括做大模型的和做产品的,大家都愿意开展合作。所以对我们来说,可能并没有太多的直接竞争对手,算是竞合关系。
36氪:自研大模型的企业在商业化时,可能也会开放API调用,或推出应用程序。尽管刚刚提到大家倾向于合作,但会不会也存在竞争关系?Nolibox如何看待?
Nolibox:我们一直秉承分工的理念,大家都发挥比较优势,才能最高效地把这件事情做大、做好。当然会有一些做大模型的企业也想做自己的产品,最后也能做出来,但可能没有我们做得好,或者没我们做得快,两者兼顾的可能性较小。因此我们还是很希望和他们多合作。我们提供产品侧能力,对方提供大模型,双方合作后一起服务于B端。这也是我们与大厂谈的合作方式。
另外,API对我们是附加价值,我们最重要的还是服务好特定的客户。开放API这件事,更多是因为我们有这个能力,顺手开出来的,不会像一些大模型公司用user in the loop的思想去收集用户数据和反馈。我们自己的数据、反馈的收集更多体现在各种产品上(包括画宇宙和一些SaaS),因为我们给到各方的画板的数据结构都是统一的,可以很方便地回流、利用。
36氪:自研大模型的企业有没有可能未来通过并购应用层企业来构建生态?
Nolibox:这是有可能的,但大模型企业也不会因为并购就能够完全占据绝对优势。应用层只是把大模型作为水电站一样的基础设施,各有各的发展方向。在应用层,也可能产生像移动互联网时代的抖音、美团这样的企业。
AIGC确实是大的趋势,但基础层、模型层、应用层都有机会,总需要有企业专心做应用。或者说,一个公司不太可能既把通用大模型做好,又能把足够精力分配到应用层,所以做产品应用还是有空间、有价值的。而且我们认为,再过3-4年,可能全球做得好的超级大模型有2-3个就足够了。但是应用层,每个领域、每个场景都有自己的机会和价值,本身也是可以建立壁垒的。
目前,无论是自研大模型企业,还是应用层企业,都尚在摸索过程中。
Nolibox形容,对应用层企业而言,这一摸索的过程像是“摸着石头过河”——从可以做横向增量的场景切入,基于自身的技术能力,以小成本快速做出最小可行产品,并在得到市场验证后逐步加大投入。同时,判断是否进入AIGC赛道的关键在于,企业能否基于生成式AI技术进行差异化,以及差异化能否创造超额收益。
36氪:应用层企业如何构建壁垒?有观点认为应用层难以实现差异化,Nolibox怎么看?
Nolibox:首先,我们说的应用层壁垒,主要是模型侧、产品侧和应用侧的壁垒。具体来讲,包括企业能否比竞品,更快速切进某一个场景,先抓住行业know how,打磨出符合场景特定需求的模型和产品;或者能否快速整合行业资源,形成数据壁垒等。
其次,一般说难做差异化其实更主要体现在通用大模型端。比如文本生成图片方面,大家可能都会基于Stable Diffusion做,如果要做一个大而全、所谓完全自研的大模型,确实很难做出颠覆性的或者显著的差异化。所以我们主打的还是垂直场景大模型和产品上的差异。
我们一直致力于在模型端做出和场景结合的、有价值的差异化,同时我们也将开源代码全部重写,也就是之前提到的二创,包括嵌入定制的功能、降低模型的部署成本和硬件要求、提高运行速度。
一般开源模型会开放代码和模型权重两个层面的信息。但由于开源的代码不够好,后续加入其他功能就比较困难,所以我们并不会直接使用开源代码。
比如在我们重写的过程中发现的生成四方连续图功能,处理完成后,使用起来会很巧妙,但据我们了解目前应该没有其他友商做出来。还有一些很细节的技术,友商还处于以很静态的模式部署服务,只能调用数量有限的固定小模型,而我们可以动态地通过接口激活小模型。
再比如最近很火的ControlNet,在我们改写过后,不仅降低了对硬件的要求,速度上也至少比官方开源版本快了1.5-2.5倍。这些细节还挺多的,就不逐个举例了,落实到服务层面时就会变成我们的差异化优势。
36氪:产品端的差异化主要是体现在功能方面?
Nolibox:对,比如在模型端通过代码改写后能够支持四方连续生成等,单独这一个改动就能切入一些行业。
比如,友商的类似产品可能更多是对单图的编辑器。虽然这个可能已经够用了,但对于一些专业的设计师或插画师等对产品要求更高的客户,我们的产品就有了一定的优势。我们本质上是无限画板,但可以向下兼容成单图编辑器。同时,我们能够更快实现产品交付。例如,我们与百度的合作案例,其他服务商可能需要2-3个月完成,但是我们的无限画板一周就可以交付。
36氪:在做之前,怎么去确认这个事情未来可能会成为壁垒?
Nolibox:这个确实无法事先知道,或者说我们尚未找到事先知悉的办法,相当于“广撒网”。因为行业完全没有先例,甚至很多和我们合作的友商也明确表明他们也还在摸索,为未来投资。所以基本上没有所谓的标准,大家都在摸索,只是我们刚好撒的网多些,运气好一些,知道了一些目前只有我们能做的需求。
比如最开始的时候,我们认为只要把产品做好,就能吸引到目标客户。我们第一版产品发布时,计划面向的是专业的设计师或者插画师。后来发现真正对我们产品感兴趣的,并且乐意为此付费的客户是另外一个群体。
所以这也告诉我们,需要不断地去尝试,不能拍脑袋说客户一定是谁。比如现在不论是电商、服装还是游戏、教育,他们都有这样的需求。但核心还是我们要把产品做好,后面的PMF都是水到渠成的事情。
当时在内测的过程中,就有客户表示很喜欢我们的产品。所以我们也尝试站在这些客户的角度,去尝试,去思考我们的目标群体是哪一部分。但是长期来看,我们还是要切入专业设计师群体,算是B2B2C的模式。同时,我们希望「设计创意群体的利益」和「AI的利益」可以是一致的,而不是割裂的、对立的。
36氪:可以理解为Nolibox早期其实想做PLG(Product Lead Growth,产品引导增长)吗?
Nolibox:刚开始有一些这样的考虑,通过C端带动B端,免费带动付费,然后再到口碑裂变的传播。但当初我们做AI绘画时,国内有成百上千人也在做同样的事,当几乎所有人都在做这件事,这时候PLG是很困难的。
所以我们更多的是定点爆破,利用专业的渠道或者直播的方式进行曝光,这样才能帮助我们更快地拿到第一批业务,而不仅仅是PLG的路线。这很容易劣币驱逐良币,有渠道有流量的同行会抢占市场心智。对用户来讲,就算我们做出了差异化,但也无济于事。当然我一直都认为PLG是一个很好的方式,但不能只采用PLG的方式。
我们认为,等大众对于AIGC的热情褪去之后,谁能真正把客户服务好,真正赚到钱,这些才是最本质的问题。
36氪:Nolibox如何切入市场的?是先有了技术,再通过客户调研寻找痛点吗?
Nolibox:这是同步进行的。我们会事先判断做AIGC这条赛道,产品的差异化能否给我们带来超额收益。如果这件事大家都能做,意味着产生超额收益的几率很小,那么我们并不适合去做这件事。如果产品或功能不能切中某个痛点,那么这条线也不值得我们去做。
目前,我们有点摸着石头过河的感觉,或者我们判断它是有用的。但至少目前看来,我们算是摸到了不少石头,因为确实挺多人愿意为此付费。
36氪:在摸索过程中,可能发现对某些人群来说痛点的确存在,但如何判断这个市场是值得投入的?
Nolibox:首先,我们的第一步就是不卷C端,而是去验证产品最核心的那一部分逻辑。
一开始我们并没有全力推产品,而是随着聊的客户越来越多,才逐步投入更多人力。举个例子,我们现在画宇宙产品的MVP(Minimum Viable Product,最小化可行产品),是CTO一个人用一个星期写出来的。所以,一开始我们会以小成本,小规模地尝试,当我们发现它足以撑起足够大的市场时,才会进一步投入。因为此时已经有很大的单子等着我们,而不是一开始就选择all in。
其次,在这个过程中,我们也收集到了客户反馈,并不是发现一两个小的痛点就决定去做,而是关注可以横向做增量的场景。
比如四方连续,可以做印花或者服装面料生成,虽然这是一个很小的点,但它可以横向地拓展出多个场景,还可以做背景等等。一个点能上量,解决的痛点虽然是个小点,但是市场层面的需求量却不少。
不同于上一代移动互联网应用层企业的发展逻辑,AIGC表现为技术突破。
创业公司可能难以从填补市场或产品空缺的角度寻找发展方向,而更多需要将生成式AI技术与其他技术、产品结合。同时,对现有企业而言,在新技术已经显现颠覆性能力但尚未大规模应用时,或许正是进行产品、模式创新的好时机,但需考虑新技术与业务逻辑的耦合。
36氪:中国AIGC应用层的发展是否需要经历慢慢地找到行业落地场景和市场痛点的过程?
Nolibox:我们认为是的。因为美国企业也一样,比如Figma也花了十年的时间成长,要一步一步走。开始的时候总要经历一个相对摸索的过程,如果走得太快,做出来的产品可能是很虚的,或者说容易踏空。
包括美国SaaS发展的第一个阶段,主流也是定制化。SaaS很讲方法论,如果美国有这种经历,那中国大概率也会有这样的过程。定制化可能是一个正常的、自然的必经之路。但再过几年,这种情况会好很多,但目前也不能完全依赖定制化。
就我们而言,如果定制化只需要很小的改动,那么不会占用过多精力,毛利不错,或者分成也比较好,这种情况下,我们就会去做。
36氪:国内在应用落地方面会不会参考美国同类企业的做法?
Nolibox:是会参考的。我们会关注美国这类AIGC的创业公司,看他们在做什么项目。比如外国做游戏做得还可以,我们就联系游戏公司,看他们有没有类似的兴趣。
美国的企业一般会针对一个比较具体的痛点,解决相对比较垂直的问题,先解决得很好,然后再逐步做大,这也是目前我们想走的路。
36氪:像之前的移动互联网,涌现出一批由中国企业引领的模式创新和应用层市场增长。AIGC能否有类似的情况出现?
Nolibox:之前提到比如说可能受益于人口红利的企业,他们实际上是做了一个很好的C端产品,填补了市场空缺。但是AIGC其实是技术突破,可能很难说填补产品空缺。要么就是找到一个产品空缺,刚好AIGC能做。
但是,单用AIGC去做产品,成功的机会可能并不大。
如果通过AIGC与其他技术/产品结合,做出一个更综合性的产品去推广,成功的可能性就会大很多,甚至会因此颠覆现有市场格局。比如,把AIGC与设计相结合。技术只是一个手段,重要的是能解决哪些客户的需求,产品是否真的有价值,以及是否充分发挥了数据闭环、规模效应的壁垒。
36氪:能否结合Nolibox的情况,阐释“技术只是一个手段......”这句话?
Nolibox:从2021年到现在,我们的业务主线并没有很大的变化,仍然关注智能设计或者智能创意这件事本身。但是因为AI技术一直在发展,变得更加强大,所以能够和我们的技术、产品有更好的结合。
我们成立之后一直是基于自己的一些技术能力,来探索创意、设计方面的人机协创方式。围绕主线,我们做了很多积累。然后随着生成式AI技术的发展,比如Stable Diffusion、GPT模型API的开放,我们可以将新的技术用在新的板块里,实现落地应用,把原有的产品做得更好。比如,我们的无限生成能力,就要优于之前。
2021年时,几乎没有人提AIGC这个概念。那个时候我们利用AI技术解决的是比较实际的问题,比如一些检索技术,像文搜图、图搜文或者图搜图,包括营销内容生成,不需要GPT也能做。当然,我们当时也用到了一些AIGC技术,比如智能海报生成,而且我们下一步要做的事情就是——融合「AI设计」和「AI创意」,打造更加强大的「AI设计创意生成工具」。
36氪:之前提到PLG模式在AIGC有大量应用层企业涌入时,可能并不适用。也有观点认为AIGC和ChatGPT的爆火,会对Grammarly或者其他效率提升工具,甚至PLG模式产生冲击。能否谈谈你们的见解?
Nolibox:影响是会有的,但不会所有产品都会被颠覆。需要关注产品主要解决的需求能否利用新技术得到更好满足。从技术层面来讲,也许新技术的爆火会对之前的技术带来冲击,但新技术并不能垄断所有功能。
比如Grammarly是做英文语法矫正的,可能会有人认为未来不需要矫正了,直接用AI写。包括有一些企业会用AI生成UI设计,可能会对现有的相关效率工具产生影响。
其次,PLG只是一个概念或方式,好比去罗马能通过汽车、飞机在内的多种选择,而不是只会有一种。
但同时,理论上,作为PLG公司,当新技术出现时,首先应该考虑的是能否以及如何将新技术运用到提升自己的产品上,以实现更快的增长,而不是等着被新技术颠覆。
Grammarly完全可以选择ChatGPT接口来降本增效。这个其实是选择被颠覆,还是跟上潮流来做自己的二次增长曲线的问题。如果企业选择抵触,就类似于马车夫不去学开车,对自己是没有帮助的。不如怀着更开放的心态,又或是抱着对未来世界的憧憬,加入到这一波AIGC带来的变化中,与模型层、应用层的公司共创,迈向下一个时代。
WISE 2023 颠覆AIGC