在人工智能技术的飞速发展下,AI图像生成工具正成为创意产业的新宠。Midjourney,一个基于Stable Diffusion技术的AI图像生成平台,以其独特的用户界面和高质量的图像生成效果,迅速在广告和艺术领域崭露头角。本文将深入分析Midjourney的商业模式、运营策略、客户群体以及它如何在竞争激烈的市场中实现“以小搏大”的成功。
Midjourney 是一个 AI 图像生成工具,使用的底层技术是 Stable Diffusion,用户可以在无需高级技术技能的情况下创建独特且高质量的图像,生成图片艺术效果非常出色,目前已被广告商和艺术家应用。
Midjourney 不是软件,也不需要安装,它是一个依托于 Discord(一款国外聊天社区)之下的工具,只可在 Discord 中进入,通过添加 Midjourney 工具机器人,输入文字对话即可,目前已经迭代至 V6 版本(2023年12月发布的 V6)。
一、公司基本信息
Midjourney 公司是在2021年8月成立的,由位于美国旧金山的独立研究室 Midtrivey 开发,在2022年7月开启公测,公司在推出仅六个月后就实现了盈利。
这家公司成名之时,团队仅有11名全职人员,并且其中8名都是还没毕业的本科生,没有投资者、没有真正的经济动机,没有销售什么产品或成为上市公司的压力,他们只是想做一些酷的事情,却在短短一年内实现1亿美元营收。
2023年底相关信息,团队成员已经扩大至40名。
其官网地址:https://docs.midjourney.com/ 。
其官网上的自我介绍:Midjourney 是一个独立的研究实验室,探索新的思维媒介,拓展人类的想象力。我们是一个自筹资金的小团队,专注于设计、人类基础设施和人工智能。
可以看出这家公司的经营理念:不融资,不追求团队规模,更关注公司盈利能力,保持小规模运营,保持强独立性。Midjourney 其实是一个实验室,不需要向任何人解释业务是什么,就可以有足够的钱来做研究。所以它没有选择风投创业,而是选择针对一个问题,找到调研的目标和方法,在一群人身上测试,最终并对提供的东西收费。
二、创始人相关信息
Midjourney 的创始人兼 CEO 是 David Holz,其高中时期,曾从事设计业务,大学时,读了物理和数学专业,在 NASA 和 Max Planck 工作期间攻读了流体力学博士学位,2011年,创办VR领域的软硬件公司 Leap Motion,2021年自筹资金创办了独立研究室 Midjourney。
David Holz 在其相关访谈中谈到的一些个人观念[1]:
Holz 认为,技术的最大限制不是规模、成本或速度,而是我们如何与之互动。不管我们有多聪明,技术有多好,我们如何合作从根本上决定了我们能做什么。这也是当初 Leap Motion 的使命。
Holz 不喜欢用 AI 生成假照片的想法,因为感觉这个世界上并不缺这样的东西,但更愿意让其作为商业插图。《经济学人》在去年六月份的杂志封面就用了 Midjourney 生成的图片。
Holz 认为,AI 工具可以让艺术家在他们所做的事情上做得更好,而不是让每个人都成为专业艺术家。Midjourney 其实并不是仅是为专业艺术家制作的,重要的是要强调这与艺术无关。这是关于想象力。想象力有时用于艺术,但通常不仅用于艺术。
Holz 认为 Midjourney 最大的挑战是,虽然他们愿意制作多种产品,但挑战在于产品不仅仅是一组功能,而且还是一个社区、一个品牌和一个愿景。因为很难花一大笔钱从中购买六个未来愿景和六种不同类型的社区和产品。
但 Holz 也坦诚还没有想出一种方法来扩展它 —— 但他知道,每个产品公司基本上都不会尝试一次生产 10 种产品,比如 Apple 的产品线就极其精简。
当计算机比 99% 的人类更善于视觉想象时,这意味着什么?
这并不意味着我们将停止想象。
汽车比人类快,但这并不意味着我们停止步行。当我们远距离运输大量物品时,我们需要发动机,无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。
关于 Midjourney 的愿景,他希望能以某种方式创造一个更有想象力的世界。因为今天世界最大的问题是信仰崩溃,包括对自己的,对未来的信念。而造成这种问题的主要原因那就是缺乏想象力,缺乏自己可以成为什么人的想象力,缺乏对未来的想象力。所以想象力才是我们在世界上所需要的东西的重要支柱。所以我想通过 Midjourney 来将其变成一种可以「扩展人类想象力的力量」将用户置于充满想象力的环境中,可以改变他们对自己和他们能做什么的信念。
我从 Leap 中吸取了很多经验教训,那就是不要试图一上来就设计一个完整的体验,假设你可以看到未来的10步,只做一堆东西,看看什么很酷,什么人们喜欢。然后就找到最酷的三件事,把他们放在一起,这样就能发挥更大的协同效应。
我们 logo 是一艘小帆船,我们是在乘船旅行中。Midjourney 的体验是一个聊天机器人在一个有多人的环境中,而不是试图成为一个人。
水是危险的,但它也是文明的驱动力,作为知道如何与水一起生活和共事的人,我们相处得更好。这是一个机会。它没有意志,没有恶意,是的,你可能淹死在里面,但这并不意味着我们应该禁止水。当你发现一个新的水源时,这真的是一件好事。
三、Midjourney 的商业模式 1. 运营模式
Midjourney 的组织结构与很多创业企业模式有显著差异。以最少的管理层和小型独立团队为特征,这种结构促进了敏捷性和创新。简化的方法使决策更快速,更能够对市场变化和用户反馈做出响应。这种组织模式还反映了对保持紧密协作环境的承诺,团队成员的每一项贡献都直接关联到公司的整体成功。这是一种支持自主权并鼓励创造性解决问题的结构,在 AI 和技术快节奏的世界中至关重要。
外部顾问在 Midjourney 中的角色是其组织战略的另一个关键方面。公司不依赖于传统的董事会,而是依靠一群经验丰富的顾问网络。这包括提供战略指导的人工智能投资者和行业资深人士,没有传统公司董事会的形式和约束。这种咨询模式使 Midjourney 能够从多元化的观点和专业知识中受益,同时保持其独立性和敏捷性。
2. 其与 Discord 的合作关系
最初创始团队使用 Discord 是因为用其远程协作办公,当时构建引入一个机器人帮助调试系统,在调试过程中大家做了 AI 生成图片,觉得很有趣,然后就开放给用户,每个人都很喜欢,也看到人们实时交流想法,创造了富有想象力的环境。于是他们选择直接搭载在 Discord 社区中,这使 Midjourney 具有了社交属性。
Midjourney 已经成为了有史以来最大的聊天机器人程序。Holz 说,许多聊天机器人都有一个误区,就是想成为人。我们设计 bot 的时候想的是,这是一辆车,所有人都应该坐在这辆车上,这样的大家就能看到所有的风景了 —— 没有人和机器的对话,只有人和人的对话。所以从这个视角来看,Midjourney 的机器人只是某种协作的命令行、搜索或者空间而已。
这种设计思路,始终能让房间内有一个主题,而不会演变成某种肆意闲聊,大家的注意力都会隔一阵被生成的图片所吸引。同时也能让新来的人更好地了解产品。因为他不需要问「我该怎么做」,他只需要像所有人类具有的学习能力一样,坐下来静静观察一下,然后动手尝试,就能慢慢地掌握相关的技巧。这就像单纯让一个人生成一张「狗」的图片,并不兴奋,但是让一群人待在一起,不断生成「太空狗」「激光狗」等等,就能相互激发创造力,这样也就构建了一个富有想象力的环境,也能增强人们的想象力。
Midjourney 的 Discord 服务器中,45 岁的人和 18 岁的人一样多,年长的人由于有更多的经验和词汇,更倾向于文字描述,而年轻人更喜欢用图生成图。所以最重要的是有想法,然后去测试想法, 但不带有强烈的观点,否则你将看不到事情的本质。事实上,构建产品最重要的部分,就是对想要发现的事物本质,保持开放的态度。
3. 收费模式
其收费模式很简单,就是采用订阅使用的模式,分四种,价格10-120美元/月。以下为官网价格截图。
4. 成本分析
尽管 Midjourney 是一家使用云服务的软件公司,但由于需要大量投资于基础设施以支持数百万人使用的积极训练的AI服务,它仍然依赖资产密集型模式。
除了支持其小团队外,Midjourney 最大的开支可能主要分为三类:数据收集、数据清洗和训练,以及服务器成本[2]。
1. 数据收集(网络爬取):构建和运行高效的网络爬虫可能很昂贵,有些服务每小时收费约3.33美元。假设 Midjourney 只爬取了一周的互联网照片,大约20亿张照片,每张照片只需要10毫秒来爬取。这将导致约55,000小时的爬取,以每小时3.33美元计算,仅为收集一周的照片可能需要花费大约185,000美元。这还不包括支付代理以防止 IP 阻止,因为许多网站会自动阻止大规模网络爬取,也不包括专门用于运行数据收集过程的服务器成本。
2. 数据清洗与训练神经网络:一旦数据收集完毕,仍需进行清洗。还需考虑使用大型数据集训练扩散模型的服务器成本。例如,在 Google Cloud 上训练小规模的生成对抗网络(General Adversarial Network)或旧方法生成式人工智能图像,每月成本可在2.5K至3.1K之间。Stable Diffusion 本身是通过在 Amazon Web Services 上使用256块 Nvidia A100 GPU 进行训练,总计150K GPU 小时,成本为60万美元。
3. 服务器成本:2022年8月接受 Verge 采访时,Holz 描述了生成此类图像所需的计算能力。“每张图片都需要进行 petaops 运算。因此,成千上万的操作。我不确定具体是五个、十个还是五十个。但生成一张图片需要成千上万次的操作。这可能是最昂贵的…你可以称其为一种服务或产品 – 毫无疑问,以前从未有过这样的服务,普通人使用这么多的计算量。”
四、客户群体
目前 Midjourney 有超过2000万用户,MJ 的主要客户群体包括:艺术家、创意从业者、设计师、广告公司等需要进行图像创作和编辑的企业和群体,以及一些体验图形生成的普通用户。根据相关创始人 David Holz的访谈,大约有 30%-50% 是专业人士,用来增强他们的创意和沟通过程。大多数人是普通用户,体验和绽放自己的想象力。
虽然该 Midjourney 公司没有公布最新客户群信息,但根据相关资料,Midjourney 的客户可能分为两类:广告商和艺术家。[2]
广告商:广告商可以求助于 Midjourney 来生成定制的图片,无需支付图片库许可证或摄影师的费用,就能轻松修改图片。Midjourney 的长宽比混搭选项可能对那些希望通过修改或编辑在不同社交平台和设备上重复使用内容的团队特别有帮助。
艺术家:虽然有些人认为人工智能艺术是与艺术家竞争的产物,但 Holz 说,艺术家使用 Midjourney 时 “一开始会更具探索性,在很短的时间内就能想出很多点子”。游戏设计师和概念艺术家也可以使用 Midjourney 作品作为基础,然后再进行建模和装配。
除了帮助艺术家在花费数小时绘图、建模或拍照之前确定一个想法之外,其他人也将 Midjourney 用作他们工作的输入。平面设计师可以生成背景纹理,而摄影师则可以生成新的天空。
Midjourney 这样的生成式人工智能工具出现之前,艺术家们主要依靠 Pinterest、Dribble 或图片库等网站来获取灵感。虽然这些方法可以为艺术家提供所有的素材,但只有生成式人工智能才有可能帮助艺术家在灵感阶段将素材组合起来。艺术家对人工智能艺术的接受程度因创作者而异。
五、Midjourney 成功“以小搏大”的原因:
训练成本低:垂类 AI 绘画模型的搭建和训练门槛相对较低,算法参考开源的Diffusion 和 CLIP 模型,同类模型 Stable Diffusion 的训练成本不到60 万美元,训练数据集来自网上爬取的亿级数据。
Discord 平台优势:Midjourney 搭建在 Discord 平台上,Discord 成熟的使用设施、庞大的用户基数及社区生态赋能 Midjourney。通过先发优势和社区互动积累了海量用户标注的“文字-图片”一致性效果数据,再通过监督学习机制不断优化AI 模型的生成效果,约一年时间快速迭代更新了五个版本。
独特的艺术风格图像生成效果优势:Midjourney 形成独特的艺术风格、差异化竞争,用户可以在提示词中选择 Midjourney 默认艺术风格的应用强度。Version5 已率先完善手指生成畸形的难点,大幅提升图像的写实细节、自然语言提示的理解能力等[3]。
六、竞争对手 1. DALL- E 2
OpenAI 的图像生成模型 DALL-E 2 本身就是一款功能强大的人工智能图像生成器,或许也是 Midjourney 最大的竞争对手。与 Midjourney 相比,DALL-E 2 完整的网络应用程序用户界面对于尚未使用 Discord 的消费者来说可能更容易接受。
虽然与 Midjourney 的 v5 相比,DALL-E 2 的提示质量不太可靠,但与 Midjourney 不同的是,DALL-E 2 可以通过 API 访问。OpenAI 的大量资金、其他人工智能模型的关注度以及非平台使用使其成为一个强大的竞争对手。
2. Runway
Runway 成立于 2018 年,提供协作式视频和图像编辑软件。除了实时编辑,Runway Research 的人工智能工具还提供强大的提示、编辑和图像到视频软件。
截至 2023 年 10 月,Runway 已融资 2.365 亿美元。Runway 提供功能有限的免费试用版,其最便宜的订阅计划起价为每个用户每月 15 美元。
尽管 Midjourney 用户可以通过 Discord 进行协作,但 Runway 的实时协作可以贯穿整个设计过程。Runway 主要面向专业和企业用户,而 Midjourney 则更多面向个人用户。
尽管 Runway 提供了自己的人工智能图像生成功能,但一些用户仍然使用 Midjourney 生成图像,例如将这两个工具结合起来制作电影预告片。
3. Stable Diffusion
于2022年8月公开发布;据报道,其开发资金来自2019年成立的初创公司 Stability AI。截至 2023 年 10 月,Stability AI 已累计融资 1.238 亿美元,其最新一轮融资 2500 万美元是在 2023 年 6 月通过可转换票据筹集的。
尽管自2015年以来就存在基于扩散的图像模型,但 Stable Diffusion 仍然是 DALL-E 2 和 Midjourney 的受欢迎替代方案。
Stable Diffusion 是一个开源模型,这意味着任何人都可以免费下载和使用它。它还比 Midjourney 更具可定制性,具有更广泛的功能和设置。
不过,Midjourney被设计为更易于普通人使用。
4. Adobe
1982年成立的 Adobe 开发了60多个软件应用程序,包括其创意和 Acrobat 套件,以支持艺术家和企业客户的日常工作流程。截至2023年10月,Adobe 的市值达到2373亿美元。
虽然自2019年以来AI已经为 Adobe 工具如内容感知填充提供动力,但 Adobe 在2023年3月发布 Firefly 后正式加入了AI竞赛。
Firefly 是一款生成式 AI工具,被加入到创意云套件中,使用户能够生成图像、矢量、视频甚至3D。Adobe 的 Firefly 旨在将人工智能融入已习惯使用 Adobe 产品套件的用户的工作流程中。这意味着 Adobe 用户可以借助熟悉的工具,如 Photoshop 中的“画笔”工具,使用 Firefly,从而使用户可以定义 AI 驱动编辑的特定区域。
与 Firefly 跨越各种 Adobe 应用程序进行集成不同,Midjourney 的主要目的是生成新图像,而不是精确编辑或修改现有图像。
5. Shutterstock
成立于2003年的 Shutterstock 是一个库存媒体网站,提供照片、视频、音频、平面设计模板和3D素材,还有一些图片编辑和媒体规划工具。2023年5月,Shutterstock 发布了自己的AI图像生成器,并公布了一个智能设计助手的候补名单。
与 Midjourney 相比,Shutterstock 提供了更多类型的媒体,Midjourney 只提供图像。
尽管 Midjourney在用户控制和灵活性方面对库存图像具有一般优势,但Shutterstock 的新生成式 AI 工具和 AI 设计助手可能会满足现有的 Shutterstock 用户;它甚至可能利用其广泛的 SEO 覆盖率来实现分销优势。通过快速的谷歌搜索很容易找到 Shutterstock 图像,而相比之下,Midjourney 缺乏平台外访问的能力也可能使其在与 Shutterstock 的基于 Web 的生成器相比处于劣势[2]。
六、商业画布
参考资料:
[1]https://www.aixinzhijie.com/article/6815438
[2]https://research.contrary.com/company/midjourney
[3]https://stock.hexun.com/2023-04-07/209428047.html
编辑:Agcl 校对:Jie
本文由人人都是产品经理作者【圈圈】,微信公众号:【lovepm】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Midjourney官网截图