过去一年, 人工智能生成的以假乱真图片占据着互联网的各个角落。能完成工作的人工智能产品或系统全球有上百个, 比如开源的 Stable Diffusion、OpenAI 开发的 DALL·E2, 中国也有 Tiamat、文心一格等产品。
但人们往往更痴迷 Midjourney 的作品。现在全球有 1700 多万人使用 Midjourney, 至少是 Stable Diffusion 网页版的 7 倍,DALL·E2 的 6 倍。
很难说这是 Midjourney 技术领先的结果。它用到的基础技术几乎与 Stable Diffusion 以及中国类似的产品没有本质差别。比底层技术更明显的差别, 是它们与用户的交互方式。
OpenAI 的 DALL·E2 是一个网页,Stable Diffusion 普通版同样是网页, 想极致发挥它的能力, 需要使用者用数据训练模型。而 Midjourney 在社区产品 Discord 里, 许多用户集中在一个「房间」内, 输入提示词, 等待一分钟收到生成的图片——用户的提示词和图片会被彼此看到。
(图片来源:discord)
「一项技术最大的限制不是规模、成本或运行速度, 而是我们如何与它互动。」Midjourney 创始人大卫·霍尔茨 (David Holz) 说,「不管我们多聪明, 技术多好, 我们如何使用技术, 才决定了我们能做什么。」他在接受采访时, 多次提到在社区产品中构建 Midjourney 是其成功的关键之一。
今年 Midjourney 尝试进入中国市场, 同样选择了类似 Discord 的产品 QQ 频道。不同的是, 在中国市场, 沿着社区路径、成为受用户喜爱的文生图工具的机会, 不一定属于 Midjourney。