Midjourney CEO大卫·霍尔兹：AI应该是我们自身的延伸

作者：腾讯科技发布时间：2023-07-07

Midjourney CEO大卫·霍尔兹：AI应该是我们自身的延伸

腾讯科技讯7月7日，MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言，认为AI将成为创造和想象力的新的载体和引擎。通过AI，我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney，霍尔兹表明它来自于道教著作《庄周》中的中道概念，他认为中国古典文学带来了很多最美丽的，最深沉的思想。

目前Midjouney正在进行5.3版本的开发，并会在版本6中提供一系列对生成图像进行缩放，平移来自动生成新的不同角度相关图像的能力，并且可以控制生成图像的随机性，让作者在诡异的美和令人迷惑的画面间找到平衡。在未来，Midjourney的目标是发展出三维，实时，动态可调的生成图像。

关于技术的未来，他并不确定可能的走向。但融合模型（图像 /文字用的模型进行融合）可能是比较可能的发展方向。他认为AI的这次技术进步的潜力还没有完全发挥出来，比现在强上十倍，百倍的进步是必然的。

他认为到目前为止技术上的大部分进步都来自于试图让人变得更好，试图放大人的能力。因此AGI也许并非是必要的，AI作为我们人的延伸，赋能人类才是更好的选择。

以下为演讲实录：

大家好，我是大卫·霍尔兹，Midjourney的CEO和创始人. 我很荣幸受上海市政府邀请我参加这次人工智能世界大会，并很期待加入今天的活动。

世界上最重要的技术之一就是引擎。引擎是一种用于产生、转移或放大的机器。我们使用引擎在各种工厂建造各种各样的交通工具，如汽车、飞机和船只。而现在，是时侯把人工智能看作一种新型引擎了。

在 MidJourney，我们正试图用这种引擎来打造一种新型的载体，这载体不是交通工具，而是承载我们的思维和想象力的载体。

就像你可以用足球转动世界，但仍需要腿去踢球一样。我们希望能创造一种新型的载体，你可以用它来进行想象，而不仅是产生运动。在我们创造之前，我们必须首先去想象，想象我们能成为什么，我们可以去哪里，什么是可能的。我认为我们制造的工具，比任何东西都更专注于放大想象力的原初力量。我们有机会放大的不仅仅是任何个体，而是整个人类种族的想象力。我曾多次随Leap Motion（手势识别设备）访问过中国，Leap Motion的第一个办公室就在上海。上海有一种特殊的感觉，我非常喜欢，它似乎是旧金山、洛杉矶、纽约以及一些欧洲老城市的组合体。它拥有一种古老历史和文化的力量，同时也有一种未经雕琢的未来感。这真的很酷，这是我最喜欢的两件事。

事实上，我基本上是个科幻小说的狂热读者，而我看到的最疯狂的设定来自于中国古典文学。我认为古代中国文学拥有人类历史上最美丽、最深沉的思想。MidJourney（中道）这个名字实际上源于我最喜欢的一个古老道家文本的翻译，它出自《庄周》。比如《庄周梦蝶》、《子非鱼》、《庖丁解牛》、《不材之木》、《空舟》，我喜欢这些。我喜欢MidJourney这个名字的原因是，我觉得人们有时容易忘记过去，可能会感到迷茫，对未来感到不确定。但我更多的是觉得我们其实是在中途旅程，我们来自丰饶美丽的过去，前方是荒野而不可思议的未来。

我们最近发布了Mid Journey 5.2版本，现在正进行着5.3版本的开发。之后我希望能发布一个重大更新版本，我希望称之为版本6。我们引入的最新特性是关于图像的缩放，并在你缩小的同时，可以创造不同的故事和环境，围绕中心主题进行变化。这周我们将发布一个类似的功能，它允许你移动相机，然后当你横向移动相机时，可以不断改变提示，然后讲述故事，我们还发布了这个奇特的控制系统，可以结合这些新功能来更好地控制图像生成。

你也可以将其与风格控制相结合。“风格控制”略有点混淆，但是这个想法是，你想要告诉AI想生成多美的产物，你要承担多大的风险来制造这种美。哪怕它是非常规的，混乱的，奇特的，但有时结果真的非常出色。

有时你需要勇于冒险，这让人们可以控制风险性和美的随机性之间的平衡，或者是平衡对图像的常规普遍美予以多少关注。我们还引入了一种我们称之为涡轮模式的东西。涡轮模式就是我们尽可能多地使用GPU，使图像产生非常快。这让生成的速度提升了4到5倍。这个模式让你好像在用64个或100个以上的GPU去生成图像。能达到这个算力，你的计算机大概得值50万美元。这听起来多少有点疯狂，而我们还在研发更疯狂的技术。虽然它们大部分还在酝酿之中，但我们认为随着时间的推移，Midjourney将发展为不仅能创造二维图像，而且能创造三维图像，动态图像，你甚至可以与像素本身交互。在将来也许你能实时回流和重塑的你画出来的东西。

人们只需要这样一个庞大的AI处理器，然后它就可以梦想所有的不同世界，而且梦想可以与我们的思维互动。而我们从某种意义上是通过它（AI）在做梦，那将是真正酷的事。Diffusion模型、Transformer模型、Clip模型的依次发现，实际上让AI开始进入图像空间。大约在2年前，任何图像AI服务都还没有出来时，我们所有的研究者在旧金山交流，我记得我当时说这些模型，特别是Diffusion模型的横空出世肯定会带来完全不同的东西。还有生成对抗网络技术，这是大家在之前用来制作图像生成的基本技术。

我只记得每个人都以一种不寻常的方式立刻点头，说Diffusion模型真的不一样。那一时间气氛非常严肃，我有了一种必须参与其中，并给这个技术带来更人性化的用户界面的强烈感觉。

但是关于未来，我们很难确知技术会如何发展。有时我们会谈论现在如何将语言模型转向Diffusion模型，也即使用Diffusion模型来制作文本。或者说图像模型会变得更像语言模型。这到底怎么达成呢？这种方式的技术术语是自回归Transformer，或者说AI会向着混合模型发展。但这真的很难说。我认为我们只是在这场变革的开端，但我百分之百确定还有很多进步要去取得。比现在十倍，一百倍的进步很可能是必然的。

这种进步不仅体现在性能上，而且体现在让我们更好使用这些技术的用户界面和产品上。无论是个体还是集体都可以制造出真正酷的东西，可以更好地解决问题。道格拉斯·恩格尔巴特是第一个创建文本编辑器的人。最初，人们是通过打孔卡或卡片上的打孔来编程计算机。但道格拉斯开始思考，如果我们用计算机编程计算机会怎样，这在那时候听起来很疯狂。他的想法是，通过在计算机上编程计算机可以加速这个循环，使我们做的更好，使计算机更强大，放大一切。这种想法最终实现了。尽管我们有这些不同的文化，比如AI，人机界面，智能应用文化，我认为到目前为止技术上的大部分进步都来自于试图让人变得更好，试图放大人的能力。

我们还没有真正看到AI时代降临，在那时我们会有独立的AI去解决问题。但如果我们过多地考虑朝着那个方向发展，可能会错失技术中现存的很多机会。我不仅思考AI能做什么，而且思考如何在不同的事物之间创造流动性和纠缠。因为工具不应该感觉像一个人，它应该感觉像你自己，你的身体，你的思想的延伸。我在想如何构建这些技术，让人和AI相互交织起来，感觉不像是你正在与艺术家合作，而更像是你在想象一些东西，然后它就出现在屏幕上。很多人在描述我的旅程时，都觉得那些目的地就像是他们思想的一部分。我认为这就是大部分AI应该成为的样子，它应该是我们自身的延伸。

所以我想再次向陈先生和全体观众表示感谢。WAIC非常酷，我希望我能在将来亲自参加，成为这个活动的一部分。我很期待与中国有更多的合作，我记得我在那里的所有美好的亲身经历，希望大家在那里也能享受互动的乐趣。谢谢。

Midjourney CEO大卫·霍尔兹：AI应该是我们自身的延伸

Midjourney CEO大卫·霍尔兹：AI应该是我们自身的延伸

推荐体验

相关资讯

WAIC 实录｜Midjourney 创始人Holz：人工智能应该是思想的延伸

Midjourney创始人大卫·霍尔兹：Midjourney名字灵感源于庄子包含“中道”理念

创始人大卫·霍尔兹：Midjourney名字来自中国道家的“中道”理念

微软AI CEO苏莱曼：人工智能的目标应该是服务人类

古籍数字化的主角不应该是AI

近期资讯

如何防止“一老一小”过度用网？没收手机不可取

祥鑫科技等多公司剧透人形机器人业务布局情况

蓝皮书：科技化是餐饮业发展的创新动力

首席气候官｜专访曼恩能源方案高级副总裁、亚太区负责人沙柏能：人工智能+人类智能是脱碳关键，2050年后海运业燃料格局将迎巨变

刚刚确认：可达中度污染！上海突发空气重污染黄色预警，减少户外活动

“水利一号”遥感卫星凌情监测首图成功传回

大模型·大未来｜金证优智科技副总裁林勇：持续关注大模型的四个技术方向

六大新质生产力最热赛道，解锁万亿产业投资密码

邮储银行北京分行：立足五河交汇之畔，服务京津冀协同发展之图

消息称苹果正加紧研发AI芯片以减少对第三方的依赖

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响