刘润：OpenAI全新发布的Sora，到底意味着什么？

作者：刘润发布时间：2024-03-08

作者 / 刘润

编辑 / 二蔓版面 / 黄静

这是刘润公众号的第2159篇原创文章

1、2024年2月16日凌晨（美国时间2月15日），OpenAI发布了“文生视频”（text-to-video）的工具，Sora。整个世界再次被震撼了。人类用无数种语言，在全球的社交媒体上惊呼：现实，不存在了。

2、那么，Sora到底是什么？

3、这是一段咒语（Prompt）：

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译成中文（by ChatGPT）就是：

一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

4、文生视频。文有了。现在，看视频。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

5、看完之后，什么感觉？是不是感觉：这……不可能是AI生成的吧？你看她脸上，雀斑和瑕疵那么明显，不像是假的；镜头移动时，水里的倒影也在移动，不像是假的；旁边一起走的那些人，每个人心中有自己的故事，不像是假的；更重要的是，她的墨镜里还有街景的映射，不像是假的。

6、以前不相信是真的。现在不相信是假的。

7、OpenAI知道你会这么想，所以在官网留了一句话：

所有本页面上的视频都是直接由Sora生成，未经修改。

8、Sora的能耐，还不仅仅是“文生视频”。他还能把两个视频，连在一起，实现无缝过渡。比如这个，从现实的乡村，无缝过渡到虚幻的城市。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

9、这样的视频，还有很多。Sora还能做很多很多其它事。你可能也已经看到了不少。我就不发了。网上到处都是。

10、比起这些震撼视频，其实我更想知道的是，Sora的出现，对人工智能的整体发展，到底意味着什么？于是，我专门找来OpenAI官方公布的Sora的技术文档，仔细看了一遍。

11、看完之后我发现，这份技术文档，比那些不可思议的视频，更让人震撼。

12、这篇技术文档，没有泄露太多Sora的技术细节。但还是介绍了它的基本原理。

13、简单来说，Sora通过学习视频，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。换句话说，Sora学习的不仅仅是视频，也不仅仅是视频里的画面、像素点，还在学习视频里面那个世界的“物理规律”。

14、听上去，很抽象。我解释一下。

15、比如，你咬一口食物，食物应该出现一个咬痕。这是“物理规律”。如果咬完之后，食物还是完整的，那就不符合“物理规律”。

16、大部分的视频软件，并不理解“物理规律”。他们处理的对象，只是画面。而不是画面里的食物和人。但是Sora，似乎理解。当Sora学习人咬食物的视频时，它记住的，不仅是食物和嘴在一起的“具体画面”，还有“咬就会有痕”这个“物理规律”。以后生成视频时，一旦有“咬”这个动作，Sora就会知道，下面应该出现一个咬痕了。

17、比如，下面这段。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

18、用Sora生成的视频，并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害，很可怕了。因为“先记忆，再预测”，这种理解世界的方式，是人类理解世界的方式。这种方式有个名字，叫：世界模型。

19、什么是，世界模型？我举个例子。

20、你的“记忆”中，知道一杯咖啡的重量。所以当你想拿起一杯咖啡时，大脑准确“预测”了应该用多大的力。于是，杯子被顺利拿起来。你都没意识到。但如果，杯子里碰巧没有咖啡呢？你就会用很大的力，去拿很轻的杯子。你的手，立刻能感觉到不对。然后，你的“记忆”里会加上一条：杯子也有可能是空的。于是，下次再“预测”，就不会错了。你做的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界的反应。这就是人类与世界交互的方式：世界模型。

21、关于世界模型，如果感兴趣，我建议你读一本书，叫《千脑智能》。

22、回到Sora。Sora的技术文档里有一句话：

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

翻译成中文就是：

我们的结果表明，扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。

23、什么意思？意思就是说，OpenAI最终想做的，其实不是一个“文生视频”的工具，而是一个通用的“物理世界模拟器”。也就是世界模型，为真实世界建模。

24、而Sora，只是验证了，这条道路可行的一个里程碑。

25、如果从“视频”中，可以开始学习物理的规律了，那么，未来可以不可以从“摄像头”里学习呢？如果也可以的话，那么，给AI装一双“眼睛”，让他满世界跑，会发生什么？如果也可以的话，那么，把全世界的公共摄像头，都开放给OpenAI，会发生什么？

26、Sora的出现，可能意味着，通用人工智能（AGI），正在加速到来。

27、这才是OpenAI，真正想做的事情。

28、所以，这时你就能理解，为什么Sam Altman要筹集7万亿美金，重塑全球AI芯片的基础设施了。7万亿，相当于全球GDP的10%，能买2.5个微软，4个英伟达，或者11.5个特斯拉。为什么？因为，通往通用人工智能的道路上，需要大量、大量、大量的算力。

29、Sora来了，通用人工智能还会远吗？

30、这个世界正在发生着难以想象的变化。看似很远，但又瞬间近在眼前。

31、最后，要感谢Sam Altman，选择初六宣布此事。

32、不然，我们整个春节，都要用来见证历史了。

*个人观点，仅供参考。

《好喝，从来都不是奶茶的核心竞争力》《搞明白自己的业务，才能更好地管理》

《流程的存在，不是为了制造各种麻烦，而是为了解决3种问题》

品牌推广 | 培训合作 |商业咨询 | 润米商城| 转载开白

请在公众号后台回复合作

刘润：OpenAI全新发布的Sora，到底意味着什么？

推荐体验

相关资讯

刘润：OpenAI全新发布的Sora，到底意味着什么？

OpenAI全新发布的Sora，到底意味着什么？

Sora现世，OpenAI再次血洗AI界，它的发布意意味着什么？如何看待最新发布的Sora？

ChatGPT对企业到底意味着什么?

OpenAI 的绝密项目「草莓」，对我们到底意味着什么？

近期资讯

小米SU7城市销量榜：杭州人买的最多上海、深圳包揽亚季军

全球跑得最快的高铁！CR450动车组样车发布

深圳：竞逐“低空第一城”

2024·百姓身边科技事|学校社区融入“智能时代”

日喀则和长白山40米射电望远镜启用

新技术可不受位置限制实现无线充电

华为于W49-W51连续三周夺得中国智能手机市场销量市占率第一名

电视哪个品牌好，五款高品质85英寸电视，年度最佳选择

普光气田首座高含硫增压站压缩机组完成首保

未来智能COO王超：人工智能新浪潮下，AI硬件如何破局

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响