当前位置:首页|资讯|OpenAI|Sora

OpenAI“新王炸”Sora,正试图理解世界

作者:博雅小学堂发布时间:2024-03-08

原标题:OpenAI“新王炸”Sora,正试图理解世界

给孩子的科技周刊

文 | 汪诘

知名职业科普作家

文津图书奖获得者

博雅小学堂科技新闻人气主播

继ChatGPT后,OpenAI又出王炸:Sora。相比此前已有的AI短视频生成工具,它有怎样的重大突破,其中的原理是什么?这会产生什么影响?又可能开启了怎样的新纪元?

今天的推送节选自博雅小学堂App《给孩子的科技周刊》

本来,去年几乎每个月都能听到人工智能有新突破的消息,ChatGPT、GPT4.0、GPTs,经历过震撼已经非常多了,我觉得自己应该已经习惯了,对人工智能发展的预期早就调得很高了,再有什么突破想震惊到我应该没有那么容易了。结果年还没有过完,2月16号的时候,OpenAI就直接来了一个王炸,公布了Sora,直接让我惊掉了下巴。

有的同学可能还不清楚Sora这个模型是干嘛的,如果就是从效果上来讲,其实就像是之前AI绘画的升级版。

之前也介绍过OpenAI发布的DALL-E 3,只需要你描述一段话,它就可以根据你的描述去画出一张精美的画。而这个Sora也类似,你只需要描述一段话,比如,“雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。”然后就真的可以得到一个视频。我觉得它的逼真程度可以以假乱真了。

已关注

关注

重播分享

关闭

观看更多

更多

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    源自:OpenAI官网

    虽然这个模型还没有正式公布,我们还不能亲自去尝试,但是OpenAI的CEO山姆·奥特曼正在社交账号上征求各种提示词,然后他会用Sora把这些提示词变成视频片段发布出来。很多人在看过这些视频之后都会发出一个感叹,都太逼真了。

    Sora最大的突破还要从它生成的视频时长开始说起,Sora可以制作出1分钟的视频。其实在Sora之前也有可以生成视频的模型,但是最多只能生成几秒到十几秒的视频,跟1分钟的差距很大。

    Sora生成的近1分钟短视频截图。图源:OpenAI官网

    为什么会出现这么大的差距呢?我可以举个例子帮你理解。

    在很早以前,大众的识字率还不高的时候,有很多石匠是不认字的。如果这些石匠就雕个石狮子之类的雕像的话,还可以照着画雕刻的。但是石匠还有一项工作非常重要,那就是雕刻石碑。石碑上那可都是各种书法写出来的毛笔字啊,不认识字怎么能雕刻出来呢?

    其实也不难,石匠只需要把毛笔字当作画,根据笔划的形状一点一点刻出来就行。

    如果你找石匠刻石碑,把字全部写好了,让石匠一模一样画出来,那么石匠不识字也完全没问题。可是,如果你只是给他写了个草稿,告诉他这上面的字要一样,但是要写更好看一点,这就容易出问题。

    因为你要求好看,那么就需要石匠发挥自主性,按照他理解的方式去创造去挑战,可能是把的字的大小调整的一致些,也可能是笔划调整的规整些。如果石匠认识字理解每个字的意思,那么完全没有问题,但如果他不认识字,那就可能出问题。他就完全有可能认为“日”这个字扁一些更好看,结果他就把“日”变成了孔子曰的“曰”,意思都完全变了。

    Sora和之前模型的差别就相当于石匠是不是认识字。Sora模型就相当于一个认字的石匠,它知道自己制作的视频里面是狗。而之前的模型不理解狗到底是什么,它只知道它要创造的视频里有个看起来毛茸茸的东西。

    已关注

    关注

    重播分享

    关闭

    观看更多

    更多

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      源自:OpenAI官网

      如果只是做静态的图的话,那它们的差别还不会很大,但是如果是生成视频,那就出现巨大的差异了。我们知道,所谓的视频,就是一组图片,每张图片都会有很小的变化,把这些图片连续播放,最后就是看到的视频的样子。

      如果用AI生成狗狗的视频,如果说这个模型一开始就理解狗的含义,那么它生成的每个图片即便有变化,也都会按照狗的特性去发生变化。可是如果模型不理解狗是什么,只能保证每张图像都是看起来毛茸茸的,那么它最后就可能会出现类似把“日”变成“曰”的错误,最后生成的图像根本就不是狗了。

      而且视频越长,生成的这组图片前后变化就会越大,如果不提前理解图片里的具体内容,那么最后就越容易无法保持一致这也是为什么之前模型最多只能生成几秒的视频,而Sora却可以做到1分钟。甚至我们还可以大胆猜测,1分钟也根本不是 Sora的上限,如果放开了的话,它一定可以生成更长的视频。

      AI视频生成工具Runway生成的短视频截图。图源:Runway官网

      这一点才是最让我震惊的地方。之前虽然已经被GPT4.0的对答能力震惊了,也非常怀疑GPT4.0已经超越了鹦鹉学舌的阶段,可以理解文字的意义了,但是并没有特别直接的证据。

      而现在,通过Sora的表现,我已经非常确定了,现在的人工智能的模型真正的理解文字和视频的内容,而不只是表面上的模仿

      即便是这样,Sora让人震惊还没有结束,因为通过一些公布的视频来看,它不只是理解了视频里画面的内容,它应该还通过视频画面总结出来了许多真实世界的规律。

      比如,即便提示词里面并没有直接讲出来,但是Sora生成的视频里仍然可以实现这样一个画面,一个人咬了一口汉堡,汉堡就缺了一部分。这就需要Sora不只知道汉堡是一种软软的食物,还要知道人咬了它之后,它会被咬掉一部分,不再是完整的汉堡了。

      当然了,Sora也有不完美的地方,比如玻璃杯掉下去不会被摔碎,跑步机上的人朝着反方向跑之类情况。

      Sora生成短视频截图。图源:OpenAI官网

      但是我们已经可以看出它的潜力了。它可能标志着,人工智能领域开启了世界模型新纪元。

      什么是世界模型呢?简单的说,就是说人工智能训练的时候,虽然用的是各种文字材料,图像材料,但是在它的内部却不是简单的把文字和图像关联起来,而是在理解了文字和图像的内容之后,从中总结出各种规律,然后利用这些规律就可以在人工智能的内部虚拟出一个和真实世界类似的小世界。有了这个小世界之后,有了什么问题,它就会先在自己内部模拟一下,然后根据模拟的结果去预测外部世界可能发生什么事情。

      其实我们的人脑就是一个世界模型,我们可以避开危险去做有利自己的事情,就是因为我们大脑里的世界模型帮我们预测了结果。

      所以一个真正的人工智能,一定是一个世界模型。Sora现在已经为我们展示了,当把文字和图像结合起来之后,它已经开始掌握世界运行的规律了。

      如果未来有一天,为人工智能接上声音传感器、气味传感器、触觉传感器,它们是不是就可以真的像人一样了呢?

      如果再给它们接上雷达、声纳、天文望远镜,那么它们将会比我们人脑获得更多更直接的信息,那个时候人工智能会不会超过我们人类呢?

      这才是让我觉得震惊的地方,我知道人工智能迟早有一天会超过人类,但是没有想到这个时刻会比之前认为的快多。

      思考与讨论

      我也给大家留一个思考题:如果真有一天人工智能全面超越了人类,你是愿意和它交朋友呢,还是要去像黑客帝国里的Neo一样反抗它呢?

      👇👇👇

      前沿 多元 探究 思考

      餐桌话题塑造孩子国际视野

      🔥博雅爆款🔥

      给孩子的新闻系列2024

      适合年龄

      8岁及以上孩子和家长

      合辑特惠(包含四大主题新闻)

      购买合辑即配精华电子月刊

      电子月刊【英语角】升级

      听英语新闻,探索发现世界

      新闻合辑学友免费听

      博雅小学堂APP——我的——我的课程——

      给孩子的英语新闻

      点亮“在看”,分享更多人


      Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1