2月16日,OpenAI公司公布了其首个文生视频大模型Sora,同时展示了多个由Sora生成的最长时间达一分钟的视频,引起科技圈震动。
钢铁侠马斯克对其发出“人类愿赌服输”的感叹,360董事长周鸿祎也作出“Sora意味着AGI实现将从10年缩短到1年”的预判,Sora为什么能引起科技圈大佬的关注,其攻克了哪些AI技术的难点?
继ChatGPT引发多个行业的就业焦虑后,OpenAI这次公布的Sora又将给哪些行业带来冲击?这些行业又该如何面对这些挑战?
在ChatGPT带来的关于AI的诸多争议还未完全平静下来的情况下,OpenAI又将AI的“触手”升维,这将带来哪些新的市场机遇又会制造哪些风险?
本期《钛度热评》特邀资深媒体人一起就话题:“Sora惊艳出世,AI能否给人类带来新的‘视界’?”进行了讨论,下面是部分观点集锦。
关于Sora为什么能引起科技圈大佬的关注,其攻克了哪些AI技术的难点。
BT财经联合创始人&CEO张津京表示, 某种意义上,它根本不是一个模型,而是一系列实现用提示词生成视频的工具集合。 OpenAI研究了关文生视频目前能查到最新的三四十篇论文,他们最牛的地方就是从中找到了一条看起来可行,并通过一年多时间逐渐推动落实的技术路线。所以你才发现这一篇报道的最后,OpenAI的研究团队列举了超过32篇被引用的论文。而整个过程他们分成5个部分,分别采用了不同的工具和原理。其中有创新思维的,是他们将视频作为了提示词可以理解的一个部分。
为了做到这一点,他们首先将视频的内容降维,然后变成提示词可以容纳的内容提交给搭建的小模型去分析,输出的东西再通过提压的工具,把它变成多维的格式,最终形成视频。
当然在这个过程中为了保证不失真,他们增加了很多的算法,最终通过跟行业内的交流,找到了一条可行的路径。
Sora并不是一个现在可用的模型或者工具集。因为在这篇文章的任何地方都没有向外界提供可以进行测试的链接,或者能重复进行研究人员制作视频的任何过程的页面。
所以,这根本不是一个成熟的产品,甚至连毛坯房都算不上,只能算是技术前瞻。
也正因为OpenAI知道目前实现不了相关的研究成果,除了展示没有其他任何的方式,所以他们并没有将这篇文章做成论文,在各大专业的平台或者媒体刊发。
毕竟论文验证最核心的一点,就是结果可以重复。
这就是说,凡是发布的论文带动的学科研究结果,通过其公布的实验过程,其他科学家可以复现,才能证明这个实验和结论的有效。这是在科学界的常识。
比如之前炒的沸沸扬扬的,韩国团队发现常温超导的事件,国际各大团队纷纷做了相关的试验,没有几个成功就对它的结果存疑。
而也因为当下Sora还不是一个完整的模型产品,其生成的所有视频,为了保密不可能公开相关的内容和操作过程以及细节。这也就让这件事在科技界的权威性要标上一个问号。
毕竟没有可重复的过程,所有提供的视频究竟是不是由动态模型自主生成,还是一个人工辅助或者参与的结果,没法证实或者证伪。
市值观察主编卢诗洋表示,Sora简单来说就是一个文字生成视频的大模型。这似乎没有什么大不了的,早在Open AI推出之前,相关大模型产品一个接一个,应有尽有。比如,PIKA、Runway、SVD、Genmo、Moonvalley。
但Sora足以降维吊打同行竞品。
首先,它将视频时长从目前主流的几秒钟提升至1分钟,切入到了短视频创作的时长范围。其次,单视频多角度镜头,且具备一致性。再者,可生成具备多个角色、包含特定运动的复杂场景,能够一定程度上理解物理世界。
它能取得如此震撼的效果,源于站在巨人的肩膀上,应用市面上较为成熟的两种技术(Transformer+扩散模型)。且嵌入自家GPT模型范式,即用户输入的提示词先通过GPT进行详尽扩写,再将扩写后的内容交给Sora,逐帧生成更精准的视频。这使其具备了独一无二的优势特点。
Sora竞争对手因没有GPT底层扩写处理模型,卡在文生文,文生图上,与Sora有着无法逾越的鸿沟。
Sora横空出世,标志着一个里程碑式的进步。未来将深刻改变短视频、游戏、娱乐影视、动漫、广告营销、新闻社交等内容制作领域。
诸如在电视或网络上看到的品牌商一则短短几分钟的视频,传统广告公司报价在百万元级别。后者也需要投入不菲的成本和时间才得以实现。未来,利用Sora或将大大压降其品牌商支出。对于广告商而言,或许意味着商业模式的重新洗牌。
因此,外界对于Sora有着极高的赞誉。
即便如此,令人震撼的Sora也有不小缺陷。虽然Sora对于现实世界理解有相当程度的提升,但本质依旧是基于海量数据的训练与计算,而不是其本身就对世界有理解,更远没有达到人类大脑的想象力。
因此,Sora生成的视频还有很多局限性,甚至包括一些事实性的错误,更无法理解需要想象力的因果律。诸如,人咬了一口饼干没有咬痕;人在跑步机跑步的方向错乱;玻璃杯摔在地上只是一方变形。
最近几天,有拥簇者惊呼,Sora吊打Runway、Pika,已经成为“通用世界模型”。很显然,这过于神话Sora了,它离AGI(通用人工智能)、世界模型还有很远很远的路要走。
所谓“现实世界不存在了”,也绝不是现在。人工智能的浩瀚前景,谁也没法否认,但当下需要保持头脑清醒。
关于Sora将给哪些行业带来冲击?这些行业又该如何面对这些挑战。
科技金融说创始人邵萍表示,Sora大模型的出现,从技术领域来看确实是一大亮点, 它标志着人工智能发展再度迈上一大台阶。对于各行各业,特别是金融、教育、医疗、自动驾驶等领域来说,无疑将带来巨大的影响,但追捧的同时仍要理性看待。
作为一款人工智能视频模型,Sora在于能够通过简单的文本命令创建出高度逼真、包含复杂背景和多角度镜头的视频。不可否认,这是继文本、图像之后, AI技术拓展到视频领域的又一次重大突破。未来也有可能引领一场更具看点的科技革新,最为直观的体现就是或对短视频制作、影视行业以及视觉交互界面应用产生较为显著的影响。但是若说Sora的出现,“一些行业将不复存在、现实世界将不存在”确实夸大其谈了。此外,目前Sora还处于初期探索阶段,后期对于安全性以及垃圾内容的把控性等方面仍待考察。
盘古智库高级研究员江瀚表示,随着科技的飞速发展,人工智能(AI)已经成为了当今世界最为热门的话题之一。其中,OpenAI的ChatGPT和Sora等模型的出现,更是颠覆了人们的认知。
首先,Sora的出现无疑是另一大里程碑。ChatGPT作为OpenAI研发的里程碑式语言模型,其强大的自然语言处理能力和对上下文理解的深度,在推出后迅速引发了全球范围内的广泛关注和热议。ChatGPT不仅能够流畅对话、解答问题,还能生成具有逻辑性和创造性的文本内容,这一突破性进展让人们看到了人工智能在认知智能领域取得的重大飞跃。
紧随ChatGPT之后,OpenAI又推出了视频生成模型Sora,该模型更是将AI技术推到了一个全新的视觉维度。Sora凭借其创新的文本到视频转换能力,使得AI从理解和生成文本跃升至创作高清视频内容的新高度。通过理解用户输入的文字描述,Sora可以自动生成包括复杂场景、多角色动态交互在内的长达一分钟的流畅高清视频,这标志着OpenAI在跨模态学习与生成方面取得了重大突破。
其次,Sora的最大突破还是在于理解人类语言并且通感成为视频。Sora模型的核心优势体现在它能够理解人类语言输入,并基于这种理解进行视频内容的创造性生成。通过深度学习和跨模态技术,Sora能够将文本描述中的抽象概念、情境、甚至是情感色彩映射到视觉表达上,生成与描述相匹配且具有一定连贯性的视频片段。
尽管目前生成的视频可能在细节处理、物理真实感或者复杂交互场景等方面还存在不完善之处,但其突破性在于首次实现了从文本到高质量视频内容的有效转化,这为内容创作者提供了一种全新的工具,大大提升了创意表达的效率和可能性。此外,Sora的应用价值也体现在教育、娱乐、广告设计等众多领域中,它有可能重塑这些行业的生产方式,并为未来更加智能化的内容创作打下坚实基础。
第三,视频的变革可能远超过文字的变革,而且速度会更快。在当前的互联网时代,视频已经成为人们获取信息、娱乐休闲的主要方式之一。每天都有大量的视频内容被上传到网络上,涵盖了新闻、教育、娱乐、广告等各个领域。这些丰富的视频资源为大模型的学习提供了宝贵的素材。
通过对这些视频进行深度学习和分析,大模型可以不断地提取和总结视频中的视觉元素、场景转换、叙事结构等规律,从而提高自身的生成能力。同时,大模型还可以利用这些视频资源进行自我迭代和优化,不断提升自身的性能和效率。
唐辰同学主理人唐辰表示,Sora值得更多的赞誉,但过度神话大可不必。贩卖焦虑的不是Sora,喊出“现实不存在”,就两类人,一类是AI门徒,一类是正在卖课割韭菜。应该向前者致敬,而后者典型如李一舟,正卖付费课程从你口袋掏钱。
对于普通人,人工智能是一套辅助工具。想靠着买课听来的信息赚钱,只会是竹篮打水一场空。真正带来压迫感的,或许是Sora不可思议的进化速度。例如,Gen-2是2023年6月发布的产品,距离Sora的发布不过8个月。支撑OpenAI以如此速度迭代的是“疯狂烧钱”,也是“大力出奇迹”的驱动力。
首席商业评论创始人卫明表示,Sora的目标不仅是搞视频,更是为了向AGI方向突破。
Sora生成的视频为何可以那么逼真?因为Sora不仅理解了语言指令,而且理解了语言中事物在真实世界中的物理规则。
譬如,出现的人,建筑,在不同角度观看会呈现视线中应该出现的部分。譬如,物体在真实世界中的重力,速度。还有比较关键的,不同物体在真实世界中的关系,如何互相影响。譬如一个骑车的人穿越树林,光线穿透的不同情况等等。
这些原来在电脑动画中能实现是依靠人类提供的算法,并且需要用人来调配,也不能简单复制。
而如今,Sora似乎已经学会并理解了这些关系。当ChatGPT,DALL-E,Sora等拼图组合在一起,可以理解语言,理解世界的物理规律,并通过语言描述,能生成任何事物,如果再配上摄像头不断观察世界,获取真实世界的素材,是不是就已经能生成一个全新的物种了?
如果再提升逻辑推理能力,那基本上就是AGI了。
AGI最终关乎的是权力分配。根据这次上海二中女教师事件的社媒传播来看,AI实际上已经在极大影响着事实和真相了。
这就会决定最终解释权,也会决定其他权力的分配。
目前的AI还没到AGI的程度,如果未来有了AGI,它就可以像人一样,但能力比人强,随意生成一段虚构的故事,效果和真人一样,那么大家该相信谁?
所以,未来的AGI,或者超级AGI,可能会影响人类的组织关系和权力分配,这是一件有风险的事情。
蓝媒汇联创兼运营总监岳轻表示,实际上Sora的振奋人心,是从某种角度上,让人认知到AI的商业化/普适化落地的现实。
从区块链到VRMR,实际上这两年互联网并不缺乏新技术,但是所有的新技术都给人一种原本应该存在于PPT上,但是用目前的硬件科技水平愣造出来的感觉——它的原理、应用案例等都让吃瓜群众觉得不明觉厉,但实际上并没有卵用。
实际上AI原本也应该是这样,但OpenAI走了一条不同寻常的“邪路”,它把传统认知中AI需要的“情感理解模块”,转用大数据和算法实现了一定标准上的完美替代,使得它在大幅度降低研发标准的同时,更贴近人们的日常生活。
从搜索引擎、图文替代创作等,走到当下互联网内容向最大的板块“视频”,OpenAI的每一步突破,都是基于吃瓜群众切身体会和应用上的。这也使得吃瓜群众更能理解OpenAI的原理、机制、成果以及它所能带来的颠覆式的未来。
可以说人工智能这个概念应该感谢OpenAI,研究它的公司和机构有很多,但只有OpenAI一家找到了一条最适合它的发展路径。
IT知识局主理人焦云鹏表示,当“文心一言”们还在考虑如何迭代升级时,OpenAI再次引领了大模型的潮流。Sora的出现,无疑让人们看到了更多的可能性,但它肯定不是终点,但却可以称得上是一个里程碑。借用周鸿祎的话来说,Sora加速了AGI的实现。
Sora刚发布时,大家都觉得这对于广告及影视制作行业是极大的冲击。但实际真的是这样吗?其实不然。从ChatGPT发布到国内众多大模型推出,似乎没有多大的改变,因为这些应用场景,更多的还是在消费级领域,通过大模型输出的成果也经不起商业推敲。如果说真的有影响,那可能真的是提高了一部分广告创意从业者的效率,但依然没有达到取而代之的程度。
另一方面,除了广告创意类的内容外,比如新闻领域、时政民生领域等,诸如Sora这样的工具要发挥作用似乎还要经过漫长的过程,比如法律法规的建立、不同国家制度的适配等等。最后要说的一点是,大模型的潜力不应该只存在于消费级,诸如在工业级、企业级场景中,还有更为广阔的空间。
ICT观察负责人叶丹丹表示,Sora的出现在AI领域可以说是划时代的标志,将视频制作方式注入了新的可能,但开放之路还有很远。
Sora将文本和图像生成工具的特点结合在一起,形成“diffusion transformer model”,通过从随机噪点开始,迭代到符合输入关键词的图像,再将这样的图像组成视频,而关键点就是视频每帧的连贯性和一致性,通过Open AI 发布的样片,Sora做到了。
如果在资源充足的情况下,Sora得以开放且以合适的价格进行行业应用,那就可以更便捷地将人类想法可视化。
但参考ChatGpt的发展路径,无论是从本身所需数据、算力和算法还是潜在的社会及伦理风险,Sora的行业应用之路还有很远。训练数据的稀缺、算力供给不足以及算法不完善都将成为Sora迭代的关键问题;而社会接受度、版权风险、及生成视频的合规性也将影响Sora的应用进度。
Sora让大众看到了技术的新可能,新可能就会有新冲击、新挑战,但技术发展一直在路上。
零态LT主笔吴狄表示,GPT3的问世,让人们将AGI的实现将从80年缩短到50年。2022年GPT4发布后,这个时间被进一步缩短到8年。如今,甚至有人坚信2025年将会是AGI元年。一位在1994年以神经网络作为硕士论文的研究人员表示,面对AI指数级进化的速度,他只能勉强做到头脑清醒。进化来的太快,绝大部分人还没来得及去消化它,包括OpenAI自己。
相比传统技术,AI挤占创业公司空间的威胁尤其明显,典型的例子就是Jasper,一款GPT3套壳写作AI产品,最终死于ChatGPT之手。以至于OpenAI开发者大会后,一个段子激发了很多人的共鸣:“奥特曼毁了我300万美元的初创公司,却只给了我300点ChatGPT积分”。
冲击来得太快,结论却来得太早。但不管怎么说,在Sora没有实装之前,所有的猜测最终都有可能是错误的,就像大家预测AGI实现的时间一样。图灵奖获得者Yan LeCun就表示,Sora的模式注定了它终将无法实现自己的野心。那么,Sora是否真的能够成功?如果是,成功后的Sora将会是什么样子?它又能带来什么样的新启发、杀死多少“Jasper”?
大力财经创始人魏力认为, Sora的降临无疑是一场革命。Sora 作为首个文生视频大模型,可能攻克了自然语言处理、计算机视觉和深度学习等难点,使视频生成更真实、自然。科技圈大佬对其关注,因为它可能缩短 AGI 实现时间,对未来科技发展有深远影响,并将在影视制作,动漫游戏和纪录片,以及广告营销等行业带来变革。未来的这些行业人才,将要大规模淘汰和流失,会进入到其他行业。这些行业需提升创意和技术水平,也可探索人机结合与 AI 合作。
Sora 带来新机遇如智能视频制作,但也引发风险如虚假内容传播,法律和版权问题。
关于OpenAI将AI的“触手”升维,这将带来哪些新的市场机遇又会制造哪些风险。
壹DU财经主编刘亦可表示,Sora是OpenAI发布的首个AI视频生成模型,在视觉领域实现了与大语言模型类似的突破。
在技术上,Sora突破了5至15秒的限制,将这一时长提升到60秒,并且场景切换、特写等均满足文本需求。还支持视频到视频的编辑,拼接完全不同的视频使之合二为一、前后连贯。
另外,Sora突破AI视频单镜头限制,可以生成多个镜头,且各个镜头具有角色和视觉风格的一致性。Sora是扩散+Transformer的视觉大模型,并且产生了涌现现象。它通过收集、清洗数据对现实世界有更深刻的理解、互动和模拟能力,生成的视频更加逼真。
此外,Sora的运行速度比之前的模型快30%,准确率高达95%,并采用了全新的算法,实现了AI与人类的无缝对接。
从目前Sora展现的能力来看,它对内容创作、广告娱乐和影视制作行业的冲击是首当其冲的。它让非专业人员,都有可能成为短视频创作者,这势必会产生新业态。但对于带有剧情的长篇故事视频,除了多镜头、连贯性等要求,还需要创新场景、准确和具有节奏的叙事、镜头语言等等。
短时间来看Sora不可能彻底替代人或者说让专业人员失业,反倒有可能让影视人创造出更多元丰富的作品。Sora的出现,更多是扮演辅助工具的角色,帮助人类提高效率,提高生产力。
目前来看,Sora等AI文生视频产品有望在电影、短视频、游戏等领域较大改变创作者的工作方式,降低创作成本,提升生产效率。另一个角度来看,Sora爆火与使用也会引发对内容真实性的验证、版权问题、以及伦理等问题。各行各业纷纷涌入,其中的不规范行为与炒作也是值得注意的。
盘古智库高级研究员江瀚表示,随着Sora等大模型的快速普及和应用,可以预见一场行业变革正在酝酿之中。对于内容创作者来说,大模型将极大地提高他们的创作效率和质量,降低创作成本。他们只需输入简短的文字描述或创意想法,就可以快速生成符合要求的视频内容,大大节省了时间和精力。
对于广告公司、影视制作公司等企业来说,大模型将为他们带来更多的商业机会和创新空间。他们可以利用大模型快速生成广告宣传片、宣传片等视频内容,提高品牌曝光度和用户黏性。同时,大模型还可以帮助他们实现个性化定制服务,满足客户的个性化需求。
第四,随着人工智能技术的不断发展和普及,严防死守来防止其应用已经变得不再现实。从长远来看,更好的策略是积极地去理解和利用人工智能,而不是试图阻止它的发展。
一方面,人工智能在很多领域已经展现出了巨大的潜力和价值。例如,在医疗领域,人工智能可以帮助医生进行疾病诊断和治疗方案制定;在交通领域,人工智能可以提高交通流量和安全性;在金融领域,人工智能可以帮助进行风险评估和投资决策等。因此,通过积极利用人工智能,人类可以创造更多的价值,提高生活质量。
另一方面,理解和利用人工智能也需要人类不断地进行探索和创新。随着人工智能技术的不断发展,新的应用场景和商业模式也将不断涌现。通过不断学习和实践,人类可以更好地掌握人工智能的技术和应用,推动其与社会、经济、文化等各个领域的深度融合。
因此,与其盲目地抗拒人工智能,不如积极地去理解和利用它。通过不断学习和创新,人类可以更好地掌握人工智能的技术和应用,推动其与社会各个领域的深度融合,这样才是人工智能时代真正的生存之道。
《鲸平台》智库专家郭施亮表示,从ChatGPT到Sora,再到未来可能出现的AGI,科技发展速度太快了,你不进步努力,别人继续进步努力,稍有休息,却与强者进一步拉开距离。Sora的成功意味着人类距离AGI的时间大大缩短,Sora不仅仅是生成视频的工具,而且是对AI、大模型等方方面面的综合应用,一旦得到场景化应用以及商用,未来的发展前景也是非常可观的,但目前来看,全面实现商用的难度依然不小,还是需要用时间观察。但是,AI大热,最直接的体现是以英伟达为代表的巨头股价持续上涨,未来的竞争还是要比拼人才储备、比拼技术积累以及比拼研发投入,只有牢牢掌握核心技术、核心人才,才可以走得更高、更远。
比特财经主编邹震表示,和Sora生成的视频内容相比,此前的文生视频显得很幼稚低级。此前文生图就经常被用户诟病结果不符合常识,而从目前Sora的表现来看,它显然已经解决了这个难题。Sora的问世,显示出生成式AI进化的速度太快了,大大超乎了人们的想象。OpenAI方面表示,Sora将成为实现AGI的重要里程碑。
按照Sora的发展速度,通过语言就能指挥AI创作电影级、广告级视频,这对很多行业确实会带来巨大的颠覆。不少人都被Sora生成的内容惊艳,认为它将颠覆影视业,广告行业也要完。短期内看,技术的进步将带来行业的变革是毋庸置疑的。在Sora时代,视频制作方面将会崛起更多的个人IP。但AI至少在相当长的时间里,还只是一种辅助工具。涉及影视、广告行业的创意还需要由人来完成。因此适应这种转变,才能活得更好,这同时也可能会让一些中小型创业公司获得发展机会。
产业家作者斗斗表示,在技术层面,Sora的诞生无疑令人瞩目,甚至可能让国内部分人士感受到技术差距的“滚雪球”效应。这一现象与其未来可能引发的一系列变革息息相关。随着文生视频应用的实施,Sora有望改变影视制作、广告设计等领域的创作方式,催生全新的艺术表现形式。此外,在教育、游戏、社交等众多领域,Sora也将带来前所未有的变革。
尤为值得关注的是,Sora的诞生从侧面印证了AI发展的步伐,其速度和规模远超人们的想象。这意味着随着算力和数据的持续积累,未来或许将涌现出更多可能性。
然而,从另一个角度来看,Sora目前并未带来生产力的实质性变革,未来也可能难以实现。换句话说,它尚未在提高生产效率和降低成本方面取得显著成果。在美国等以服务业为主导的国家,技术应用主要集中在服务业。
这与我国的情况截然不同。作为制造业大国,我国工业制造始终占据主导地位,从而拥有丰富的应用场景。而这些正是许多海外发达国家所欠缺的。基于这些应用场景,发展大模型技术落地,将有助于我国在技术领域实现赶超。
总体而言,欧美国家和我国各有优势。面对市场变化和技术飞速发展,做好眼前的事、当下的事,才是应对技术焦虑的正确之道。因此,当前阶段,着力推动大模型场景落地,成为我国赶超的关键。
大力财经创始人魏力表示,Sora 可能使影视、游戏、教育、娱乐、广告、新闻、社交媒体、医疗、旅游和科技等行业发生变革,如提供更真实生动的视觉体验、降低成本、提高效率等。但发展中要考虑人类利益和社会可持续发展,和真实度的问题,实现 AI 与人类和谐共生。