当前位置:首页|资讯|OpenAI|Sora|人工智能|AI大模型

OpenAI首个视频生成模型Sora发布 美一股涨10倍人工智能概念风再起时?

作者:皮匠投资圈发布时间:2024-03-10

原标题:OpenAI首个视频生成模型Sora发布 美一股涨10倍人工智能概念风再起时?

OpenAI首个视频生成模型Sora发布

美一股涨10倍人工智能概念风再起时?

据OpenAI官网,OpenAI首个视频生成模型Sora发布,完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。

英伟达科学家@DrJimFan如何评价Sora?

1/Sora 是一个数据驱动的物理引擎,它是对许多世界的模拟

2/看似简单的步骤包含了大量的技术和模拟

3/未来它将取代所有手工设计的图形管道。

以下是正文:

1/

如果您认为 OpenAI Sora 是像 DALLE 一样的创意玩具,...再想一想。Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。

如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶。它必须如此!

我们来分解一下下面的视频。提示:“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”

- 模拟器实例化了两种精美的3D资产:具有不同装饰的海盗船。Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题。

- 3D 对象在航行并避开彼此路径时始终保持动画效果。

- 咖啡的流体动力学,甚至是船舶周围形成的泡沫。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。

- 照片写实主义,几乎就像光线追踪渲染一样。

- 模拟器考虑到杯子与海洋相比尺寸较小,并应用移轴摄影来营造“微小”的氛围。

- 场景的语义在现实世界中并不存在,但引擎仍然实现了我们期望的正确物理规则。

接下来:添加更多模式和条件,然后我们就有了一个完整的数据驱动的 UE,它将取代所有手工设计的图形管道。

转一个央视人在朋友圈的感慨:又是一次巨大的飞跃!

以及,可能未来最重要的能力就是想象力。

从上学到现在大概15年,

我们正好见证了视频的生产,从垄断到成为大众的基本技能。

那时候,拍视频作业要借摄像机设备,个人也只能负担起几盘60分钟的磁带。后来佳能无敌兔横空出世,让更多人体验浅景深的“大众电影感”。再后来,全民媒体时代,谁还不会做个视频呢?

到今天,我们最后的堡垒——所谓影像讲故事的能力,也正在被AI模仿和学习,就像无师自通的昆汀看过几千部电影当了导演,看过几万几亿视频的AI当导演也是迟早的事。

乐观的是,工具已经没有门槛了,剩下的都交给想象力;但可怕的是,也许想象力也是一种随机组合的“算法”。

这就意味着未来大量的工作将会被AI大模型彻底取代,比如说,视频剪辑、页面设计等等,当AI能够帮助我们处理文本生成图像制作视频,那以后人与人之间拼的就是灵魂认知与高度,包括对事物认知的再度展现,相当于以后比拼的是谁更有创作力,谁的想象力更完美。

最妖AI股 :不是接近90度上涨的英伟达,而是超微电脑(SMCI)

开年以来股价直线拉升的超微电脑,涨幅再扩大至14%,刷新盘中历史高位至1000.22美元。超微电脑(SMCI)过去5个交易日涨35.62%,整个2月涨约89.57%,年初至今涨253.20%,过去52周涨1388.08%。市值已经涨至最低价时的68倍多。用投资者的话说:“不是暴涨就是涨的路上,都不带喝水休息一下。”

超微电脑股价飙涨的主要原因在于市场对其服务器(AI芯片的基础设施)的强劲需求,另外,新近公布的强劲财报远超预期,第二财季业绩和第三财季业绩指引均超出分析师预期,带动超微电脑当日盘后大涨超过10%。

目前,超微的市值约为561亿美元,虽远不及英伟达约1.7万亿美元的市值。

【国盛计算机】OpenAI发布Sora模型,文生视频迈入新时代

2024/2/16,OpenAI突然发布了文生视频模型Sora,可以在用户的要求下,生成可最高长达一分钟的视频,例如摩登女子在东京街头行走、黑人男子读书等等(详细案例可参见官网视频),在长达一分钟的视频中可以同时存在远景与近景特写,且细节翔实逼真。

今日起,Sora 会对部分视觉艺术家、设计师和电影制作人开放,以获得关于如何改进模型的反馈意见,使其对创意专业人士最有帮助。OpenAI表示将尽早分享研究进展,以便开始与 OpenAI 以外的人员合作并获得他们的反馈,同时让公众了解人工智能的发展前景。

Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。该模型不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的。该模型对语言有深刻理解,因此能准确解释提示,并生成能表达生动情感的引人注目的角色。Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。

Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上,因此,该模型能够在生成的视频中更忠实地遵循用户的文字说明。除了能够仅根据文字说明生成视频外,该模型还能根据现有的静态图像生成视频,并准确、细致地对图像内容进行动画处理。该模型还能对现有视频进行扩展或填充缺失的帧。OpenAI今日会公布更详细的技术文档,从中我们有望获得更多技术细节。

OPENAI首个视频模型Sora效果惊艳,多模态应用有望加速【东吴传媒互联网张良卫团队】

事件:OPENAI发布首个视频生成模型Sora,最高可生成一分钟的高清视频,能生成具有多个角色、包含特定运动的复杂场景,表现出突破性的语义理解能力、复杂场景理解能力和一致性等。

模型进一步突破:Sora采用扩散模型+Transformer架构,一次生成多帧预测,确保画面主体即使暂时离开视野也能保持不变,同时具有很强的扩展性。模型建立在过去对DALL·E3和GPT模型的研究之上,从而能更忠实遵循用户的文本指令。

更多的训练数据:OPENAI从大语言模型中汲取灵感,通过统一的数据表示方式在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

观点重申:我们在此前的多模态深度报告中明确提出视频生成的2022-2023年可类比2D图像生成的2021年,且考虑到LLM对AI各领域的加速作用,2024年视频生成或取得更大的发展。OPENAI发布Sora将推动行业加速发展,我们看好技术突破带来多模态应用发展机会。

投资机会上,我们首推在多模态方向已有布局或具备布局能力的标的:昆仑万维、万兴科技、美图,建议关注新国都。多模态技术进步利好电商、游戏、教育、营销等领域AI应用发展,推荐焦点科技、中文在线、盛天网络、蓝色光标、世纪天鸿等,建议关注易点天下、因赛集团。建议关注受益于AI视频应用发展的多模态技术公司,如虹软科技、当虹科技等。算力方向建议把握板块龙头投资机会,推荐中际旭创等龙头。

风险提示:多模态技术发展不及预期,伦理与隐私问题,商业化拓展不及预期,算力基础设施发展不及预期。

正月初七:传说这天是人类的诞辰日,即人的生日。七是尤为吉祥的数字,佛祖出生时,立刻在地上走了七步,步步生莲。七寓为圆满,也寓指向上。值此殊胜日恭祝大家万事顺意,步步高升,财源广进,事事圆满。

【2023年AI发展里程碑大事件一览】

虽然真正的通用人工智能 (AGI) 还离我们很遥远,但回顾整个2023,人工智能在这一年实现了高速发展。简单整理了一下AI发展里程碑大事件:

1月,ChatGPT月活跃用户数达到1亿。

2月,Microsoft推出全新版本搜索引擎“Bing”

3月,OpenAI发布革命性的GPT-4,带来更高级的创造力和理解能力

4月,马斯克创立xAI项目

5月,OpenAI推出ChatGPT的免费iOS应用

6月,英伟达开发出Neuralangelo,可以从2D视频片段重建3D图像

7月,Apple投身Ai研发,推出产品“Apple GPT”

8月,Meta开源SeamlessM4T的Ai模型

9月,OpenAI发布DALL-E3.

10月,Meta的Ai个性化机器人上线,引发争议

11月,Pika推出文本到视频的转换器Pika 1.0

12月,Google DeepMind展示Gemini


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1