美国开放人工智能研究中心OpenAI,15日发布了首个视频生成模型,该模型可通过接收文本指令,生成相应的视频。中国A股上市公司纷纷布局OpenAI带来视频生成模型产业机会。
第二届2024年船舶海工新技术应用展望靖江会议将于3月6-7日举办
2024年第三届航运数字化创新上海会议将于7月4日-5日举办
顶级造船厂和设计院购买2024年龙版中国造船厂地图,海外特制赠送图抢位
据美国开放人工智能研究中心官网介绍,该公司正在努力让人工智能“理解和模拟处在运动当中的物理世界”。此次发布的文字转视频模型可以依据用户输入的指令,生成一段时长可达1分钟的视频。也能获取现有的静态图像并从中生成视频,还能获取现有视频,进行扩展或填充缺失内容。
据介绍,该模型能够生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。目前的模型仍然存在缺陷,例如,它可能难以精确模拟复杂场景的物理状况,也可能无法理解一些特定的因果和时间联系等。此外,模型还可能混淆一些文本指令中的空间细节,例如左右方向等。
OpenAI CEO 山姆·奥尔特曼(Sam Altman)在公布刷屏业界的文生视频产品Sora后,在社交平台X上发文称:“OpenAI所有关键资源均已到位,专注于打造AGI(通用人工智能),你或许应该考虑加入我们。”
今日OpenAI在Runway、Pika、谷歌、 Meta之后,正式加入AI 视频生成领域的竞争,推出AI视频生成产品Sora。OpenAI官方介绍称:如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的 1080P场景,包含多个角色、不同类型的动作和背景细节。1080P是一种视频显示格式,是目前美国电影电视工程师协会(SMPTE)制定的最高等级高清数字电视的格式标准。
OpenAI官方表示:“Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现AGI的重要里程碑。”
OpenAI演示视频片段截取
①OpenAI昨日带来首个文生视频模型Sora,业内预计AGI实现将从10年缩短到1年;
②海康威视、大华股份等国内视频分析厂商均入局多模态大模型研究进程,万兴科技、因赛集团等超10家A股上市公司近三个月在互动平台回复业务涉及视频生成模型领域(附表)。
财联社2月17日讯 OpenAI在昨日凌晨再亮出大招,其发布了首个文生视频模型Sora。据OpenAI介绍,该人工智能系统可以快速制作长达一分钟的视频,这些视频可以呈现具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景。从公司官网上更新的48个视频demo来看,Sora不仅能准确呈现细节,还能生成具有丰富情感的角色。
在技术和工作原理方面,OpenAI介绍称,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
在OpenAI的Sora之前,谷歌在去年12月21日发布一个全新的视频生成模型VideoPoet,能够执行包括文本到视频、图像到视频、视频风格化等操作。此前一夜爆红的文生视频软件Pika更掀起了AI视频应用热潮。对于此次Sora的出现,360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。
业内专家分析指出,具备文生视频功能的视频类生成式AI在领域,能够有效降低创作者的创作门槛。国海证券陈梦竹在11月8日研报中提到,据量子位发布的《AIGC/AI生成内容产业展望报告》,视频生成将成为近期跨模态生成领域的中高潜力场景,其背后逻辑是不同技术带来的主流内容形式的变化。英伟达高级科学家Jim Fan评论认为,2022年是影像之年,2023是声波之年,而2024是视频之年。
随海外OpenAI、谷歌等纷纷推出各自的文生视频模型,东方证券蒯剑等人在12月18日研报中提到,国内领先厂商已入局,其中,海康威视、大华股份、萤石网络等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程。具体来看,海康威视现已处于多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。大华股份于23年10月发布“星汉大模型”,该模型融合点云、语音、图像等输入,构建了多模态融合的行业视觉大模型。值得一提的是,信雅达凭借“天才女儿”设立Pika的消息刺激曾在去年11月30日至12月7日录得6连板,公司表示,其已围绕图像识别、 AI 定制化建模等能力开展深入研究。
此外,主营视频创意、绘图创意类软件产品的万兴科技近日在互动平台表示,公司旗下视频创意产品万兴喵影/Filmora可用于各类视频的创作和剪辑,“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型,涵盖音频、图像、视频等多模态能力。昆仑万维旗下Star Group和Opera都具备做短视频的土壤,其中Opera在海外已经推出了短视频功能。此外,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。专业智能视频解决方案与视频云服务提供商当虹科技拥有自研的AIGC工具集,于去年上半年发布以静态照片生成三维体积视频的方案。
据财联社不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。其中,当虹科技1月5日互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。因赛集团旗下InsightGPT目前可生成20秒以上的视频,能够结合图像、视频大模型,融合抠图等多种算法,再结合音频模型,整体渲染后最终合成完整视频。
OpenAI发布了基于Sora生成的60秒视频效果,提示词为:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
需注意的是,该60秒视频并非一镜到底,而是在第37秒切换特写镜头。
另外,截至发稿,奥尔特曼连发9条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。
技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer 架构,但为了解决Transformer 架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion 的图像与视频生成器同样基于扩散模型。
同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。
中科深智创始人兼CEO成维忠对第一财经记者表示,Sora目前还存在因果关系推理问题,但这个问题不是Sora自身的问题,而是目前所有类似模型均存在的问题——文生视频过程中,模型搞不清楚人与环境的关系,搞不清楚前后逻辑关系等情况,该问题会导致模型在实际应用的时候,达不到使用者设想的完美程度,但从个人工具的角度来说,Sora已经比此前行业内推出的文生视频好很多了。未来随着训练的加强,该问题也会逐步得到解决。
对于文生视频工具Sora的技术实力,英伟达科学家DrJimFan评价称,Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。“如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶,它也必须如此。”DrJimFan表示。
一位人工智能领域人士评价称,视频生成居然引入了物理引擎模拟,这样来看再升维进入3D生成应该就指日可待了。趣丸集团副总裁庄明浩认为Sora的面世影响的不仅是文生视频领域,下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程,以及3D素材生产这个战场。
OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。