当前位置:首页|资讯|融资|AI视频|OpenAI|Sora

上海泽城盛盈投资控股集团有限公司关注AI视频生成领域涌现大批新技术!

作者:佛系是福发布时间:2024-03-17

上海泽城盛盈投资控股集团有限公司关注AI视频生成领域涌现大批新技术!近期,在AI视频生成领域,国内外都涌现出不少新技术。

  2月15日,OpenAI在全球AI生成视频领域扔出一枚爆炸性消息。当日,该公司发布了一款名为Sora的“文本生成视频”模型,并向部分研究人员和创作者开放Sora的访问权限。Sora除了可以根据文字描述生成视频外,还可以根据现有的图片生成视频,目前可生成的视频长度在1分钟左右;而且,视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。Sora视频生成模型,在清晰度、连贯性、理解能力、一致性、时长方面都产生较大突破。随后,Sora引爆网络,资本市场上AI概念股也被连番炒作。

  紧跟Sora,2月26日,谷歌Deep Mind团队发布了110亿参数的AI基础世界模型Genie。仅用一张图片,便可生成一个交互式世界,生成的世界“动作可控”,用户可以其中逐帧行动。谷歌表示,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂。OpenAI、谷歌相继发布多模态大模型Sora、Genie,AGI浪潮或将加速到来。

Genie定义生成式AI全新范式,重塑生成式交互环境格局。1)Genie或使视频游戏领域迎来变革:Genie通过单个图片、照片、草图提示即可转换为用户可玩的游戏,生成交互式、动作可控的环境。生成的游戏可根据玩家的指令动态地生成游戏的每个新帧,这种革新的交互方式为游戏玩家带来了新的体验感,未来有望一键生成可玩的游戏世界。2)机器人领域的应用为培养通用智能体开辟新途径:Genie能够掌握一组统一的动作模式,通过学习真实的机器人手臂操纵各种家用物体的视频,它领会了机器人手臂所做动作以及如何控制它,并且学会的动作可应用于真实世界。由于方法通用,Genie可推广于任何类型领域从而让未来的AI智能体在不断扩展的新世界中进行训练。

  2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。EMO为多模态领域的视频AI带来新玩法:1)不同于文生视频模型Sora,EMO主攻图+音频生成视频的方向:输入单张照片+任意语速的人声音频,EMO即可自动生成具有丰富面部表情和头部姿势的声音肖像视频。2)表现优于同类产品PIKA:由于受限于产品架构,PIKA只能分段生成3秒的唇形同步视频,且仅能实现唇部配合音频发生运动的功能,而EMO可根据音频时长,生成对应时长的视频,并保持角色身份的一致性。相较之下,EMO更具灵活性,生成的视频也更自然、更富有情感。

  海外大厂在AI视频生成领域掀起新浪潮,我国也在不断加速追赶步伐。AI视频赛道涌现新玩法,未来AI+趋势势不可挡,建议关注AI+IP/游戏/影视/电商/广告商业化落地投资机会。国泰君安认为,随着AI视频类模型的成熟,影视制作的全流程均有望受益于AI模型迭代,影视产业望深度受益于AI发展。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1