上海泽城盛盈投资控股集团有限公司关注AI视频生成领域涌现大批新技术！

作者：佛系是福发布时间：2024-03-17

上海泽城盛盈投资控股集团有限公司关注AI视频生成领域涌现大批新技术！近期，在AI视频生成领域，国内外都涌现出不少新技术。

　　2月15日，OpenAI在全球AI生成视频领域扔出一枚爆炸性消息。当日，该公司发布了一款名为Sora的“文本生成视频”模型，并向部分研究人员和创作者开放Sora的访问权限。Sora除了可以根据文字描述生成视频外，还可以根据现有的图片生成视频，目前可生成的视频长度在1分钟左右；而且，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。Sora视频生成模型，在清晰度、连贯性、理解能力、一致性、时长方面都产生较大突破。随后，Sora引爆网络，资本市场上AI概念股也被连番炒作。

　　紧跟Sora，2月26日，谷歌Deep Mind团队发布了110亿参数的AI基础世界模型Genie。仅用一张图片，便可生成一个交互式世界，生成的世界“动作可控”，用户可以其中逐帧行动。谷歌表示，Genie开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂。OpenAI、谷歌相继发布多模态大模型Sora、Genie，AGI浪潮或将加速到来。

Genie定义生成式AI全新范式，重塑生成式交互环境格局。1）Genie或使视频游戏领域迎来变革：Genie通过单个图片、照片、草图提示即可转换为用户可玩的游戏，生成交互式、动作可控的环境。生成的游戏可根据玩家的指令动态地生成游戏的每个新帧，这种革新的交互方式为游戏玩家带来了新的体验感，未来有望一键生成可玩的游戏世界。2）机器人领域的应用为培养通用智能体开辟新途径：Genie能够掌握一组统一的动作模式，通过学习真实的机器人手臂操纵各种家用物体的视频，它领会了机器人手臂所做动作以及如何控制它，并且学会的动作可应用于真实世界。由于方法通用，Genie可推广于任何类型领域从而让未来的AI智能体在不断扩展的新世界中进行训练。

　　2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO为多模态领域的视频AI带来新玩法：1）不同于文生视频模型Sora，EMO主攻图+音频生成视频的方向：输入单张照片+任意语速的人声音频，EMO即可自动生成具有丰富面部表情和头部姿势的声音肖像视频。2）表现优于同类产品PIKA：由于受限于产品架构，PIKA只能分段生成3秒的唇形同步视频，且仅能实现唇部配合音频发生运动的功能，而EMO可根据音频时长，生成对应时长的视频，并保持角色身份的一致性。相较之下，EMO更具灵活性，生成的视频也更自然、更富有情感。

　　海外大厂在AI视频生成领域掀起新浪潮，我国也在不断加速追赶步伐。AI视频赛道涌现新玩法，未来AI+趋势势不可挡，建议关注AI+IP/游戏/影视/电商/广告商业化落地投资机会。国泰君安认为，随着AI视频类模型的成熟，影视制作的全流程均有望受益于AI模型迭代，影视产业望深度受益于AI发展。