腾讯、清华大学、港科大，AI领域大动作！

作者：证券时报发布时间：2024-03-16

来源：券商中国

AI领域，又传出新消息！

证券时报·券商中国记者获悉，3月15日，腾讯和清华大学、香港科技大学联合推出全新图生视频大模型“Follow-Your-Click”，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

据了解，图像到视频生成的技术在电影内容制作、增强现实、游戏制作以及广告等多个行业的AIGC应用上有着广泛前景，是2024年最热门的AI技术之一。有研究机构指出，国内外大厂AI视频生成不断突破，未来AI+趋势势不可挡。

那么，哪些领域将受益呢？

图生视频大模型

3月15日，腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click”，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

当前的图生视频大模型中，一般的生成方法不仅需要用户在提示词中描述运动区域，还需要提供运动指令的详细描述，过程较为复杂。另外，从生成的效果来看，现有图像生成视频技术在移动图像的指定部分上缺乏控制，生成的视频往往需要移动整个场景，而不是图像上的某一个区域，精准度和灵活性上有所欠缺。

为了解决这些问题，腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click，带来更加便捷的交互，也让图片“一键点，万物动”成为现实。

据了解，腾讯混元大模型团队，正在持续研究和探索多模态技术，拥有行业领先的视频生成能力。此前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造原创视频《江山如此多娇》，生成中国大美河山的精美视频片段，展示出了较强的内容理解、逻辑推理和画面生成能力。

腾讯混元大模型是腾讯自研的通用大语言模型，于去年9月7日首次公开亮相，作为腾讯全链路自研的大模型，腾讯混元定位为“实用级”，主要聚焦业务场景和行业应用。去年5月份，腾讯董事会主席兼首席执行官马化腾曾表示，大模型是百年不遇的、类似工业革命一样的机遇。对于工业革命来讲，早一个月把电灯泡拿出来在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好，而且更关键的是场景落地。

截至2023年12月，作为实用级的通用大模型，腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测，包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。

新技术涌现，哪些领域最受益？

值得关注的是，近期，在AI视频生成领域，国内外都涌现出不少新技术。

2月15日，OpenAI在全球AI生成视频领域扔出一枚爆炸性消息。当日，该公司发布了一款名为Sora的“文本生成视频”模型，并向部分研究人员和创作者开放Sora的访问权限。Sora除了可以根据文字描述生成视频外，还可以根据现有的图片生成视频，目前可生成的视频长度在1分钟左右；而且，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。Sora视频生成模型，在清晰度、连贯性、理解能力、一致性、时长方面都产生较大突破。随后，Sora引爆网络，资本市场上AI概念股也被连番炒作。

紧跟Sora，2月26日，谷歌Deep Mind团队发布了110亿参数的AI基础世界模型Genie。仅用一张图片，便可生成一个交互式世界，生成的世界“动作可控”，用户可以其中逐帧行动。谷歌表示，Genie开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂。

平安证券表示，OpenAI、谷歌相继发布多模态大模型Sora、Genie，AGI浪潮或将加速到来。

长江证券指出，Genie定义生成式AI全新范式，重塑生成式交互环境格局。1）Genie或使视频游戏领域迎来变革：Genie通过单个图片、照片、草图提示即可转换为用户可玩的游戏，生成交互式、动作可控的环境。生成的游戏可根据玩家的指令动态地生成游戏的每个新帧，这种革新的交互方式为游戏玩家带来了新的体验感，未来有望一键生成可玩的游戏世界。2）机器人领域的应用为培养通用智能体开辟新途径：Genie能够掌握一组统一的动作模式，通过学习真实的机器人手臂操纵各种家用物体的视频，它领会了机器人手臂所做动作以及如何控制它，并且学会的动作可应用于真实世界。由于方法通用，Genie可推广于任何类型领域从而让未来的AI智能体在不断扩展的新世界中进行训练。

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO为多模态领域的视频AI带来新玩法：1）不同于文生视频模型Sora，EMO主攻图+音频生成视频的方向：输入单张照片+任意语速的人声音频，EMO即可自动生成具有丰富面部表情和头部姿势的声音肖像视频。2）表现优于同类产品PIKA：由于受限于产品架构，PIKA只能分段生成3秒的唇形同步视频，且仅能实现唇部配合音频发生运动的功能，而EMO可根据音频时长，生成对应时长的视频，并保持角色身份的一致性。相较之下，EMO更具灵活性，生成的视频也更自然、更富有情感。

长江证券表示，海外大厂在AI视频生成领域掀起新浪潮，我国也在不断加速追赶步伐。AI视频赛道涌现新玩法，未来AI+趋势势不可挡，建议关注AI+IP/游戏/影视/电商/广告商业化落地投资机会。国泰君安认为，随着AI视频类模型的成熟，影视制作的全流程均有望受益于AI模型迭代，影视产业望深度受益于AI发展。

平安证券指出，当前，全球范围内大模型领域的竞争依然白热化，这将持续拔升大模型的整体能力水平。大模型需要大算力，大模型算法的迭代升级将为全球和中国AI算力市场的增长提供强劲动力。在美国对华半导体出口管制升级的背景下，我国国产AI芯片产业链将加快成熟，相关AI芯片和服务器厂商将深度受益。另外，在应用端，我国国产大模型能力持续升级，AIGC产业未来发展前景广阔。海通证券则表示，随着国内外数字经济的蓬勃发展，AI、智算需求高速增长，相关化工新材料的需求也有望增加。

责编：岳亚楠

校对：王朝全