谷歌发了个新模型，顺手证明Sora才是最菜的

作者：36氪的朋友们发布时间：2024-12-17

在OpenAI发布会还在“产品雕花”的时候，谷歌继续努力更新基础模型。半个月前是3D场景生成基础模型、一周前是大杀四方的Gemini 2，而今天则是视频生成模型。

北京时间12月17日，谷歌发布了其文生视频模型Veo的下一个版本Veo 2。此次升级距离谷歌在今年5月的I/O大会上首次宣布Veo已经过去7个月。

但Veo仅在十几天前的12月3日才登上Axtrix，在这之前，用户只能利用VideoFX中的实验工具小规模试用这一视频生成软件。

这一版本主要带来三个核心升级。首先是真实感和保真度大为增加，它支持对长度为8s、清晰度为4K视频的输出，并在细节、真实性和伪影减少方面提升巨大。

其次，Veo以其对物理学的理解及遵循详细指令的能力，能够高度精确地捕捉运动。这正是前几日Sora频频翻车的点。

第三，Veo 2还提供了更多的相机控制选项，你可以输入诸如“镜头缓慢推进她的面庞”、“摄像机在追逐车辆的过程中趋于稳定”、“极近的特写镜头”来去描述你需要的镜头模式。

当然，从目前谷歌给出的范例来看，Veo 2 对物理世界的理解确实达到了相当的高度，尤其是人类乃至昆虫的动作表现，这些动作与世界交互的自然感都很强。比如这只用喙捕猎的火烈鸟，它激起的水花就不想Sora前两天演示时那种火山爆发般的夸张。

在实际的测试中，Veo也得到了SOTA的水平。谷歌选取了其他包括Sora在内的顶尖模型，在Meta发布的基准数据集MovieGenBench 上比拼了 1003 条提示及其对应视频。

从整体表现上看，Veo占优的情况都接近或超过了50%，不占劣势的情况则能达到70%左右。

比较有趣的事，Sora Turbo在谷歌测试的所有模型中居然是表现最差的，而表现最好的是可灵1.5。

在指令遵循上，Veo表现也达到了SOTA，其他个个模型也和整体表现排名差异不大。

在报告中，谷歌承认了自己的模型也有短板。在复杂场景或复杂运动中保持完全的一致性仍然没法被突破。在他们自己给出的范例中，依然会出现凭空出现的人物。在运动中，人也可能依然出现那种不自然的“AI扭曲”。

在推特上，已经有一些网友做了测试。表明Veo 2的镜头控制和运动能力所言不虚。在提示词为“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿，镜头切换到另一个视角，显示旁边桌的人正在给他们写信。”的情况下，Veo 2可以很好的完成导演叙事的镜头切换，写作的动作也非常自然。

而将同一个提示词给到Sora，它首先无法实现镜头切换，对于提示词中两个人对坐也未跟随，画面中只有一个人。而且写作动作也有点像是悬空画笔。

之后我们还测试了其他的顶尖模型。比如海螺，它无法实现镜头切换，但用变焦实现了部分镜头切换的逻辑，空间和两个人物的关系也符合提示词。

混元的影视氛围感直接拉满，也完成了切镜。但视频中两人的关系交代没有那么清晰。

可灵确实是表现最好的一个，切镜、两人的关系都把握住了。除了审美和细节上不如Veo 2外，其它部分都近乎完美。

在另一个测试中，用同样的提示词

这是Veo 2的结果

这是Sora的结果

就算Veo 2的输出是有瑕疵的，但Sora这个迟缓、空荡的场景已经输太多了。

至于其他模型，可灵输出的场景感不错，但弄臣的现实非常刻意，从空间关系上看也不太可能，其中还有很多残影。

而海螺则是在提示词遵循上仅次于Veo 2，只是没有满足“镜头从女王背后取景”这点。但细节还原就较Veo 2差不少了。

看了这么半天，谷歌评测中说的Sora最差不无道理。

2025年还没开始，OpenAI的王冠看起来就有点不稳了。怪不得连微软CEO最近在采访中都豪言“没有OpenAI，我们也能开发出最一流的模型。”

看来，在这场AI战争中，还有的是逆转的好戏。

不过谷歌这回还是没改画饼的毛病。Veo 2 现在依然在内测阶段，只能在VideoFX上排队申请。希望它在25年全量和新产品发布的速度都能提起来。把画饼大师的定位让给OpenAI。毕竟Sora花了9个月才发出来，也和过去的谷歌不相上下了。

本文来自微信公众号“腾讯科技”，作者：郝博阳，编辑：郑可君，36氪经授权发布。

近期资讯

甜菊糖苷新篇章：国标拓宽应用，健康饮食触手可及

国标扩容，健康食品迎来新机会2024年12月13日，国家卫生健康委员会发布了《关于金花茶培养物等11种“三新食品”的公告》（2024年第6号），此次公告中公布了扩大甜菊糖苷的应用范围。新增了调制乳粉和调制奶油粉（食品类别01.03.02）、再制干酪及干酪制品（食品类别01.06.04）、腌渍的食用菌和藻类（食品类别04.03.02.03）以及方便米面制品（食品类别06.07）等多个品类。这一调整不仅体现了国家对健康食品产业的支持与引导，也为食品行业带来了更多使用天然甜味剂的选择，促进了健康食品的多元化发

格林减糖研究院 14小时前

日化智云携数字化生态伙伴开启立白数字化探秘之旅，共鉴转型成果

近日，立白日化智云携手数字化转型生态伙伴走进番禺立白工厂，共同见证了立白科技集团在数字化转型之路上的卓越成就与创新实践。在数字化浪潮席卷全球的今天，这场别开生面的数字化参访活动，不仅为日化智云与客户搭建了沟通交流的桥梁，更让外界直观领略到产业互联网平台在数字化浪潮中焕发出的强劲动力。回顾立白科技集团数字化转型历程，这是一场长达30年的砥砺奋进。立白科技集团长期将数字化战略置于企业发展的核心高地，多年来持续深耕，成果斐然。日化智云依托于立白科技集团的超6亿的数字化投入实践基础，构建了首个围绕原料厂

小小智云 14小时前

网络工程硬核科普：常用的网络设备有哪些？

在这个万物互联的时代，无论是小型办公室还是大型企业，网络工程都是信息流动的核心支柱。而支撑这一切的关键就在于网络设备的选择与部署。你知道吗？这些设备并不只是冰冷的机器，它们有着各自的使命和独特功能！今天，我们将深入探索网络工程项目中常见的设备，它们如何各司其职，又如何协作无间地构建出一个高效、安全的网络世界。准备好了吗？一场硬核科技的精彩揭秘就此开始！一、中心设备网络的总控分层在网络工程中，中心设备是整个网络的“大脑”，它们负责处理网络的核心控制和数据分发任务。 1. 转发器：网络中的调度员 ️ 转

秋妍科技 14小时前

高中生物想逆袭90+，其实差的只有这么一点点！！

生物中的长句表述，答案很长分值也不小，同学们也不容易采到分。可是明明知道是什么意思，答出来的却和标准答案不搭边，所以规范表达很重要鸭! 今天学姐给大家整理了这生物72条规范表达，快学起来，3年生物提分秘密! [图片] [图片] [图片] [图片] [图片]

U呦呦学姐 14小时前

"线粒体移植：缺血性心脏病医工交叉新策略"

使用工程纳米机动化线粒体进行线粒体移植可以增加向缺血心脏组织的运输并恢复心脏功能。创新点： 1. 采用工程纳米机动化策略，显著提升线粒体在缺血心脏组织中的精准运输和定位能力，突破传统线粒体移植的输送局限性。 2.通过纳米材料改造线粒体表面，增强其穿透性和稳定性，有效克服生物屏障和降解风险。 3.实现线粒体的主动靶向输送，相比被动扩散模式，大幅提高细胞摄取效率和治疗精准度。 4.设计具有自主运动能力的纳米线粒体载体，模拟生理条件下的主动迁移机制。科研启发： 1. 跨学科融合的研究范式，将纳米技术、细胞生

生物纳米医工交叉前沿 14小时前

随着城市化进程的加快，停车难问题日益突出。钢结构立体停车库作为一种高效利用空间资源、缓解停车压力的解决方案，受到了越来越多城市管理者与投资者的青睐。本文将从钢结构立体停车库的租赁与维护角度出发，为广大投资者和管理者提供一份专业的操作指南。 [图片] 一、钢结构立体停车库租赁的优势 1.高效利用空间：立体停车库采用多层结构，可大幅提升单位面积停车数量，有效缓解城市停车难问题。 2.灵活性强：钢结构立体停车库可以根据实际需求进行定制，满足不同场地和停车数量的需求。 3.施工周期短：钢结构建筑采用预制件拼接，施

莱贝立体车库租赁厂家 13小时前

莘默 GEMU 安装套件1434S01Z025703000

姚工/15221139010 采购渠道：通过我们德国公司（Sinmo GmbH Geb. B3 Waldstr. 23 D-63128 DIETZENBACH）跟欧洲品牌原厂购买国内客户所需配件，报价可以享受欧元区折扣。 [图片] [图片] GEMU 控制变压器615 12D 1125011/N P945 GEMU 隔膜阀88362360 620150D 817 414A3 GEMU 阀88315080 550 15D 937 511G1 GEMU 88039997 615 12D 1125211/N

莘默-姚与俊 13小时前

谷歌发了个新模型，顺手证明Sora才是最菜的

推荐体验

相关资讯