当前位置:首页|资讯|谷歌|OpenAI

游戏AI“精灵”!谷歌又出新王炸,新模型Genie粉末登场:一张图,玩转交互式世界

作者:格隆汇发布时间:2024-02-27

原标题:游戏AI“精灵”!谷歌又出新王炸,新模型Genie粉末登场:一张图,玩转交互式世界

当红炸子鸡Sora 热尚未褪去,谷歌的Genie又来了。

一张图,便召唤一个交互式世界,谷歌这次出手又是一个王炸,直杠Open AI

日前,谷歌发布了110亿参数的全新AI基础世界模型——Genie (生成式交互环境,Genie 中文意为“精灵”)。

之前仅关注世界生成的模型不同是:Genie 允许用户与创建的环境进行交互可以通过文本、合成图像、照片甚至草图生成可玩的交互式环境和可控虚拟世界。

谷歌表示,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂。

值得一提的是,Genie的问世代表了生成式人工智能的一个重大进步,也让人工智能在虚拟世界的散发出无限可能性。

据谷歌介绍,Genie AI 是一个相对较小的模型,拥有 110 亿个参数。

它由时空视频分词器、自回归动力学模型和简单且可扩展的潜在动作模型组成。

Genie 在大量公开的互联网视频数据集上进行了没有任何动作标签的训练,可以将任何图像(无论是现实世界的照片、草图、人工智能生成的图像还是绘画)转换为简单的 2D 平台游戏。

最大的独特之处是,它可以通过无监督学习来理解游戏世界中角色的移动、控制和行动并根据用户操作预测未来帧,从而创建功能性和可玩性的体验。

简而言之,Genie“自学成才”。

谷歌DeepMind团队指出,它的用途广泛,适用于各个领域,且可以扩展到更大的互联网数据集。

此外谷歌还强调,这种新模型为未来的人工智能打开了大门,让他们可以“在新的、生成的世界的永无止境的课程中”接受培训。

与Sora相比,Genie进步在哪?

不久前,OpenAI发布了首个文生视频模型,Sora一出,即震惊四座。

它不仅能生成逼真的人工智能视频,还能够创建持久的角色、风格和环境。Open AI更是将称其为“世界模拟器”。

于是,也有网友称,Genie是谷歌对Sora不痛不痒的回击。

不过,谷歌Genie团队负责人Tim Rocktäschel则称,不可否认,OpenAI的 Sora 确实令人印象深刻,视觉上令人惊叹,但世界模型需要“行动”。

Genie 是一个动作可控的世界模型,但完全不受视频监督的训练,这是迈向AGI通用世界模型的充满希望的一步。

英伟达科学家Jim Fan也表示,与Sora不同的是,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年。

“Sora很好,但是Genie将会是具身智能体的主干之作”。

作为一个基础世界模型,可以说,Genie 处于可以生成和管理虚拟环境的人工智能系统的最前沿。

它的发展标志着基础世界模型向前迈出了重要一步,这不仅仅是游戏技术的进步,也标志着人工智能系统能力的更广泛转变。

眼下,AI大模型战场正“烽烟四起”,硅谷巨头们的厮杀甚是激烈。前几天,谷歌才刚刚推出了开源大模型——Gemma,打响了AI 开源之战。

但硅谷大厂们,在这轮AI浪潮上也已经卷出新高度。除了谷歌一连串“输出”之外,微软也在加大“火力”。

继OpenAI之后,微软刚刚又将法国初创公司Mistral AI纳入麾下。

作为一家成立仅10个月的初创公司,Mistral AI发布的Mistral Large模型性能已经直逼GPT-4。

据悉,在常用基准测试中,Mistral Large的表现仅次于GPT-4,超过了GPT-3.5、谷歌的Gemini Pro和Meta的LLaMA 2 70 B。

这一次,谁会成为“下一个OpenAI”呢?


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1