当红炸子鸡Sora 热尚未褪去,谷歌的Genie又来了。
一张图,便可召唤一个交互式世界,谷歌这次出手又是一个王炸,直杠Open AI。
日前,谷歌发布了110亿参数的全新AI基础世界模型——Genie (生成式交互环境,Genie 中文意为“精灵”)。
与之前仅关注世界生成的模型不同是:Genie 允许用户与创建的环境进行交互。它可以通过文本、合成图像、照片甚至草图生成可玩的交互式环境和可控虚拟世界。
谷歌表示,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂。
值得一提的是,Genie的问世代表了生成式人工智能的一个重大进步,也让人工智能在虚拟世界的散发出无限可能性。
据谷歌介绍,Genie AI 是一个相对较小的模型,拥有 110 亿个参数。
它由时空视频分词器、自回归动力学模型和简单且可扩展的潜在动作模型组成。
Genie 在大量公开的互联网视频数据集上进行了没有任何动作标签的训练,可以将任何图像(无论是现实世界的照片、草图、人工智能生成的图像还是绘画)转换为简单的 2D 平台游戏。
最大的独特之处是,它可以通过无监督学习来理解游戏世界中角色的移动、控制和行动,并根据用户操作预测未来帧,从而创建功能性和可玩性的体验。
简而言之,Genie能“自学成才”。
谷歌DeepMind团队指出,它的用途广泛,适用于各个领域,且可以扩展到更大的互联网数据集。
此外谷歌还强调,这种新模型为未来的人工智能打开了大门,让他们可以“在新的、生成的世界的永无止境的课程中”接受培训。
与Sora相比,Genie进步在哪?
不久前,OpenAI发布了首个文生视频模型,Sora一出,即震惊四座。
它不仅能生成逼真的人工智能视频,还能够创建持久的角色、风格和环境。Open AI更是将称其为“世界模拟器”。
于是,也有网友称,Genie是谷歌对Sora不痛不痒的回击。
不过,谷歌Genie团队负责人Tim Rocktäschel则称,不可否认,OpenAI的 Sora 确实令人印象深刻,视觉上令人惊叹,但世界模型需要“行动”。
Genie 是一个动作可控的世界模型,但完全不受视频监督的训练,这是迈向AGI通用世界模型的充满希望的一步。
英伟达科学家Jim Fan也表示,与Sora不同的是,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年。
“Sora很好,但是Genie将会是具身智能体的主干之作”。
作为一个基础世界模型,可以说,Genie 处于可以生成和管理虚拟环境的人工智能系统的最前沿。
它的发展标志着基础世界模型向前迈出了重要一步,这不仅仅是游戏技术的进步,也标志着人工智能系统能力的更广泛转变。
眼下,AI大模型战场正“烽烟四起”,硅谷巨头们的厮杀甚是激烈。前几天,谷歌才刚刚推出了开源大模型——Gemma,打响了AI 开源之战。
但硅谷大厂们,在这轮AI浪潮上也已经卷出新高度。除了谷歌一连串“输出”之外,微软也在加大“火力”。
继OpenAI之后,微软刚刚又将法国初创公司Mistral AI纳入麾下。
作为一家成立仅10个月的初创公司,Mistral AI发布的Mistral Large模型性能已经直逼GPT-4。
据悉,在常用基准测试中,Mistral Large的表现仅次于GPT-4,超过了GPT-3.5、谷歌的Gemini Pro和Meta的LLaMA 2 70 B。
这一次,谁会成为“下一个OpenAI”呢?