一句话爆改三维场景，斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

作者：机器之心发布时间：2024-11-13

从文字生成三维世界的场景有多难？

试想一下，如果我们要 “生成复活节岛的摩艾石像”，AI 怎么才能理解我们的需求，然后生成一个精美的三维场景？

斯坦福的研究团队提出了一个创新性解决方案：就像人类使用自然语言（natural language）进行交流，三维场景的构建需要场景语言（Scene Language）。

项目主页：https://ai.stanford.edu/~yzzhang/projects/scene-language/

文章地址：https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求，更让它能够细致地将人类的描述转化为三维世界的场景。同时，它还具备编辑功能，一句简单指令就能改变场景中的元素！物体的位置、风格，现在都可以随意调整。

智能的场景理解

再比如，输入 “初始状态的国际象棋盘”，模型可以自动识别并生成如下特征：

64 个黑白相间的格子
按规则排列的 32 个棋子
每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。

这个方法支持多种渲染方式，能适应不同的应用场景：

更具吸引力的是其编辑能力：只需一句指令，就能调整场景中的元素：

支持图片输入

动态生成

不仅限于静态，Scene Language 还能生成动态场景，让 3D 世界生动起来。

技术亮点

Scene Language 的核心在于三大组件的融合：

1. 程序语言（program)：用于精确描述场景结构，包括物体间的重复、层次关系；

2. 自然语言（word） ：定义场景中的物体类别，提供语义层面的信息；

3. 神经网络表征（embedding ）：捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”，既能整体规划，又能雕琢细节。

对比传统方法的优势

与现有技术相比，Scene Language 展现出显著优势：

用户偏好测试中获得 85.65% 的偏好，相比现有方法提高了近 7 倍；

在物体数量控制方面，测试集中的准确率达到 100%，而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性，期待它在游戏开发、建筑设计等领域引领新一轮的创新！

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之，斯坦福大学博士生。主要研究为视觉表征及生成。

吴佳俊，现任斯坦福大学助理教授。在麻省理工学院完成博士学位，本科毕业于清华大学姚班。

本文来自微信公众号“机器之心”，36氪经授权发布。

近期资讯

一句话爆改三维场景，斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

智能的场景理解

对比传统方法的优势

推荐体验

相关资讯

即将上线！一句话创造3D模型，老子云用AIGC 3D重塑数字孪生

Gen-2：文本到视频，一句话拍一部电影

一句话生成3D游戏世界！9人开发、AIGC支撑的Roleverse是啥？

突发！一句话，股价暴跌23%

一句话实现3D内容制作，Unity上线AI工具「Muse Chat」，美股飙升15%

近期资讯

光启技术：第四代超材料已量产

努比亚吐槽挖孔屏/灵动岛竟成了行业标配：好无语

第三届“转型与创新：数智时代的影视理论研究与视听人才培养”学术工作坊在郑举行

中航高科子公司与沃飞长空签订合作协议

华为手机弃骁龙标配麒麟！今年Q3全球手机处理器出货量：海思增长第一

锐评 | 先刷脸再逃生？岂能让人脸识别机拦住“生”机

英伟达：计划通过与 GMO Internet Group 和 SAKURA Internet 等日本云计算领导企业合作，开发一个

小米：“走进小米汽车工厂”活动第二期将于 12 月再次上线

用飞轮效应开启智能科学时代新篇章，火山引擎Bio-OS大赛圆满收官

LG 2025 款 OLED 电视 55 英寸 C5、65 英寸 G5 通过韩国 KC 安规认证

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响