当前位置：首页|资讯

斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

作者：机器之心Pro发布时间：2024-11-16

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

从文字生成三维世界的场景有多难？

试想一下，如果我们要 “生成复活节岛的摩艾石像”，AI 怎么才能理解我们的需求，然后生成一个精美的三维场景？

斯坦福的研究团队提出了一个创新性解决方案：就像人类使用自然语言（natural language）进行交流，三维场景的构建需要场景语言（Scene Language）。

项目主页：https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址：https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求，更让它能够细致地将人类的描述转化为三维世界的场景。同时，它还具备编辑功能，一句简单指令就能改变场景中的元素！物体的位置、风格，现在都可以随意调整。

智能的场景理解

再比如，输入 “初始状态的国际象棋盘”，模型可以自动识别并生成如下特征：

64 个黑白相间的格子
按规则排列的 32 个棋子
每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。

这个方法支持多种渲染方式，能适应不同的应用场景：

更具吸引力的是其编辑能力：只需一句指令，就能调整场景中的元素：

支持图片输入

动态生成

不仅限于静态，Scene Language 还能生成动态场景，让 3D 世界生动起来。

技术亮点

Scene Language 的核心在于三大组件的融合：

1.程序语言（program)：用于精确描述场景结构，包括物体间的重复、层次关系；

2.自然语言（word）：定义场景中的物体类别，提供语义层面的信息；

3.神经网络表征（embedding）：捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”，既能整体规划，又能雕琢细节。

对比传统方法的优势

与现有技术相比，Scene Language 展现出显著优势：

用户偏好测试中获得 85.65% 的偏好，相比现有方法提高了近 7 倍；
在物体数量控制方面，测试集中的准确率达到 100%，而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性，期待它在游戏开发、建筑设计等领域引领新一轮的创新！

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之，斯坦福大学博士生。主要研究为视觉表征及生成。

吴佳俊，现任斯坦福大学助理教授。在麻省理工学院完成博士学位，本科毕业于清华大学姚班。

推荐体验

相关资讯

AIGC驱动的3D场景理解及医学图像解析

7月21日-22日，在ArchSummit全球架构师峰会（深圳站），香港中文大学（深圳）理工学院未来智联网络研究院助理教授李镇博士，于会上发表题为《AIGC驱动的3D场景理解及医学图像解析》的演讲，从3D场景…

侠说 2023-07-25

AIGC 驱动的 3D 场景理解及医学图像解析｜ArchSummit

本视频主要介绍了AIGC（Artificial Intelligence Generated Content）在3D场景理解和医学图像解析方面的应用。作者首先介绍了AIGC的背景和研究领域，然后详细阐述了AIGC在多个方面的应用。

InfoQ 2024-03-11

3d场景制作什么软件好？3d场景建模师工资很高吗？

3D场景制作可以选择多种软件，例如3dsMax、Maya、Blender等。一般来说，3D场景建模师的工资相对较高，但也需要具备较高的技能水平和丰富的经验才能获得高工资。通过学习AI绘画可以提升想象力和审美观…

史培倩 2023-11-23

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

BEHAVIOR和VirtualHome都是具身智能体的评测基准和模拟环境，用于研究智能体在复杂环境中完成任务的能力。相比于单一环境评估，EAI更能考察大模型跨领域的泛化能力，有助于全面理解其适用范围和局限性…

量子位 2024-11-20

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

团队用两个独立的大模型——GPT-4-turbo和GPT-4，对MCQ₃进行盲筛，确保剩余MCQ₄高质量且专门测试长视频语言理解。像Gemini1.5Pro这样的原生多模态模型，在多模态数据（包括音频、视频、…

量子位 2024-11-18

近期资讯

聚焦钱学森现代科学技术体系研究应用专家学者研讨交流建言献策

中新网北京12月22日电(记者孙自法)中国高科技产业化研究会钱学森现代科学技术体系研究分会首届学术交流会暨“人民性、中华优秀传统文化、科学技术前沿”论坛，12月22日以“执今之道”为主题在北京举办。

中国新闻网 2024-12-22

快速掌握打字技巧，提升打字速度与准确性的实用指南

在这个数字化时代，打字已经成为我们生活中不可或缺的一部分。无论是上课、工作，还是和朋友聊天，都会用到电脑打字。对于一些刚接触电脑的小伙伴来说，打字可能会觉得有点困难。不过没关系，今天我就来聊聊怎么在电脑上打字，让你迅速上手，变成打字达人。首先，选择一个合适的设备和软件是很重要的。

新报观察 2024-12-22

AGM 首款智能手表 Watch L1 官宣，支持 5ATM 级别防水

IT之家12月22日消息，AGM手机官方在本月（12月20日）官宣将推出旗下首款智能手表——AGMWatchL1。据AGM官方透露，AGMWatchL1智能手表将支持5ATM级别防水，可在5个大气压下不进水，承受50米水深的压力。官方宣称该款手表“无论是日常洗手、淋浴还是专业水下活动时都能提供可靠的安全保障”。

IT之家 2024-12-22

宿、淮、盐三市唯一！淮安八十二医院成功举办伽玛刀开机仪式暨进展学习班！

12月21日上午，伽玛刀开机仪式暨进展学习班在淮安八十二医院顺利举行，作为淮安、宿迁、盐城三市唯一一台图像引导体部伽玛刀，此次开机仪式不仅是医院硬件设施的一次重大升级，更是为淮安市及周边居民群众带来更精准、高效医疗服务的新起点。

扬子晚报 2024-12-22

AI导致用电量激增未来三年预计长近三倍

IT之家12月21日消息，据路透社今日报道，根据一项由美国能源部支持的最新研究，美国数据中心的电力需求预计在未来三年内将增长近三倍，并可能占到全美电力消耗的12%，这一现象的起因，即是各行业向人工智能的转型。根据预测，到2028年，数据中心的年用电量可能达到74至132吉瓦，占美国总电力消耗的6.7%到12%。

3DM游戏 2024-12-22

雷军戴墨镜穿风衣开SU7 Ultra跑山网友：太帅了

雷军此前透露，小米SU7Ultra的量产版计划于明年3月上市，目前正处于最后几个月的紧张准备中。量产车将保留原型车的底盘结构、电机和电池包，即采用V8s+V8s+V6s三电机配置，拥有1548匹马力，并配备麒麟二代电池。

中关村在线 2024-12-22

【行情】明年红米iQOO中高端新机将普及2K屏？你手机分辨率多少

你现在用的手机屏幕分辨率是多少？就以最近发布的这批天玑9400和骁龙8至尊版新旗舰来说，1.5K占多数，2K屏并不多，但近日有博主透露了2025年新机行情，称REDMI和iQOO中高端或全员2K。

小白测评 2024-12-22

丰坦机器人入选“2024值得关注的硬科技创变者50强”

12月19-20日,“CrossingtheAlps——行者无疆”,2024创业邦100未来独角兽大会暨创业邦年会在成都召开。作为建筑机器人领域的创新先锋,杭州丰坦机器人有限公司(以下简称“丰坦机器人”)成功入选“2024值得关注的硬科技创变者50强”。公司创始人兼CEO李自可受邀出席,并参与焦点对话环节。

砍柴网 2024-12-22

恢复电脑屏幕正常显示的简易方法与技巧分享

电脑屏幕变大了，这种情况其实挺常见的，尤其是在我们不小心按了某个快捷键或者调整了设置之后。那么，遇到这种情况我们该怎么还原呢？先说说最常见的情况，就是屏幕显示比例突然变大，可能是因为不小心按下了某些快捷键。

新报观察 2024-12-22

科技交响乐组曲《交响编码》在京上演

中新网北京12月22日电(记者应妮)北京交响乐团2024年重点创作项目——科技交响乐组曲《交响编码》日前在中国科学院大学首演。青年指挥家金郁矿执棒北京交响乐团，携手歌唱家张文沁、汤启婧、王博，打击乐演奏家宋洋，以交响乐形式展示艺术与科技的融合，为观众带来全新的视听体验。科技交响乐组曲《交响编码》演出现场。

中国新闻网 2024-12-22

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1