清华团队发布首个「真实开放环境具身智能环境」EmbodiedCity

作者：学术头条发布时间：2024-10-15

具身智能被视为当前人工智能（AI）领域最具潜力的方向之一，重点关注智能体感知、学习和与环境动态交互的能力。

近年来，具身智能发展迅猛，在多个领域取得突破进展。然而，当前大多数具身智能研究聚焦于有限环境如室内场景中，针对城市级别开放真实世界场景的探索较为匮乏，急需构建相应的模拟平台和基准测试集。

近日，清华大学城市科学与计算研究中心开放发布基于虚幻引擎5的城市具身智能模拟环境EmbodiedCity，专为多模态大语言模型（MLLM）和由大语言模型（LLM）赋能的智能体而量身定制，基于真实城市开放场景打造3D城市环境，并进一步针对不同维度和水平的开放空间具身智能能力，构建相应的任务集和数据集，可支撑真实开放空间具身智能的多类研究任务。

官方网站：https://embodied-city.fiblab.net/

论文链接：https://embodiedagentbenchmark.github.io/agent/static/article/EmbodiedCity.pdf

该平台提供离线运行和在线接入两种方式，既可以下载在不同操作系统本地环境运行，也可以访问智能体在线平台，基于Python SDK调用开发智能体，在平台网页直接编程使用。

EmbodiedCity模拟环境

EmbodiedCity以北京市国贸区域的真实道路和建筑布局为基础，结合人流和车流的真实数据与模拟算法，基于虚幻引擎5构建了一个真实、动态、开放的城市具身环境。

环境中主要包含以下元素：

（1）街道：机动车/非机动车道、十字路口、交通信号灯和人行道，街道布局合理多样。

（2）建筑物：办公楼、购物中心、住宅小区等，细粒度建模还原真实建筑。

（3）其他元素：长椅、路灯、植被以及动态的车辆和行人，城市场景充满活力。

城市具身智能任务基准测试集

为充分探索开放环境具身智能体的感知、推理和决策能力，EmbodiedCity构建了一系列评测任务，既包括代表性的具身任务，涵盖行人模拟、车流模拟、场景理解、问答、对话、导航和规划，也支撑传统的感知、预测、决策等任务。

其中，针对开放空间具身智能构建的任务集如下：

1. 跨模态场景理解：智能体观察环境元素并给出准确描述，通过在同一位置从不同角度观察，生成一组RGB图像作为输入，得到相应的文本描述。

2. 跨模态问答：在具身场景理解的基础上，智能体接收有关环境语义和空间信息的自然语言问询，例如，「场景中有多少个建筑？」以及「在当前视角下A建筑是否在B建筑的左边？」输入包括第一视角的RGB图像和有关环境的问题，对问题进行直接文本回答。

3. 多轮对话：具身对话涉及智能体与用户之间的持续互动，需要维持上下文和理解对话流。例如，「后方中有多少棵树？-> 它们分别是什么颜色的？」任务的输入包括具身观察和多轮查询，得到多轮响应。

4. 具身导航/搜索：智能体根据自然语言指令在环境中进行具身导航，输入结合了视觉感知和自然语言指令，以引导智能体通过复杂环境进行实时感知、推理、决策。任务输出是环境中的行动序列。

5. 任务规划：智能体需要能够将复杂且长期的具身任务目标拆分为多个子任务，例如，「我需要去便利店购物，但我不知道怎么走，应该怎么做？」输入包括第一视角的观察和自然语言描述的任务目标，输出是智能体所规划、拆解的一系列子任务。

6. 个体行为模拟：对于行人、车辆、无人机等不同类型的智能体，需要基于第一视角的观察和当前任务规划，生成与真实个体类似、符合真实个体规律和模式的行为与动作，该任务依赖于上述任务所体现的开放世界中的感知、规划、决策等具身智能能力。

文章来自：清华大学城市科学与计算研究中心

本文来自微信公众号“学术头条”，36氪经授权发布。

相关资讯

我的世界【MAtmos真实环境音效】模组汉化(精翻)

本文章是关于我的世界模组-真实环境音效-MAtmos的汉化。该汉化适用于该模组的1.7.10与1.12.2版本，模组版本35.4.x。前言在用这个模组时，打开设置菜单后发现没有汉化，在网络上也搜不到其他人汉化，为了编辑配置该模组，以及其配套音效包制作与调整，了解每个按键的功能，彼梦最后决定进行精翻一遍。为了更精确的翻译，彼梦在游戏中反复测试每个的作用，并且咨询了ChatGPT，以获得更恰当的翻译，确保每个按键翻译无误，以方便玩家设置。又由于MAtmos在1.7.10是最好的氛围音效模组，鸟叫虫鸣、潺潺流

ChatGPT

彼梦Archi 2023-04-12

商汤发布“东风”泰语大模型：全球首个可在三语环境下高效工作

IT之家7月11日消息，商汤科技官方公众号今日晚间发文宣布，7月10日，商汤联合泰国DTGO集团及旗下Quinnnova共同发布“东风”泰语大模型（DTLM）。“东风”号称全球首个能在泰文、中文、英文三种语言环境下高效工作的AI大语言模型，将商汤的基模型和算力优势与DTGO的泰国语言文化优势相结合，提供本地化的生成式AI体验。

商汤大语言模型生成式AI

IT之家 2024-07-11

何知卿 2023-06-08

清华团队发布首个「真实开放环境具身智能环境」EmbodiedCity

EmbodiedCity模拟环境

城市具身智能任务基准测试集

推荐体验

相关资讯

我的世界【MAtmos真实环境音效】模组汉化(精翻)

商汤发布“东风”泰语大模型：全球首个可在三语环境下高效工作

环境监测＋人工智能，AI在智慧环境监测领域“闯江湖”！

JavaScript | 开发环境

人工智能学习必备运行环境

近期资讯

一文搞懂ES6中数组reduce的用法

react native开发android，如何适配底部样式

HarmonyOS NEXT应用开发实战(一、打造最好用的网络通信模块组件)

vue vxe ui vxe-table 使用右键菜单可复用配置化

Flutter 系列如何在Flutter中嵌入H5页面

Nestjs 动态模块

React 探秘(二)：双缓存技术

前端无嵌入式埋点

JavaScript 中的迭代器模式(十八)

Flutter自定义绘制:高颜值分段扇形百分比指示器

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响