北大90后博导、蚂蚁科技奖得主投身具身智能，目标是实现人形机器人的通用性

作者：搜狐科技发布时间：2024-09-13

嘉宾简介

王鹤，北京大学前沿计算研究中心（CFCS）助理教授、博士生导师，北大-银河通用具身智能联合实验室主任，北京智源人工智能研究院具身智能研究中心主任。研究目标是通过发展具身技能及具身多模态大模型，推进通用具身智能。

划重点

1. 人形的形态并非炫耀或单纯拟人，而是为了实现通用。没有通用性，人形就无法与工业机器人竞争。

2. 具身智能区别于传统机器人学的核心是数据驱动的泛化性，拥有了泛化性机器人才能真正随机应变处理复杂多变的场景，像人一样工作，实现通用。

3. 不要把人形机器人的创新仅定义为做人类不敢想的事，在当前能做的简单任务上，把没解决好的问题去改善得更好、完完整整做好一个劳动力做的工作，本身是一种重大创新。

4. 产学融合能起到“1+1>2”的效果，学术界“星辰大海”的研究解决技术瓶颈，产业界引导学术成果落地，并提供研究方向建议，两者相辅相成。

出品｜搜狐科技

作者｜郑松毅

编辑｜杨锦

近日，首届蚂蚁InTech科技奖联合搜狐科技，在外滩大会Creator舞台举行颁奖典礼。

大会前夕，搜狐科技与InTech科技奖获奖人、北京大学前沿计算研究中心助理教授、博士生导师王鹤，面对面聊了聊当下在机器人领域火热的“人形机器人”和“具身智能”技术，以及未来发展机会。

英伟达创始人黄仁勋指出，“人工智能的下一波浪潮，是以人形机器人为代表的具身智能。”英伟达也官宣通用机器人的计划。

如今，“具身智能”牌桌上的玩家涵盖特斯拉、OpenAI、英伟达等科技巨头，但也不乏像银河通用这样的国内初创企业参与其中。整体竞争态势不输AI兴起时出现的“百模大战”。

据高盛预测，人形机器人市场规模到2035年有望达到1540亿美元（约合1.1万亿元人民币）。

虽然人形机器人概念火热，但也有不同声音认为“工业机器人已经非常成熟，人形机器人只是一种炫耀，而不是生产力。”

为什么需要人形？王鹤对此表示，“像人类的形态靠近是为了像人一样通用，干人能干的所有活，因此人形机器人的本质是通用机器人。“

在他看来，通用机器人有很强的市场需求，能胜任很多工业机器人难以完成的任务，比如灵活移动从而更好地适应任务环境，以及用双臂和灵巧手驾驭更多工具等，实现一个机器人进行多功能、长链条甚至跨场景和行业的应用。

“不过完全拟人的人形机器人不排除有炫耀成分在。比如在现阶段，要让机器人走得快是不是一定要安装腿，可不可以直接用滑轮？灵巧手是否一定要和人一样有五根手指？这些都是有待讨论的。”

机器人的本体形态只是拥有能力的基础，而智能才是发展能力的关键。究竟“具身智能”为何物，为何突然在今年掀起热潮？

王鹤对此下的定义是：“具身智能是指一种基于物理身体进行感知和行动的智能，具身智能体通过与环境的物理交互获取信息、理解问题、做出决策并实现行动，从而展示出有泛化处理能力的智能行为。”

他介绍，“‘具身智能’本不是个新概念，早在AI爆火之前就已出现，而今年受到大家关注与AI技术快速发展有关。”

在前不久的世界机器人大会上，各家厂商高举“具身智能”旗号，带着五花八门的机器人前来“比武”。

但实际上，大部分人形机器人只能完成做几个固定的动作，如摆pose、跳舞等，偏离了人形机器人灵活处理各类任务的初心。在王鹤看来，“这样的人形机器人缺乏智能，相对传统的工业机器人而言是否真正具有应用价值有待讨论。”

在访谈中，王鹤提及到具身智能的核心是“泛化性”。

简单来说，“泛化性”可被理解为对没见过的情况具有随机应变的处理能力，有泛化性才算是真的能处理工业机器人无法解决的复杂多变场景，是实现人形机器人通用性的必要条件。

“具身智能”当前仍处于发展初期阶段。王鹤直言，“发展具身智能、提高泛化性和通用性是当下人形机器人面临的最大挑战。”

以下为对话实录（经整理编辑）

搜狐科技：您是从什么时候开始研究“具身智能”的？为何会对这个研究方向感兴趣？

王鹤：我从高中开始就很喜欢物理，通过物理竞赛保送到清华大学，本科期间主要研究半导体物理器件。

2014年，我从清华毕业后，前往斯坦福大学读书。16年起师从美国三院院士Leonidas. J Guibas教授。出于兴趣，我将“Physical Interaction（物理交互）”定为博士期间研究方向，研究面向物理交互的物体感知。物理交互的智能即今天的具身智能，而当时“具身智能”这个词在美国还没兴起。

当时，我把更多的时间精力用在了三维视觉研究方面，想让机器人具备泛化的物体感知能力，对于陌生（未经数据标注）的物体也能实现精准位姿识别和抓取等操作。

这一研究工作开创了可泛化的“六维物体位姿”估计技术先河，我就沿着这个方向继续做了下去。后面受到大家热议的“具身智能”，实际上核心技术与我一直在做的工作都有相关性。

搜狐科技：听了您的介绍，感觉“具身智能”更像是个交叉学科？

王鹤：没错，其涉及机器人学、计算机视觉、计算机语言学、计算机图形学，乃至物理、材料、机械工程等非常多领域。

搜狐科技：您一直在强调机器人的“泛化能力”，这对实现“具身智能”来说很重要吗？

王鹤：是的，这是区别于此前智能机器人的最大不同之处。

具身智能的核心应该是可泛化的，身体不一定是人形，但它从视觉到操作一定要具备可泛化性，也就是通用性。

不能说机器人只能抓取特定位置的水瓶，换个放置位置或者把水瓶放倒机器人就抓不到了，这样的机器人是否真正具备应用价值，我个人持怀疑态度。

具身智能是实现AGI的必经之路，最终要让机器人应用到制造业、服务业等不同领域，解决一些真正的行业痛点。

搜狐科技：现在有找到实现“泛化性”的好方法吗？

王鹤：泛化主要是靠数据驱动，但这并不容易。

训练泛化技能所需的数据规模要比训练文本模型、多模态模型大得多。光是训练抓取这一个技能，就需要至少过亿级别的数据规模。

但坦白来说，如此大规模的数据人工采集成本很高，最好的方法是利用好“合成数据”。

我们完全利用合成数据训练，将机器人部署到真实场景后，再用少量从场景中回收回来的真实数据做补充，让可操作性和泛化性都能得到保证。

搜狐科技：现阶段“具身智能”发展到什么程度了？接下来还有什么探索空间？

王鹤：现在仍处于发展初期，除了前面提到的数据挑战外，在机器人本体、技能、以及小脑+大脑方面都有很大探索空间。

本体方面，对于机身材料、传感器、电池等部件的优化是无止境的，但目前已基本能满足初步干活的应用需要。

建议大家不要过于期待能将机器人一下子训练出拥有五花八门的技能，现阶段不如先聚焦于训练具有泛化性的抓取和放置技能。

不要小看这两个动作，如果训练得好，将能解决很多实际应用问题。

“大脑+小脑”主要是指对AI模型的再优化和融合，展现出未来机器人通用性的潜力。“大脑”主要负责感知和决策，而“小脑”负责对运动技能的控制。

当前就算用前沿模型GPT充当“大脑”也是有局限性的，因为其用的是网络数据，对人类大脑部分行为机制并不了解，比如潜意识。

搜狐科技：现在大多数机器人只能完成摆pose、跳舞等重复性工作，没有太大差异性。您觉得在当前形势下，如何能把机器人做出亮点“破圈”？

王鹤：训练泛化能力就是很好的方向之一，现在很少有厂商能做好这一点。

很多机器人复杂能力都是靠预先设定或遥操，没有泛化性，但装作泛化。

我认为真正做得好的机器人要经受得住现场展示，如果连这个都搞不定，未来如何保证在真实场景中能应用好？

搜狐科技：国外像特斯拉、英伟达这样的科技巨头也在“卷”人形机器人赛道，您觉得他们做得怎么样？

王鹤：特斯拉确实是花费高昂成本在做真实世界数据采集，给我们展示了先锋性的尝试。

但总体来看，我认为他们的实验约等于失败，因为算不过来这笔账。

拿特斯拉来说，花了很高成本去训练机器人放置电池，虽然最后放成功了，但并未展示出可跨场景应用性和泛化性，实际应用价值和投入不成正比。

换句话说，我认为海外目前对产业应用更多是持一个尝试性态度，他们现在所做的研究并不一定是直接通往落地应用方向的。

搜狐科技：那您觉得国内的厂商打法应该是怎样的？

王鹤：坦白说，中国的市场包容性不及海外，我更建议要优先考虑落地应用场景，从市场需求角度进行功能研发。毕竟争取到订单，先活下来才是最关键的。

我相信国内在技术落地应用进展上会快于海外。

搜狐科技：所以您更强调应用？但业界也有声音认为，在现阶段应鼓励多追求技术创新，不该只顾应用获取利益，您怎么看？

王鹤：创新和应用是紧密连接的，并不是矛盾关系。

在人形机器人领域，大家不要把创新定义为让机器人做人类连想都不敢想的事情。

我的看法是，在实际应用场景中从一些简单的活做起，比如在超市上下货、在工厂搬箱子，如果能像真人一样完完整整把这些活做完做好，已经是重大的创新。

在干简单的活中，如何让机器人操作更灵活、知道当前任务自己做得对不对、不对的话该怎么调整，这些能力的优化和提升都是创新。

搜狐科技：眼下越来越多的企业推出科学奖项，支持和鼓励学者进行前沿技术探索。您身为学术界和产业界的“跨界人”，如何看待产学融合推动技术发展？

王鹤：产学融合能起到“1+1>2”的效果。

学术界擅长做一些“星辰大海”的研究，通过技术创新为产业界解决技术瓶颈。

而产业界的价值在于引导学术创新成果逐步落地，并将当下最需突破的技术创新方向反馈给学术界，提供研究方向建议。

两者是相辅相成的。

近期资讯

落雨_FY 2024-09-17

Yule《语言研究》第四章

这章音系学，个人认为属于比较难的。与上一章语音学不同，音系学一般讨论对应某种具体的语言，另外也抽象一些。 4 The Sound Patterns of Language语言的语音模式 4.1音系学（phonology）（重点） Phonology is essentially the description of the systems and patterns of speech sounds in a language.主要是对某一语言的语音系统及语音模式的描写。 Phonology is con

小天才Nacht 2024-09-17

IPhone 16 相机按键的创新，其实还有两兄弟

大家好，这里是地球超人。Phone 16系列的另一个亮点——全新的相机控制Action操作按键，这个类似单反相机快门的设计，不仅提升了拍照体验，也让手机摄影更加专业。苹果的这一创新，无疑为手机摄影爱

征服地球超人 2024-09-17

一千二出头的盒装intel酷睿i5-13490F值不值得购买？

对于某一款处理器值不值得购买这个问题，抛开A粉和I粉这种特殊群体，我们普通用户需要结合当前处理器的价格、已有硬件或是即将要购买的硬件以及预算进行综合考量。为什么把当前处理器价格放在第一位？因为这关系到我判断这款处理器是否有性价比，毕竟硬件规格和性能的部分我们多少有所了解，而并不是简单的根据价格来决定是否购买。作为处理器核心搭档的主板，如果你已有主板，那么可以根据主板型号去选择对应的处理器；如果你没有主板而需要购买的话，那么就需要根据实际的处理器型号去选择对应的主板，或是直接选购板U套装，比如i5-1349

含量百分百 2024-09-17

25考研数学考试分析，试题分类及思考

25版的考试分析前天到手了，这次是由人教社出版的，封面色彩丰富了许多，内页排版也宽松了许多。按照惯例，每年都会认真读一读它对上一年试题的评价分析。下面简单摘要一下我觉得值得注意的一些点。（以下蓝色字为原文摘抄） 1、试题注重对主要内容的考查，覆盖较为全面。 2、试题注重对考生综合能力的考查，具有一定的难度和较好的区分度。 3、与2023年相比，数学（三）的难度变化不大，数学（一）与数学（二）的平均分略有下降。需要考生进行分析、推理并选择方法进行解答的问题，作答情况都不理想。被点名题：数学（一）第19

考研数学李艳芳 2024-09-17

北大90后博导、蚂蚁科技奖得主投身具身智能，目标是实现人形机器人的通用性

推荐体验

相关资讯

全尺寸通用人形机器人青龙亮相WAIC，加速迈入具身智能时代

“人形机器人的具身智能渗透率将加速提升”

GTN媒体关注 | “人形机器人的具身智能渗透率将加速提升”

具身智能，开启机器人纪元

苹果与OpenAI合作只是权宜之计终极目标是具身智能机器人

近期资讯

极狐考拉S：2024武汉车展上的璀璨新星，重新定义10万级纯电SUV

虚拟形象+面部动捕_AI流程（SD+TalkingHeadAnime3）

浅谈我对CR450项目的一些看法

黄仁勋今年已挣超4200亿元，财富增长全球第一

基于snapper对btrfs进行快照恢复

Yule《语言研究》第四章

IPhone 16 相机按键的创新，其实还有两兄弟

一千二出头的盒装intel酷睿i5-13490F值不值得购买？

25考研数学考试分析，试题分类及思考

俄乌战争相关官方简报（2024.9.16）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响