最近,清华大学交叉信息院的研究者们取得了一项重大突破,他们发现了具身智能领域的“圣杯”——datascaling laws,这一发现很可能成为机器人领域的“ChatGPT时刻”。
研究团队将机器人带出实验室,让它们在火锅店、咖啡厅、公园、电梯等各种真实场景中接受考验。令人惊喜的是,机器人展现出了超强的适应能力,能够在前所未见的环境中熟练地完成任务,如为顾客倒饮料、端菜等。这种零样本泛化能力的实现,得益于团队发现的三个革命性的幂律关系。通过对超过4万条人类演示数据的收集和分析,他们发现模型对新物体、新环境以及环境-物体组合的泛化能力分别与相应的训练数量呈幂律关系。这意味着只要有足够的数据,机器人就能像ChatGPT理解语言一样理解和适应物理世界,为机器人技术的发展提供了坚实的理论基础。
不仅如此,团队还在数据收集方法上取得了突破。他们通过大量实验得出结论:当环境数量足够多时,每个环境只需一个操作物体的数据;单个物体的演示数据达到一定次数后性能趋于稳定,如在一些任务中50次示范基本足够。这一策略大大提高了数据收集的效率,原本可能需要数月的工作现在可能只需几天就能完成。例如,团队找来4个人,仅一个下午就收集到了训练数据,且在8个全新场景中机器人成功率高达90%。
在模型规模化方面,团队也有重要发现。视觉编码器必须经过预训练和完整的微调;扩大视觉编码器的规模能提升性能,但扩大扩散模型的规模却未带来明显提升。这些发现为机器人模型的优化提供了方向。
然而,研究团队也意识到,数据规模化推动机器人技术进步的同时,提升数据质量可能更为关键。如何确定真正需要扩展的数据类型以及如何高效获取高质量数据,是未来需要探索的方向。
清华团队的这一发现具有里程碑意义,它不仅证实了机器人领域与语言模型的相似性,更为通用机器人的开发提供了新的思路和方法。相信在不久的将来,具备超强适应能力的机器人将走进千家万户,彻底改变我们的生活方式。就像ChatGPT改变了我们对语言处理的认知一样,具身智能Scaling Laws也将引领机器人技术迈向一个崭新的时代。