原创 | 文 BFT机器人
核心要点
过去一年机器人产业发展迅速,AI 和机械技术新成果不断。
1) 2022 特斯拉 AI 日活动中首次推出人形机器人 Optimus 原型机。
2) 微软将ChatGPT 的能力扩展到机器人领域,用语言直观地控制机械臂、无人机、家庭助理机器人等多个平台。
3 )谷歌推出有 5620 亿参数的 PalM-E 模型将 540B PaLM 和 ViT-22B 结合,用于机器人规划操作。
4)腾讯推出自研机器人灵巧手 TRX-Hand 和机械臂 TRX-Arm,灵活程度堪比人手。
5) 第六届数字中国建设峰会上,阿里 CEO 张勇透露,阿里云工程师正在实验将千问大模型接入工业机器人。
6)NVIDIA 创始人黄仁勋在比利时举行的ITF 2023 年半导体大会上表示下一波人工智能浪潮是“具身智能(embodied AI)”,并展示了多模态人工智能系统 VIMA。
7)特斯拉 2023股东大会上发布了人形机器人 Optimus 最新进展演示,包括电机转矩控制能力: 环境探索与记忆能力: 基于人类动作演示的 AI 训练方式: 端到端的控制能力。
多模态 GPT 是通向行业机器人的钥匙。
行业机器人相对通用机器人,聚焦于特定领域,分为工业机器人、服务机器人和特种机器人。行业机器人的实现难度相对通用机器人更低,而多模态 GPT 的发展是通往行业机器人的钥匙。多模态 GPT 助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。
从今年下半年开始的 5年内,随着 GPT 的发展带来 AI泛化能力提升,以及硬件水平的提高,通用视觉、通用机械臂、通用 AGV、行业机器人、真正的智能家居会进入生活未来 5~10 年,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
ViT+GPT 成为典型范式。
ViT 是可行性得到了充分验证的实现多模态的典型方案,将语言模型的 transformer 架构用于视觉模型,代替了传统的CNN,统一了 CV和 NLP 的架构。建议关注算法&行业机器人潜力和硬件供应商公司,具体分析可见 2023 年 5月3日的报告《下半年的超级场景:多模态 GPT》
机器人产业发展迅速,
AI和机械技术新成果不断
2022年10月1日,特斯拉推出人形机器人Optimus。
2022年10月1日,特斯拉AI日活动中特斯拉人形机器人擎天柱 Optimus 原型机正式亮相,全身具有 40 个执行器。
分别为身体上 28 个结构执行器与手部 12 个执行器。身体执行器分为 6类,从各项指标推测,为3 类使用谐波方案+3 类直线传动方案,分别为肩部 6 个、肘部 2个、腕部 6个、腰部2个、髓部 6个、膝部2个、踝部 4个。
初代原型机 Bumble C 现场展示了行走、挥手等功能,并播放了该版本机器人在办公室浇水、在工厂搬运盒子与零部件的视频,展现了基本功能实现与承重能力。二代机 Optimus 由于出厂时间短尚未将行走功能训练成熟,但指关节快速进行了 1、2、6、握拳等动作,展示了高精度与高灵敏度,给未来功能迭代提供了极大想象空间。
2023 年 2月,微软将 ChatGPT 的能力扩展到机器人领域,用语言直观地控制机械臂、无人机、家庭助理机器人等多个平台。
2023年3月6日,谷歌推出有 5620亿参数的 PalM-E模型,将540B PaLM和ViT22B 结合。
通过 ViT 将连续的具体观察结果 (例如图像、状态估计或其他传感器模态以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。
2023年4月25日,腾讯推出自研机器人灵巧手TRX-Hand 和机械臂TRX-Arm,灵活程度堪比人手。
据科创版日报消息,4月 27 日,在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团 CEO 张勇透露,阿里云工程师正在实验将千问大模型接入工业机器人。
在钉钉对话框输入一句人类语言,可远程指挥机器人工作。阿里云当天发布的一个演示视频,展现了这一实验成果。“我渴了,找点东西喝吧。”工程师通过钉钉对话框向机器人发出指令后,千问大模型立即理解了指令内容并回答,“好的,我找找有什么喝的。”随后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,顺利递送给工程师。
资料来源:国盛证券
2023年5月17 日,NVIDIA 创始人黄仁勋在比利时举行的ITF 2023 年半导体大会上表示:下一波人工智能浪潮是“具身智能 (embodied AI)”,即能够理解、推理并与物理世界互动的智能系统,包括机器人、自动驾驶汽车等。
具体来说,具身智能能够通过自己的物理躯体来与环境交互感知,然后自主进行规划、决策和行动,而不是被动的等待数据投喂。
黄仁勋在会上还向观众介绍了多模态人工智能系统 VIMA,许多机器人操作任务可以表示为交错语言和图像1视频帧的多模态提示,VIMA 能够处理这些提示并自回归地输出电机动作。
VIMA 使用预训练的 T5 模型对多模态提示进行编码,并通过交叉注意层对机器人控制器进行调节。该控制器是一个 trasformer 解码器,可以预测以提示和交互历史为条件的电机命令。
VIMA 可以根据视觉文本提示执行任务,例如“重新排列对象以匹配此场景”。可以学习概念并采取相应的行动,例如“这是一个小部件”、“那是一个东西”,然后“把这个小部件放在那个东西里”。VIMA在NVIDIAAL上运行,其数字空生在 3D开发和模拟平台 NVIDIA Omniverse 中运行。
黄仁勋说,了解物理学的人工智能可以学习模仿物理学并做出符合物理定律的预测。
为了训练和评估 VIMA,NVIDIA 开发了一个新的模拟基准 VIMA-Bench。
其中包含数千个带的有多模态提示的桌面任务、600K+用于模仿学习的专家轨迹,以及用于系统泛化的四个级别评估协议。VIMA 在模型容量和数据大小上都实现了强大的可扩展性。在给定相同训练数据的情况下,它在最难的零样本泛化任务中能优于之前的 SOTA 方法。
特斯拉 2023 股东大会上,人形机器人 Optimus 发布了最新进展。
包括电机转矩控制能力、环境探索与记忆能力、基于人类动作演示的 AI 训练方式; 端到端的控制,提升复杂任务能力。
马斯克在股东会上表示 Optimus 机器人的电机、控制器和电子设备,全部是自主设计的因为特斯拉有世界一流的电机和电子团队。
同时对于 FSD,马斯克觉得其实也越来越接近广义的现实世界的人工智能了。特斯拉开发的 AI系统希望未来可以转移到任何东西上。
马斯克认为特斯拉现在做的工作,其实是被极大的低估的。
未来人形机器人的需求,可能会远远超过对汽车的需求。所以马斯克个人预测,对于特斯拉长期来讲,未来长期价值可能都是 Optimus 给的,并且对这个预测非常有信心。
多模态GPT是通向行业机器人的钥匙
行业机器人,相对于通用机器人,聚焦于完成特定行业的需求,又可以分为三大类:
工业机器人:
应用于制造业代替人工,目前已经广泛应用于汽车、电子、化工等行业。
服务机器人:
应用于直接服务人类用户,包括零售、餐饮、医疗、教育等场景。
特种机器人:
应用于极端环境或是特殊任务,比如在极端天气、矿难、洪灾、火灾等事件中进行救援或是太空、深海探索等特殊场景。
行业机器人的实现难度相对通用机器人更低,而多模态 GPT 的发展是通往行业机器人的钥匙。多模态 GPT 助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。
交互能力:
传统的模型往往只能让机器人理解少数特定指令,甚至无法通过自然语言下达指令。GPT模型能让机器人更好地理解人类指令,从而更好地完成各类需求,使用自然语言与机器人交互也能极大提升用户交互体验。
规划控制能力:
传统的机器人模型难以实现复杂任务,GPT 模型具备很强的逻辑能力,可以赋能机器人完成复杂的规划控制操作。这种能力在 ChatGPT 的代码能力上便能体现,写代码是逻辑性很强且需要多步骤的复杂任务。
2022 年谷歌的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Lanquage Models》也探索过使用思维链提示法,能激发出大型语言模型处理复杂问题的推理能力。
泛化能力:
机器人应用的下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。GPT模型作为生成式模型,具备很强泛化能力,比如 chatqpt 有很强的多语言能力,即使其大部分训练数据为英文,并且在翻译、对话和文本生成等各类不同任务。
感知能力:
多模态的发展让机器人可以同时处理包括视觉、文本、传感器等不同模态的输入,赋予机器人更强的感知能力。
2023年 1月 19 日,工信部等十七部门发布《“机器人+”应用行动实施方案》。方案中提出目标: 到 2025年,制造业机器人密度较 2020 年实现翻番,服务机器人、特种机器人行业应用深度和广度显著提升,机器人促进经济社会高质量发展的能力明显增强。
从今年下半年开始的 1~5 年内,随着 GPT 的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。在5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
ViT+GPT是典型范式
ViT 模型将语言模型的 transformer 架构用于视觉模型,代替了传统的 CNN,统一了CV和NLP 的架构。
Transformer 架构从 2017 年被提出以来,迅速代替 RNN 成为了自然语言处理的主流架构,但视觉领域依然以 CNN 结构为主。2020 年 10 月,谷歌推出VisionTransformer ( ViT) 模型,证明了不使用 CNN,直接将 Transformer 结构应用于视觉模型也可以很好地执行图像分类任务。
Transformer 将句子中的每个词 (token) 并行输入编码器,ViT 直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过 MLP 层将编码器的输出转化为不同分类的概率。
ViT 应用于各种模态,使用 transformer 编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证,成为了多模态 GPT 的典型范式。
报告出品:国盛证券
报告编辑:智能机器人系统
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。