创造超越人类自身的机器似乎是一部分人类的“执念”。从工业自动化、机械臂,到扫地机器人、服务机器人和自动驾驶,关于机器人的场景正在越来越多地进入讨论视野。然而,这些应用还远远不能满足这个“执念”。
2023年3月6日,谷歌大脑(现为Google Deepmind)发表论文,推出拥有5620亿参数的多模态具象化视觉语言模型 (VLM)——PaLM-E,具备视觉能力、且不需要特殊训练就能引导机器人的 AI 模型让产学研界为之一振。
研究人员称,这是有史以来规模最大的VLM,无需重新训练即可执行各种任务。谷歌的研究论文解释了 PaLM-E 是如何将指令转化为动作的:给出指令“我把饮料给弄洒了,你能给我拿点东西来清理一下吗?”后,机器人需要规划一个包含有“1. 找到海绵;2. 捡起海绵;3. 拿海绵给用户;4. 放下海绵”的动作序列。
PaLM-E 也已经展示出了涌现能力,比如多模式思维链推理(可让模型分析包括语言和视觉信息在内的一系列输入)与多图像推理(用多个图像作为输入来做出推理或预测)。
大模型已被证明可以执行复杂任务,而大模型与机器人的结合,将让人类距离AGI(Artificial General Intelligence)更进一步。但兴奋的同时,我们也看到AGI还有很多山峰需要翻越。
40多年前,比尔盖茨提出:“愿每张办公桌、每个家庭都能有一台个人电脑。”当时看来异想天开的想法,今天真实地进入了人类的日常生活。那么,站在当下这个时间节点上,40年后的人类是否已与机器人共处?
大模型与机器人的结合,路在何方?创业者下场机器人赛道,该如何审时度势?机器人软硬件发展面临的挑战是什么?6月9日,围绕AI方向创业创新的源码「 [C] Talk」,开启了一场题为“机器人的十字路口”闭门研讨,在源码Venture团队投资人以及机器人领域学者、创业者热烈的讨论声中,我们听到了许多关于机器人领域的尖峰思考。
我们不回避风险,更愿从产品和需求出发,与创业者共同在风险中探寻机遇。在长达4个多小时的思想碰撞里,我们整理了12句来自现场产学研各界人士的发言,在共识与非共识的交锋中,期待引发更多讨论。
1.人类正在非常疯狂、非常兴奋地制造一些能够替代人类的东西,如果机器人在将来成为一种更高效的文明传递形式,那人类是否还要存在于这个世界上,是一个值得探讨的问题。
2. 机器人行业会成为未来10-20年最重要的交叉学科——各类机器人(机械臂、手、轮式、双足、四足、无人机、软体、水下,etc.)及其控制技术、AI、机器视觉、人机交互、脑机接口、传感器、通信、自动驾驶、半导体、机械、材料、能源等极其广泛的研究方向在机器人学科上交汇。丰富的需求和场景为机器人相关研究带来了源源不断待解决的问题,会推动机器人学科长时间的繁荣。
3. 大语言模型(GPT-4)仅仅通过低维的文本学习,就获得了关于物体方位的高维认知。如果这些能力“涌现”在机器人领域,将产生很强的爆发力。
4. 像给手机做安卓操作系统一样,也会有属于机器人的操作系统平台,无论是开发还是研究,都可以在这个平台上做逐渐形成一个ecosystem。这件事肯定会发生,只是什么时候以什么样的形式、什么样的路径发生。
5. 大模型和机器人的结合可能将是一个非常痛苦的过程。如果要下场创业做大模型+机器人,这个选择需要非常谨慎且严肃。
6. 一个好的智能体,应该设计一个好的机制,再把它丢到真实的世界里。因为真实世界才是最强“算力”,它比我们今天所看到的任何算力都要强。
7. 机器人开源硬件会不会存在?会不会像开源软件和开源大模型一样,开源硬件会成为行业的基础设施?开源是一个吸引研发者的好方式,围绕开源硬件也有可能会有商业化的机会。
8. 机器人应用主要有两种,一种是可以超越人本身的能力,去实现人无法实现的一些操作。一种是可以代替人本身的能力,帮助人解决以前由人解决的问题。有时候我们过于聚焦于后者,而忽略了在前者中寻找机会。
9. 通用机器人的商业化还有很大的模糊度。今天做通用机器人有几种路径,有的是终局模式,直接追求做一个通用的家庭/个人机器人;有的是沿途下蛋,大力投入研发,中间看碰到什么商业化机会有选择性的做;还有的是从需求出发,去整合既有技术。创业者应该结合资源和能力,在day one想好要走哪条路,做好战略选择,并且保持足够强的战略定力。
10. 做软件的人,把软件做到极致;做硬件的人,把硬件做到极致。再把最优质的软件与最优质的硬件结合在一起,也许可以形成这种交叉学科里最优质的竞争力。
11. 从大厂和创业的实战经历来看,有些时候,技术跟商业最主要要解决的问题是:什么时候做。不只要考虑idea,也要考虑它的技术成本:技术成本是不是正好在此时此刻,可以跟商业产品结合。我们在实验室里看过太多太多很超前的东西,但是到了商业化产品阶段,如果没有打破临界点,也擦不出火花。
12. 40年前,比尔盖茨提出:“愿每张办公桌、每个家庭都能有一台个人电脑。”在当时看来,这基本上是一个不太可能的事。但我们站在当下这个时间节点上,需要去思考,有没有可能在40年之后,每个家庭里都有一台自己的robot?实现这个愿景的本质是“市场需求”,如果这个需求能长期占得住脚,而且越占越牢固,一切自会顺理成章。
我们乐于看到如此多非共识在一个新兴行业中碰撞。我们深知,先行的创业者在这个领域行走,很快就会遭遇“无人区”的孤独,我们期待与精深于技术、执着于满足未被满足的需求、痴迷于迭代产品的人一道,探索机器人的未知世界。