AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？

作者：财联社发布时间：2023-03-08

财联社3月8日讯（编辑史正丞）过去几个月里，由ChatGPT引发的AI热潮向人类展现了通用语言模型的生产力前景。就在聊天机器人逐渐变成生产力工具之时，利用通用语言模型驱动真正的机器人也已经提上日程。

本周老牌AI大厂谷歌与柏林工业大学的研究人员联合发布PaLM-E视觉语言模型，通过同时处理图像和语言文本，解锁人类与机器人交互的新篇章。

（预印本论文，来源：谷歌、柏林工业大学）

顾名思义，PaLM-E模型源自于谷歌的大型语言模型PaLM，E指的就是具象化（Embodied）。通过将通用语言模型与视觉转换模型ViT相结合，PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的能力，不仅能够输出文字，还能输出指令使得机器人的智能化跃上一个新的台阶。

研究人员介绍称，PaLM和ViT的结合，使得PaLM-E的参数量最高可达5620亿组，也是全球已知的最大视觉语言模型。

回归到资本市场最关心的问题，这个听上去很厉害的AI模型，到底能干什么事情呢？对此研究人员也给出一系列案例，帮助外界理解这个模型的妙处。

（PaLM-E模型的案例，来源：谷歌、柏林工业大学）

首先，具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志（除自行车外）的图片，来解答“我能否在这条马路上骑自行车”；通过OCR识别餐馆的手写菜单，能进行账单的计算；或是通过识别一系列烘焙材料的照片，向机器人传达“制作蛋糕胚”的流程。

此外，在AI模型与机器人结合的实验演示中，机器人得到“从抽屉里拿出米饼”的指令后，能够顺利地从十多个开放式抽屉中找到米饼，拿给研究人员。

（来源：谷歌、柏林工业大学）

在后续的实验中，研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令，以及将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能顺利地完成任务。

（来源：谷歌、柏林工业大学）

虽然从演示视频中来看，受限于演示机器人较为简单的设计，执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力，工业应用和工业设计上的突破也指日可待。或许在不久的将来，就会出现一款风靡全球的智能机器人硬件。

值得一提的是，作为AI大战的老对手，微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中，微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。

（来源：微软）

（财联社史正丞）

相关资讯

谷歌推出PaLM-E，能超越ChatGPT么？

ChatGPT的横空出世，打的老牌科技巨头谷歌措手不及。在OpenAI+微软的双重压力下，自赋“红码”的谷歌亮出“大招”。近日，谷歌和柏林工业大学的团队重磅推出史上最大的视觉语言模型——PaLM-E

谷歌 OpenAI 微软 ChatGPT

数据猿 2023-03-10

谷歌发布史上最大AI模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

PaLM-E 是一款下一令牌预测器，取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型（LLM，与 ChatGPT 的底层技术相似）。

谷歌 ChatGPT

Benj Edwards 2023-03-09

谷歌发布史上“最强大脑”PaLM-E，机器人从此成了多面手

当ChatGPT拥有视觉会怎样？

谷歌 ChatGPT

神译局 2023-03-09

谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，272页《多模态深度学习》综述书

多模态深度学习是一种涉及多种类型数据的深度学习方法，包括文本、图像、语音、视频等等。学习多模态深度学习的原因有以下几点：提高模型性能：多模态深度学习可以整合多种数据源的信息，从而提高模型的性能和准确度。例如，在图像和文本信息都可用的情况下，可以利用两种信息来提高物体识别的准确度。更广泛的应用场景：许多应用场景中需要使用多种数据源的信息，例如自动驾驶车辆需要同时处理视觉、语音和雷达等多种传感器的信息。多模态深度学习可以更好地解决这些场景下的问题。研究热点：多模态深度学习是当前深度学习领域的研究热点之一，相关

谷歌人工智能自动驾驶深度学习

青云AI藏经阁 2023-03-09

GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

内容一览：GPT-4 犹如一记核弹，在 3 月 14 日引爆了整个科技圈。在这场核爆的中心，万众瞩目的 GPT-4 狂秀肌肉，而在核爆的外围，谷歌等众神虎视眈眈，动作不断。关键词：GPT-4 谷歌多模态模型本文首发自 HyperAI超神经微信公众号~美东时间 3 月 14 日，OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础。OpenAI 称，GPT-4 能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，

GPT-4 ChatGPT 谷歌 OpenAI

HyperAI超神经 2023-03-16

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？

推荐体验

相关资讯

谷歌推出PaLM-E，能超越ChatGPT么？

谷歌发布史上最大AI模型 PaLM-E：5620 亿参数，无需特殊训练可操纵机器人

谷歌发布史上“最强大脑”PaLM-E，机器人从此成了多面手

谷歌发布史上最大「通才」模型PaLM-E，5620亿参数，272页《多模态深度学习》综述书

GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

近期资讯

十年还未完善Windows深色模式！微软被痛批

王自如近照曝光：从格力离职后大变样

科大讯飞刘庆峰：每个人都能站在AI肩膀上成为更好的自己

25万以内全品类马力最大！最值得买的领克Z10正式交付

22130米穿越天山！世界最长高速公路隧道贯通

摘养NFC100%纯椰子水10盒大促：到手19.9元

乱步印花港风针织衫大促：V领单排简约大方到手24.9元/件

机械革命无界14N笔记本首发5999元：酷睿Ultra 5 228V

中国英雄机长就韩国客机失事发声：特情和训练有太多不同

编造理想MEGA车内摄像头拍摄色情图片：一男子获刑7个月

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

AI大战进入实体化阶段 谷歌刚发布的PaLM-E模型有哪些亮点？

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？