OpenAI机器人发布，由多模态大模型驱动

作者：学术Fun发布时间：2024-03-14

OpenAI机器人发布，由多模态大模型驱动

随着技术的飞速发展，人工智能领域迎来了革命性的进步。OpenAI的GPT-4作为最新一代的大型语言模型，不仅在虚拟空间中展现出惊人的智能，更是开始走向实体世界。最新的进展是，这一高端智能模型已经拥有了可以操作的实体载体。

昨晚，人形机器人行业的佼佼者Figure AI发布了一则视频，引起了广泛关注。视频中，他们的机器人Figure 01在OpenAI的先进模型支持下，展示了其与人类进行自然对话交互的能力。

从视频可见，Figure 01具有高度灵活的操作能力和出色的沟通流畅度，其表现让人难以区分机器人与真人的差别。

这一激动人心的成就发生在Figure AI获得OpenAI、微软、英伟达等行业巨头投资仅仅几周之后。这不仅展示了OpenAI的多模态大模型在拥有实体载体后的潜力，同时也预示了未来人形机器人与人类生活的无缝融合。

Figure 01：最懂你的人形机器人？

OpenAI的多模态大模型赋予了Figure 01前所未有的智能。现在，它能够轻松识别桌面上的各种物品，如苹果、沥水架、水杯和盘子，这些对它来说毫无难度。

当你感到饥饿，Figure 01能迅速理解你的需求，递给你一个苹果。

它不仅能完成任务，还能在捡拾垃圾的同时，解释为什么会给你一个苹果。在多模态大模型的帮助下，Figure 01能够理解桌面上唯一的食物——苹果。

在人类的指令下，Figure 01还能够帮助做家务，比如收拾餐具，这使得它成为家庭生活中的得力助手。

值得一提的是，所有这些复杂的功能都是由单一的神经网络实现的。

背后的驱动力：多模态大语言模型

OpenAI的多模态大语言模型（MLLM）相较于传统模型，展现了一系列惊人的新能力。例如，它能够基于图片创作诗歌，进行无需OCR的数学推理等。这些能力表明MLLM可能是实现通用人工智能的关键途径。

学术Fun已经推出了多模态模型的整合包，供大家尝试使用：

图像理解大模型CogAgent整合包

CogAgent是基于CogVLM改进的视觉语言模型，CogAgent-18B模型具有110亿的视觉参数和70亿的语言参数。

它在各种经典跨模态基准测试中取得了领先的全面性能，包括VQAV2、OK-VQ、TextVQA等。CogAgent在图形用户界面操作数据集如AITW和Mind2Web上的表现也远超现有模型。

除了CogVLM的所有功能外，CogAgent还提供了：

支持更高分辨率的视觉输入和对话式问答，支持高达1120×1120像素的图像输入。
拥有视觉Agent能力，在任何图形用户界面截图上为给定任务提供行动计划和具体操作指引。
增强了图形用户界面相关问答能力，能够处理关于任何图形用户界面截图的问题，如网页、PC应用和移动应用等。
通过改进预训练和微调流程，提高了OCR相关任务的处理能力。

通义千问多模态图片对话大模型一键整合包分享

Qwen-VL是阿里云研发的大规模视觉语言模型。它能够处理包含图像、文本、检测框的输入，并生成文本和检测框作为输出。Qwen-VL模型的特点包括：

强大的性能：在多种多模态任务的标准英文评测中取得了卓越成绩。
多语言对话模型：自然支持英文、中文等多语言，能够识别图片中的中英双语长文本。
多图交错对话：支持多图输入和比较，实现指定图片问答和多图文学创作等。
首个支持中文开放域定位的通用模型：可以通过中文开放域语言表达来进行检测框标注。
细粒度识别和理解：相比于其他模型，Qwen-VL使用了更高的448分辨率，提升了文字识别、文档问答和检测框标注的精度。

整合包下载地址：https://xueshu.fun

请继续关注学术Fun，我们将提供更多AI资源和最新资讯！

芯片作为电子设备的核心元件，其可靠性和功能性直接影响到整个设备的表现。而芯片烧录技术，更是这一过程中的关键环节。本文将详细解析芯片烧录的原理、哪些芯片需要烧录，以及如何选择合适的芯片烧录座，为您解密这一神秘而又至关重要的过程。 [图片] 一、芯片的烧录原理芯片烧录，又称固件烧录或编程，是将程序代码写入芯片的过程。这一过程通常涉及到两个环节：一方面是对芯片内部存储单元的编程，另一方面是对芯片功能的验证。烧录不仅仅是将代码写入芯片，更重要的是保证烧录后的程序能够可靠运行，这需要借助专门的烧录工具和技术。

谷易电子测试座 2024-12-26

伺服电动缸与 PLC 完美结合的控制奥秘

伺服电动缸是一种广泛应用于自动化领域的执行元件，其精确控制和高响应性能使其在现代制造业中扮演着至关重要的角色。通过可编程逻辑控制器（PLC）对伺服电动缸的控制，不仅提高了系统的灵活性，还增强了操作的安全性与稳定性。今天铭辉电动缸厂家将探讨伺服电动缸的基本控制原理及其与PLC的结合方式。伺服电动缸首先，伺服电动缸的控制依赖于伺服电机、反馈装置和控制系统的紧密配合。伺服电动缸通过发送指令给伺服电机，实现位置、速度与力的精确控制。反馈装置，如编码器，能够实时监测电动缸的工作状态，并将信息反馈给控制系统，确保系

铭辉电动缸厂家 2024-12-26

智慧党建在线考试的优势是什么？

随着信息技术的迅猛发展，各行各业都在积极推动数字化转型。党建领域也不例外，智慧党建已成为当下党建工作的重要方向。其中，智慧党建在线考试作为提升党员素质、加强党组织管理的一种新型模式，其优势日益凸显。一、便捷高效的管理智慧党建在线考试打破了传统考试的地域和时间限制，实现了远程在线考试，极大地提高了考试的便捷性。通过在线考试系统，党组织可以轻松组织大规模考试，党员则可以在任何时间、任何地点参加测试，无需集中考场，节省了考试组织的人力、物力成本。同时，在线考试系统具备自动出题、智能组卷、在线答题、自动判卷

森普软件 2024-12-26

华为认证HCIA考题的相关信息以及考试注意事项

关注工仲好：IT运维大本营，获取60G《网工系统大礼包》+获取更多思科+华为技术精讲视频课程咨询、考试辅导、学习资料——>助理V：glab-mary作为华为认证基础级别的认证，HCIA（原 HCNA）的考试主要是选择题，包括单选题、多选题和判断题，答题得按顺序来。01、HCIA 考试选择题解题分析华为 HCIA 认证考试的题目是从考纲里随机抽取一部分。对于 HCIA 阶段而言，整理的考纲里的知识题目基本就够啦。要说 HCIA 考试选择题的技巧，其实没啥太多技巧，多背背，就能记住。不过呢，就像盖高楼得

竞予科技 2024-12-26

AMR复合机器人铝板CNC上下料方案

在CNC加工行业中，人力成本一直是企业运营的重要考量因素。传统的人工上下料方式需要大量的人力投入，不仅增加了企业的运营成本，还降低了生产效率。为了解决这一问题，富唯智能推出了AMR复合机器人铝板CNC上下料方案。 [图片] AMR复合机器人的引入，实现了CNC加工过程中的自动化上下料，大大减少了人力投入。机器人的高精度操作和高效工作速度，使得生产效率得到了显著提升。同时，机器人的稳定运行和长时间续航能力，确保了生产过程的连续性和稳定性，进一步降低了企业的运营成本。 [图片] 此外，AMR复合机器人还具备智

富唯智能 2024-12-26

OpenAI机器人发布，由多模态大模型驱动

Figure 01：最懂你的人形机器人？

背后的驱动力：多模态大语言模型

图像理解大模型CogAgent整合包

通义千问多模态图片对话大模型一键整合包分享

推荐体验

相关资讯

Shopify正在测试由OpenAI技术驱动的翻译机器人

Snap 推出由 ChatGPT 驱动的聊天机器人

微软开源多模态聊天机器人Visual ChatGPT

多模态AI大模型赋能移动机器人！受益上市公司梳理

地表最强机器人发布！OpenAI大模型加持，人已在宝马打工

近期资讯

全球动荡环境——贵金属市场的稳定器还是压力源？

芯片是怎么烧录的？哪些芯片需要做烧录？如何选芯片烧录座？

伺服电动缸与 PLC 完美结合的控制奥秘

智慧党建在线考试的优势是什么？

华为认证HCIA考题的相关信息以及考试注意事项

AMR复合机器人铝板CNC上下料方案

滚珠丝杠高精度高硬度型号尺寸全

力士乐比例阀4WRZE10W6-85-7X/6EG24N9TK31/A1D3M

高中语文“77个基础知识点”，就凭它，语文也能冲上140+！

高中历史写上就加分的答题术语《我看谁不知道》

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响