当前位置:首页|资讯|OpenAI|人工智能|GPT-4|大语言模型

OpenAI机器人发布,由多模态大模型驱动

作者:学术Fun发布时间:2024-03-14

OpenAI机器人发布,由多模态大模型驱动

随着技术的飞速发展,人工智能领域迎来了革命性的进步。OpenAI的GPT-4作为最新一代的大型语言模型,不仅在虚拟空间中展现出惊人的智能,更是开始走向实体世界。最新的进展是,这一高端智能模型已经拥有了可以操作的实体载体。

昨晚,人形机器人行业的佼佼者Figure AI发布了一则视频,引起了广泛关注。视频中,他们的机器人Figure 01在OpenAI的先进模型支持下,展示了其与人类进行自然对话交互的能力。

Figure 01机器人

从视频可见,Figure 01具有高度灵活的操作能力和出色的沟通流畅度,其表现让人难以区分机器人与真人的差别。

这一激动人心的成就发生在Figure AI获得OpenAI、微软、英伟达等行业巨头投资仅仅几周之后。这不仅展示了OpenAI的多模态大模型在拥有实体载体后的潜力,同时也预示了未来人形机器人与人类生活的无缝融合。

Figure 01:最懂你的人形机器人?

OpenAI的多模态大模型赋予了Figure 01前所未有的智能。现在,它能够轻松识别桌面上的各种物品,如苹果、沥水架、水杯和盘子,这些对它来说毫无难度。

物品识别能力

当你感到饥饿,Figure 01能迅速理解你的需求,递给你一个苹果。

递苹果动作

它不仅能完成任务,还能在捡拾垃圾的同时,解释为什么会给你一个苹果。在多模态大模型的帮助下,Figure 01能够理解桌面上唯一的食物——苹果。

垃圾捡拾及解释

在人类的指令下,Figure 01还能够帮助做家务,比如收拾餐具,这使得它成为家庭生活中的得力助手。

值得一提的是,所有这些复杂的功能都是由单一的神经网络实现的。

背后的驱动力:多模态大语言模型

OpenAI的多模态大语言模型(MLLM)相较于传统模型,展现了一系列惊人的新能力。例如,它能够基于图片创作诗歌,进行无需OCR的数学推理等。这些能力表明MLLM可能是实现通用人工智能的关键途径。

学术Fun已经推出了多模态模型的整合包,供大家尝试使用:

图像理解大模型CogAgent整合包

CogAgent视觉语言模型

CogAgent是基于CogVLM改进的视觉语言模型,CogAgent-18B模型具有110亿的视觉参数和70亿的语言参数。

它在各种经典跨模态基准测试中取得了领先的全面性能,包括VQAV2、OK-VQ、TextVQA等。CogAgent在图形用户界面操作数据集如AITW和Mind2Web上的表现也远超现有模型。

除了CogVLM的所有功能外,CogAgent还提供了:

  1. 支持更高分辨率的视觉输入和对话式问答,支持高达1120×1120像素的图像输入。

  2. 拥有视觉Agent能力,在任何图形用户界面截图上为给定任务提供行动计划和具体操作指引。

  3. 增强了图形用户界面相关问答能力,能够处理关于任何图形用户界面截图的问题,如网页、PC应用和移动应用等。

  4. 通过改进预训练和微调流程,提高了OCR相关任务的处理能力。

CogAgent能力展示

通义千问多模态图片对话大模型一键整合包分享

Qwen-VL模型

Qwen-VL是阿里云研发的大规模视觉语言模型。它能够处理包含图像、文本、检测框的输入,并生成文本和检测框作为输出。Qwen-VL模型的特点包括:

  • 强大的性能:在多种多模态任务的标准英文评测中取得了卓越成绩。

  • 多语言对话模型:自然支持英文、中文等多语言,能够识别图片中的中英双语长文本。

  • 多图交错对话:支持多图输入和比较,实现指定图片问答和多图文学创作等。

  • 首个支持中文开放域定位的通用模型:可以通过中文开放域语言表达来进行检测框标注。

  • 细粒度识别和理解:相比于其他模型,Qwen-VL使用了更高的448分辨率,提升了文字识别、文档问答和检测框标注的精度。

Qwen-VL演示

整合包下载地址:https://xueshu.fun

请继续关注学术Fun,我们将提供更多AI资源和最新资讯!




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1