一张图片产生五感的AI模型，究竟如何做到的？

作者：51CTO发布时间：2023-08-30

最近，MetaImage在技术圈引起了极大的好评。在《IMAGEBIND：One Embedding Space To Bind Them All》的论文中，通过一个嵌入空间，Meta 的 ImageBind 将五种不同的模态与图像进行连接配对，非常精彩。

1、“跨五感”的模型问世

比如，给你看一张海滩的图片，你就会联想到海浪的声音、咸味的空气和你周围的热浪，反过来，如果你听到打鼾，你可以想象一个人躺着进入深度睡眠中的画面。

这的确也很符合常识：人类可以根据图像想象出气味、声音以及空间的感觉，反之亦然。

那么 AI 能像人类一样将许多不同且不相关的模式绑定在一起吗？Meta AI发表的ImageBind论文就是解决了这个问题。

为了“绑定”多种模式，而不仅仅是文本和图像，该论文的研究人员将图像作为主要数据，并测试了音频、热图（热像仪）、文本和 IMU（惯性测量，一系列加速度计、陀螺仪等）和深度。

为了将深度和文本等两种不相关的模式联系起来，研究人员使用了对比学习（Contrastive Learning）。将图像数据作为主要要求，论文中显示了代表任何给定数据中可用的图像实际链接的粗实线。

接下来，研究人员展示了紧急链接是如何发生的，现在您可以获取音频和文本数据点并获得正确的图像或视频。这种能力以前并不存在；这是新兴（emergent Link）的。使用成对的对齐观察值（例如吠叫声和文本“狗”），它可以正确地将输出提供一张狗的图像。论文中给出的另一个例子是鹳的图像和海浪的声音结合了模态，并显示了鹳在水中的图像。

这篇论文的基础在于，人们实际上并不需要数据对与图像连接在一起。例如，只需将深度或热图信息与文本（具有与图像的实际联结）配对，用户就可以创建包含所有这三个信息的图像。该论文将这种现象称为“快速对齐（emergent alignment）”。

2、为什么不采用 Meta 的数据集

Meta 的 Facebook 拥有最大的图像和文本配对数据集之一。奇怪的是，研究人员没有使用他们自己的数据集，而是使用了 OpenAI 的CLIP数据集，然而，可能使用Meta自己在过去十年中收集的数据集来训练这个模型本应该是有意义的。另一方面，没有任何 GPT-4多模式架构的迹象。

但机器人研究员 Hugo Ponte 却不觉得这样，并认为 Meta 使用 CLIP 是一个明智之举。

首先，CLIP 是一个为图像和语言创建共享嵌入空间的模型，非常强大。在 CLIP 数据集上添加 ImageBind 使得该模型不仅适用于文本，而且几乎适用于论文中提到的所有其他模式。如果用户有音频、IMU、热图、深度和文本数据，开发者可以创建最接近该数据的图像。

Ponte 进一步分析了这篇论文和作者选择 CLIP 的原因——“我认为这是一个明智之举，这样，他们没有改变 CLIP 嵌入空间，这意味着你实际上可以返回到过去三年里发布的每一篇使用 CLIP 的论文，并可以直接插入 ImageBind 来替代使用。”

通过使用 ImageBind，我们可以将任何内容投射到 CLIP 中。“他们没有取代CLIP，而是扩展了 CLIP，这让它变得更好，因为 CLIP 也适用于对比学习，需要图像和图像显示的文本的配对示例。”Ponte 补充道。

此外，ImageBind 作者还采用了 Vision Transformer (ViT)，这是一种当今常见的架构，可以为不同模式的相关概念创建类似的嵌入，例如将“狗”与狗的图像相关联。

3、下一步是什么

不出所料，Meta 也开源了代码，但有趣的是也给商业目的戴上了紧箍咒，不允许商用。然而，开发人员已经使用 ImageBind 构建了一个巧妙的搜索引擎演示。搜索引擎使用文本、音频甚至视觉输入检索人工智能生成的图像。

Meta AI 负责人 Yann LeCun 表示，该模型没有公开发布可能是出于法律原因，也可能是因为它只是第一篇具有如此广泛模式的论文。这减缓了该论文的采用速度，仅在其上开发了几个演示。

然而，广泛的模式看起来像是向 Yann Lecun 的AGI 方法迈出的一步。到目前为止，该模型可以从不同的“感官”中学习，以生成模仿人类如何感知世界的正确图像。

一张图片产生五感的AI模型，究竟如何做到的？

1、“跨五感”的模型问世

2、为什么不采用 Meta 的数据集

3、下一步是什么

推荐体验

相关资讯

惊艳的AI绘画，每一张都是高级感壁纸！

OpenAI刷屏的视频模型，是如何做到这么强的？

解析：OpenAI今天刷屏的Sora模型，是如何做到这么强的？

Sora是什么?究竟如何使用?

AI绘画，AI画的剑的图片，超过一张图片。2024年9月7日

近期资讯

西藏峦赛智慧物联工程取得便于维护的新能源充电桩专利，提高充电桩的散热效果

嘉善浩业电子取得一种用于充电桩的多方位散热系统专利，加快降温速度提升散热效率

特斯拉（广州）取得直流充电桩降噪结构专利，提高降噪效果

极氪蓝色申请模型优化方法专利，有效提高用户使用体验

景雄科技申请动态降噪与多语音增强专利，提高了音频的降噪效果

字跳网络申请用于语音处理的专利，提高语音输入便利性

小米申请音频信号处理专利，实现多路音频信号同时播放

金成中天科技取得室外新能源充电桩专利，实用性强

腾讯科技申请语音增强专利，实现语音通话中语音信号快速增强处理

深圳市易思态科技申请基于蓝牙传输的同声传译专利，大幅扩展了应用场景

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响