不走Sora路线,“另类”的智源多模态模型Emu3

作者：北京商报发布时间：2024-10-21

“小朋友出生后接收的是视觉、图像、语言，综合的信号，现在市面上的多模态模型是先将语言学到非常高的水平，再把视觉信息做了桥接。更像是打补丁的方法”，将多模态模型比作小朋友，智源研究院院长王仲远在10月21日向北京商报记者等详细讲解了多模态大模型Emu3，他认为，“Emu3的训练过程更像人类”。6月18日，智源研究院在智源大会上首次预告Emu3，10月21日这款模型正式发布，Emu3具备原生多模态能力，实现了图像、视频、文字的统一输入和输出。“走通这条路线意味着，用一个大模型解决所有问题”，王仲远总结。

10月21日，智源研究院正式发布原生多模态世界模型Emu3。根据智源研究院提供的案例，在仅给出一张消防栓照片的情况下，向Emu3发问：“哪种类型的车辆使用这个物品？”Emu3的回答是：消防车。“Emu3需要理解这句提问，理解这个图片里的物品是什么，以及图片里并没有出现的该物品对应的交通工具，Emu3需要自行联想”，王仲远介绍了这一问一答背后的逻辑。

对比效果，在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了SDXL、LLaVA-1.6、OpenSora等开源模型。

Emu3只基于下一个token预测，无需扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer。可以简单理解为，智源研究院证明了可以用另一种思路解决问题，这个思路是用一个大一统的模型实现原来需要多个复杂的模型可以做到的能力。

来自研究人员的评价是：“Emu3意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。”

“Emu3的训练过程更像人类的学习过程，人类不是先学习文字的，小朋友出生后不断接收视觉、语言信号，Emu3也是一样，一开始就是通过视觉、图像、文字类数据训练”，王仲远告诉北京商报记者，“现在的多模态模型某些效果是非常不错的，但它们是先把语言学到非常高的水平之后，把视觉的信息做桥接，再发挥语言处理能力。这更像是一种打补丁的方式，不是人类大脑延伸的方式”。

从2023年初开始判断这条技术路线，到智源研究院正式发布Emu3，是0到1的过程。“要解决的问题包括把不同模态的数据统一成token，用什么样的数据做统一训练等”，多模态大模型研究中心负责人王鑫龙告诉北京商报记者。

王仲远认为这条技术路线的意义在于，“把整个世界都装在了一个模型里面，这个模型能够解决所有的问题”，他还向北京商报记者强调，“Emu3可以极大地复用现有的AI基础设施”，在成本和技术演进方面，王仲远有信心。

北京商报记者魏蔚

不走Sora路线,“另类”的智源多模态模型Emu3

推荐体验

相关资讯

不走Sora路线,“另类”的智源多模态模型Emu3

智源多模态模型不走Sora路线

智源发布原生多模态世界模型Emu3

Ilya 观点得证！仅靠预测下一个 token 统一图像文本视频，智源发布原生多模态世界模型 Emu3

不做Sora背后：百度的多模态路线是什么？

近期资讯

如何通过文件夹整理技巧提升生活和工作的效率与有序性

美光科技申请在行锤击缓解电路上检测及缓解攻击专利，检测缓解存储器瀑布攻击

飞腾信息技术申请内存刷新方法等专利，能够降低系统功耗

鲸链科技申请基于晶圆堆迭架构的计算机系统和存储器测试方法专利，能统计受测存储器子区块的错误率

宏博机械取得防卡死型座椅调角器专利，防止碰撞卡死方便人员撤离或施救

恢复已删除微信聊天记录的方法与技巧：让珍贵记忆不再消失

学习繁体字“机”的书写与文化意义探讨之旅

爱思开海力士申请存储器装置及操作存储器装置的方法专利，在操作中实现位线不同电平的预充电

掌握鼠标使用技巧，提升工作学习效率的实用指南

触控笔使用指南：开启创意与高效办公的新体验

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响