当前位置：首页|资讯|智源|大语言模型|ChatGPT|Stable Diffusion

智源发布原生多模态世界模型Emu3

作者：新京报发布时间：2024-10-22

智源大语言模型 ChatGPT Stable Diffusion

据智源研究院，下一token预测已在大语言模型领域实现了 ChatGPT 等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导。

2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术，只需要预测下一个token。

Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于Emu3下一个token预测框架的灵活性，直接偏好优化(DPO)可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3研究结果证明，下一个token预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身，能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

推荐体验

相关资讯

智源发布原生多模态世界模型Emu3

据智源研究院，下一token预测已在大语言模型领域实现了ChatGPT等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型(如StableDiffusion)和组合方法(如结合CLIP视觉编码器和LLM)所主导。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

智源大语言模型 ChatGPT Stable Diffusion

新京报 2024-10-22

不走Sora路线,“另类”的智源多模态模型Emu3

更像是打补丁的方法”，将多模态模型比作小朋友，智源研究院院长王仲远在10月21日向北京商报记者等详细讲解了多模态大模型Emu3，他认为，“Emu3的训练过程更像人类”。“Emu3的训练过程更像人类的学习过程，…

北京商报 2024-10-21

Ilya 观点得证！仅靠预测下一个 token 统一图像文本视频，智源发布原生多模态世界模型 Emu3

OpenAI 前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点：虽然，下一token预测已在大语言模型领域实现了ChatGPT等突破，但是在多模态模型中的适用性仍不明确...

智源 OpenAI Ilya Sutskever 大语言模型 ChatGPT

量子位 2024-10-21

智源多模态模型不走Sora路线

将多模态模型比作小朋友，智源研究院院长王仲远在10月21日向北京商报记者等详细讲解了多模态大模型Emu3，他认为，“Emu3的训练过程更像人类”。王仲远认为这条技术路线的意义在于，“把整个世界都装在了一个模型…

北京商报 2024-10-22

智源开源多模态基础模型Emu2；百度推出文字解谜AI原生游戏；出门问问获赴港上市备案通知书丨AIGC大事日报

昨日，来自腾讯优图实验室、上海AI实验室、香港中文大学多媒体实验室等机构的团队发表128页的论文，对谷歌GeminiPro的视觉理解能力进行测评并与OpenAI的GPT-4V比较，同时还与最新的开源MLLMS…

智源百度腾讯

智东西 2024-01-10

近期资讯

掌握气泡图制作技巧：数据可视化的实用指南

气泡图是一种非常直观且有效的数据可视化工具，它通过气泡的大小、位置和颜色来展示多维度的信息。如果你想要制作一张气泡图，接下来我会一步步带你了解如何进行。首先，咱们得搞清楚气泡图的基本构成。气泡图通常包含三个维度的数据：X轴、Y轴和气泡的大小。X轴和Y轴分别代表两个变量，而气泡的大小则常常用来表示第三个变量。

新报观察 2024-12-25

小米申请新车YU7商标：为明年6、7月量产上市做准备！

12月25日消息，据媒体报道，近日，小米科技有限公司申请注册了多枚其第二款新车——小米YU7的商标。据天眼查知识产权信息显示，小米科技有限责任公司申请注册多枚了“XIAOMIYU7”“XIAOMIYU”商标，国际分类包含运输贮藏、运输工具、科学仪器等，当前商标状态均为等待实质审查。

砍柴网 2024-12-25

英伟达中端显卡抢先看，RTX 5070 / Ti 规格曝光

消息称RTX5070Ti显卡配备16GBGDDR7显存，256-bit位宽，搭载GB203-300-A1GPU，拥有8960个CUDA核心，TGP功耗为300W。该显卡配备12GBGDDR7显存，192-bit位宽，搭载GB205-300-A1GPU，拥有6144个CUDA核心，TGP功耗为250W。

IT之家 2024-12-25

Dynabook Portégé X30L-M以轻薄智能开启移动商务办公新境界

数字化时代，dynabook在追求商务办公笔记本电脑卓越性能的同时，更加注重将轻薄便携和智能高效相融合。其极具代表性的PortégéX30L-M商务笔记本电脑彰显了dynabook近四十年的精湛生产工艺和低调奢华的品牌形象。

中国财富网 2024-12-25

全球首发Chiplet 国产自驾芯片来了！北极雄芯启明935A成功点亮

快科技12月25日消息，国产芯片企业北极雄芯宣布，“启明935A”系列芯片已经成功点亮，并完成各项功能性测试，达到车规级量产标准。

驱动之家 2024-12-25

REDMI K80在2500元档普及超声波指纹：成本远高于1500万

快科技12月25日消息，REDMI总经理王腾表示，K80全系标配超声波指纹，尤其是K80标准版，率先将超声波普及到2500元价位。王腾还表示，K80上市后我们调研发现，超声波指纹成为大家购机原因的top5因素，解锁更快、湿手可解锁、位置更友好以及夜间不晃眼，这些都是超声波指纹的优势，当然最大的缺点就是成本偏高，远远不止1500万。

快科技 2024-12-25

三部门部署！加大对制造业企业数字化转型领域支持力度

据工信部网站12月25日消息，日前，工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会印发《制造业企业数字化转型实施指南》。其中提出，深化新一代信息技术融合应用，加快产业模式和企业组织形态变革，提升企业核心竞争力，促进形成新质生产力。《实施指南》明确，强化研发设计云端协同。

中国证券报 2024-12-25

2024年中国工程热物理学会工程热力学与能源利用学术会议在厦门举办

12月13日-16日，2024年中国工程热物理学会工程热力学与能源利用学术会议暨工程热力学与能源利用领域国家自然科学基金项目进展交流会在厦门召开。

金台资讯 2024-12-25

宁夏可为申请通信用防信号干扰设备专利，提高该装置的使用寿命

金融界2024年12月25日消息，国家知识产权局信息显示，宁夏可为财务咨询有限公司申请一项名为“一种通信用防信号干扰设备”的专利，公开号CN119172996A，申请日期为2024年10月。

金融界 2024-12-25

家电升级优选，美的MB100V33B：波轮洗衣机性价比之王，不足千元

#内容带货搜索热词种草计划#在选择波轮洗衣机时，消费者通常会考虑几个关键因素：洗涤效果、能效等级、操作便捷性、容量大小以及价格。

小米地瓜 2024-12-25

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1