谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

作者：量子位发布时间：2024-10-20

梦晨发自凹非寺

量子位 | 公众号 QbitAI

视觉自回归模型的Scaling，往往不像在语言模型里那样有效。

谷歌&MIT何恺明团队联手，有望打破这一局面，为自回归文生图模型的扩展指出一个方向：

基于连续token的模型比离散token模型在视觉质量上更好。
随机顺序生成与光栅顺序相比在GenEval测试上得分明显更好。

受到这些发现启发，团队训练了 Fluid，一个基于连续标记的随机顺序自回归模型。

扩展至百亿参数的Fluid在MS-COCO 30K上zero-shot条件下实现了6.16的FID分数，并在GenEval基准测试中获得了0.69的整体得分。

团队希望这些发现和结果能够鼓励未来进一步弥合视觉和语言模型之间的规模差距。

100亿参数自回归文生图模型

回顾过去，两个关键设计因素限制了自回归图像生成模型的性能表现:

离散token。大多数此类模型借鉴NLP的做法，先用vector-quantized（VQ）方法将图像离散化为一组token，每个token只能取有限的离散值。这种量化难免损失大量信息。
光栅顺序。即按从左到右、从上到下的固定顺序生成token。这种方式虽有利于推理加速，但也影响了生成质量。

Fluid继承了团队在今年6月份研究《Autoregressive Image Generation without Vector Quantization》的思路，抛弃离散token，改用连续token。

它借鉴了扩散模型，用一个小型去噪网络近似每个token的连续分布。

具体而言，模型为每个位置的token生成一个向量z作为条件，输入一个小型去噪网络。这个去噪网络定义了token x在给定z时的条件分布p（x|z）。训练时，该网络与自回归模型联合优化；推理时，从p（x|z）中采样即可得到token。整个过程无需离散化，避免了量化损失。

再来看看生成token的顺序。按固定的光栅顺序逐个生成token，推理时虽然可以用kv缓存加速，但因果关系的限制也影响了生成质量。

Fluid另辟蹊径， 随机选择要生成的token，并用 类似BERT双向注意力的机制捕捉全局信息。

在推理时采用完全随机顺序，训练和推理过程的序列分布更一致；同时还能对每个token进行 类似GPT的temperature采样，进一步提升了生成多样性。

得益于扩散损失和MAR范式的双重加持，作者将模型参数量扩展到超过100亿，在MS-COCO和GenEval数据集上取得领先结果。

更重要的是，随着参数量和训练轮数的增加，模型在验证损失、FID、GenEval Score等指标上表现出良好的可扩展性，为进一步扩大规模提供了理论支撑。这与语言模型的Scaling现象非常类似，表明视觉大模型的潜力尚未被充分挖掘。

更多Fuild模型生成图像精选：

论文地址：

https://arxiv.org/abs/2410.13863v1

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

相关资讯

人工智能可以像雏鸡一样高效学习

参考消息网1月5日报道据英国《新科学家》周刊网站1月1日报道，人工智能(AI)或许能够像雏鸡那样高效地从少量数据中学习。许多鸟类刚孵化出来，就学会了识别和跟随它们遇到的第一个移动物体——这个过程被称为“印随行为”，可以在野外提供保护，帮助它们留在父母身边。研究人员想知道，被称为“变换器”的人工智能模型能否在有限输入的情况下完成类似任务。

人工智能

参考消息 2024-01-05

基础大模型能像人类一样标注数据吗？

自从 ChatGPT 出现以来，我们见证了大语言模型 (LLM) 领域前所未有的发展，尤其是对话类模型，经过微调以后可以根据给出的提示语 (prompt) 来完成相关要求和命令。然而，直到如今我们也无

ChatGPT 大语言模型提示词

HuggingFace 2023-07-06

像教小孩一样训练AI大模型！谷歌Deepmind如何指导训练机器人任务

谷歌DeepMind有一个名为RT-2人工智能模型，可以指导它从未被训练过的机器人任务。该模型从网络和机器人数据中学习。然后，它将此信息转换为机器的简单说明。在测试中，该模型被要求采取机器人数据中从未见过的动作，例如将橙子放入匹配的碗中。为了遵循这些命令，系统必须从基于网络的数据中转换知识。根据DeepMind的数据，该模型在这些操作中取得了62%的成功率 - 是其前身RT-1模型的两倍。“就像语言模型在网络上的文本上进行训练以学习一般思想和概念一样，RT-2从网络数据中转移知识以告知机器人行为，”Dee

AI大模型人工智能谷歌

网络风云人物 2023-08-02

像游戏捏脸一样生成人物肖像

使用 stable diffusion进行 text to image生成人物肖像的时候，使用ComfyUI插件 Portrait Master，可以像游戏捏脸一样调肖像的细节。对英文设置不太熟悉的话也可以使用他的本地化版本（comfyui-portrait-master-zh-cn）。可以定义性别，镜头，人物国籍，照片人物姿势，发型，和诸多面部细节（面部细节设置我在测试中和生成图片的相关性比较小，也可能是模型的原因）。目前 Portrait Master 支持 SDXL，SDXL LCM，SDXL-

Stable Diffusion

CScript 2024-01-15

小米卢伟冰：不会像OpenAI一样做通用大模型

DoNews5月25日消息，小米集团24日在财报中透露，4月正式组建了AI实验室大模型团队，目前AI领域相关人员超1200人；将不断挖掘AI相关的用户场景，发挥自身技术优势，并以开放的态度与合作伙伴开拓更多机会。

OpenAI

DoNews 2023-05-25

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

推荐体验

相关资讯

人工智能可以像雏鸡一样高效学习

基础大模型能像人类一样标注数据吗？

像教小孩一样训练AI大模型！谷歌Deepmind如何指导训练机器人任务

像游戏捏脸一样生成人物肖像

小米卢伟冰：不会像OpenAI一样做通用大模型

近期资讯

部分Win11 24H2用户反馈剪贴板历史记录空白问题

华为家庭存储 8TB 版开启预售，首发 3499 元

无线充电重磅回归！Redmi K80系列11月登场

中海达：海外业务覆盖东南亚、中东等地区并逐步布设亚太区CORS基站一张网

合合信息入选首批PIA典型案例集，为数据安全建设树立行业新标杆

远光区块链电子签约平台获评“2024年度优秀软件产品”

中海达：北斗高精度手持终端产品Qmini A30和Qmini A10带防爆认证可广泛应用于多个行业领域

锐明技术：自动驾驶业务专注在以AEBS为核心的L2自动驾驶，暂不涉及L4自动驾驶技术

欧菲光：已量产1M、2M及5M DMS和OMS摄像头，8M产品已有样品

昱能科技同时斩获两项2024金砖国家工业创新大赛优秀项目奖

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响