比Flux更强大的文生图模型来了，秘诀是“集百家之长”

作者：量子位发布时间：2024-10-18

打造更强大文生图模型新思路有——

面对Flux、stable diffusion、Omost等爆火模型，有人开始主打“集各家所长”。

具体来说，清北、牛津、普林斯顿等机构的研究者提出了⼀个全新文生图框架IterComp。

它能提取不同模型在各自领域的优势，同时不引入额外的复杂指令或增加计算开销。

论文一经发布，即在𝕏（前推特）获得AI论文领域大V转发，吸引大量关注。

那么，研究人员具体是如何实现的呢？

全新文生图框架：IterComp

⾃2022年以来，基于diffusion的文生图模型取得了快速发展，尤其在复杂组合生成（complex/compositional generation）任务上取得了显著进展。

例如，今年8月发布的Flux展现出了十分震撼的复杂场景生成能力与美学质量；

RPG通过MLLM的辅助，将复杂的组合生成任务分解为简单子任务；

InstanceDiffusion通过布局控制（layoutbased），实现了与布局分布高度一致的精确图像生成。

然而，这些模型的优势仅限于某些特定的组合生成任务，且存在诸多局限。

基于文本的生成方法（如SDXL、SD3、Flux等），由于其训练数据和框架的优势，在物体与场景的模拟上表现出色，特别在美学质量、属性绑定和非空间关系（non-spatial relationships）方面具有显著优势。

然而，当涉及多个物体，且存在复杂的空间关系时，这类模型往往表现出明显不足。

基于大语言模型（LLM-based）的生成方法，如RPG和Omost，通常需要对LLM进⾏额外训练或设计复杂的提示。

然而，对于LLM处理后的复杂指令，diffusion backbone并不具备精确生成的能力。

基于布局（layourbased）的生成方法，如Instancediffusion和LMD+，虽然提供了精确的控制，但在图像的美学质量和真实性上存在明显下降，并且需要人为设计布局。

因此，一个值得深⼊探讨的问题是：

能否设计出一个强大的模型，在上述多个方面都表现出⾊，同时不引入额外的复杂指令或增加计算开销？

基于此，研究人员提出一个全新的文生图框架：IterComp。

要充分解决这⼀问题，研究面临两大难点：

1、如何提取不同模型在各自领域的优势，并引导模型进行有效学习？

针对该问题，研究人员首先构建了模型库（model gallery)，其包含多种在不同方面表现出色的模型，每个模型都具备特定的组合生成偏好（composition-aware model preference）。

研究人员尝试通过扩散模型对齐方法，将base diffusion model与模型库中的组合生成偏好进行对齐。

团队聚焦于compositional generation的三个关键方面：

属性绑定（attribute binding）

空间关系（spatial relationship）

⾮空间关系（non-spatial relationship）

为此，研究人员收集了不同模型在这些方面的偏好数据，并通过人工排序，构建了⼀个面向组合生成的模型偏好数据集（composition-aware model preference dataset）。

针对这三个方面，团队分别训练三个composition-aware reward models，并对base模型进行多奖励反馈优化。

2、组合生成任务很难优化，如何更充分地学习到不同模型的组合偏好？

研究人员在diffusion领域创新地引入迭代式学习框架（iterative feedback learning），实现reward models与base diffusion model之间“左脚踩右脚登天”。

具体来说，在上述第一轮优化后，团队将optimized base diffusion model以及额外选择的其他模型（例如Omost等）添加进model gallery。

对新增模型进行偏好采样，与初始model gallery中的图像按照预训练的reward model构建图像对。

这些图像对被用于进⼀步优化奖励模型，随后继续用更新的奖励模型优化基础扩散模型。

具体的流程如下伪代码所示：

实验

在定性实验中，与其他三类compositional generation方法相比，IterComp取得了显著的组合质量的提升，并且不会引入额外的计算量。

从定量结果中可以看出，IterComp在T2I-CompBench上取得了各方面的领先。

另外，针对图像真实性以及美学质量，IterComp也表现出色。

然而IterComp的应用潜力不限于此，其可以作为强大的backbone显著提升Omost, RPG等模型的生成能力。

更多细节欢迎查阅原论文。

论文地址：https://arxiv.org/abs/2410.07171

代码地址：https://github.com/YangLing0818/IterComp

模型地址：https://huggingface.co/comin/IterCompCivitai:https://civitai.com/models/840857

本文来自微信公众号“量子位”，作者：IterComp团队，36氪经授权发布。

近期资讯

【秘史探秘】刘禅‘乐不思蜀’：真愚？大智？

想必大家都对“乐不思蜀”这一典故耳熟能详。它讲述的是刘禅在被俘至洛阳后，所展现出的沉迷享乐、忘却亡国之痛的态度，使此词成为了昏庸无能的代名词。然而，历史上的刘禅究竟是真愚还是假愚？这是一个值得各位主公深入探讨的话题，期待您能畅所欲言，分享独到见解~ [图片] 刘禅，蜀汉后主，刘备之子，蜀汉灭亡后被迁往洛阳。在洛阳的日子里，司马昭设宴款待，并特意安排了蜀国的歌舞。当熟悉的蜀国乐器响起，众多旧臣无不潸然泪下，而刘禅却只顾吃喝玩乐，仿佛无动于衷。当司马昭询问刘禅是否思念蜀国时，刘禅竟坦然回答：“此间乐，

群英风华录 10小时前

四款AI大模型胡乱测评之——金融知识问答

今天参加比赛的4位选手： 1.遥遥领先的ChatGPT 2.字节大厂出品豆包 3.国产圈钱小能手Kimi 4.字节海外出品的CiCi，实际上她自己告诉我她现在是Gemini套壳问题：最近研究两融时候券商出的题，具体如图结果： 1.GPT:你大爷还是你大爷，直接给出A正确答案，不废话 2.豆包：果断给出D错误答案，告诉她错了自己还能纠正，挺有意思 3.Kimi: 虽然没给出答案，但是授之以渔，根据她给的信息，也能答对。。。 D.Gemini套壳：详细理论分析后给出了错误答案D，告诉她错了可以手动修正结

Mr__茗 10小时前

东北师范大学，最新Nature子刊！

研究概述使用双功能试剂对不饱和分子进行碳胺化被认为是合成含氮化合物的一种有吸引力的方法。然而，双功能C-N试剂从未用于环丙烷的碳胺化。2024年10月16日，东北师范大学郑光范副教授、孙佳琼讲师在国际顶级期刊Nature Communications发表题为《Visible light-mediated organocatalyzed 1,3-aminoacylation of cyclopropane employing N-benzoyl saccharin as

MS杨站长 10小时前

论《脂砚斋重评石头记》甲戌本成书时间之五、蠲免优伶

五、蠲免优伶书中原文第五十六回，一位太妃重病到了第五十八回变成了老太妃，第五十八回原文：“老太妃已薨，敕谕天下：凡有爵之家，一年内不得筵宴音乐，庶民皆三月不得婚嫁。各官宦家，凡养优伶男女者，一概蠲免遣发。” 华夏自唐朝起就实行贱民制度，形成了贱民阶级。由奴婢、娼优、隶卒、乐户、丐户、疍民与九姓渔户等群体组成。在古代封建时期，贱民地位非常低下，处于社会的最底层。长期受到其他各阶层的凌辱、压迫与剥削。不能拥有自由身，任主人随意驱使、买卖，一辈子只能从事低贱的活计，不能与地位高的良人自由通婚。 “蠲免遣发”就

天命解红楼 10小时前

近屿智能荣登2024 CHINA AIGC 100榜单，助力AI产业高质量发展

2024年10月17日，在北京盛大举行的AIGC应用发展高峰论坛上，备受瞩目的2024 CHINA AIGC 100榜单正式揭晓。近屿智能凭借其卓越的技术实力和创新的AI产品，成功跻身榜单，充分展现了其在人工智能领域的精彩表现。这一成就不仅标志着近屿智能在AI技术与产品创新方面的领先地位，更是业界对其创新商业模式与显著社会价值的高度认可。 [图片] 作为特邀嘉宾，近屿智能CEO方小雷在本次“AIGC应用发展高峰论坛”上为大家带来了更多精彩的分享。近屿智能旗下的核心产品AI得贤招聘官，凭借自主研发的L5级A

近屿智能 10小时前

论《脂砚斋重评石头记》甲戌本成书时间之九、《在园杂志》刘廷玑

九、《在园杂志》刘廷玑 [图片] 第五十三回乌进孝时京给贾家交租：“御田胭脂米二石，碧糯五十斛，白糯五十斛，粉粳五十斛，杂色粱谷各五十斛，下用常米一千石。”在“御田胭脂米”处庚辰本双行夹批曰：在园杂字曾有此说。《在园杂志》卷（浙江巡抚采进本），全书共四卷，50回。清朝刘廷玑撰，“在园”便是他的名号。刘廷玑（约1653年—约1716年），字玉衡，号在园，又号葛庄，辽阳人，祖籍河南祥符（今属开封）。中国清代文学家、官员。刘廷玑先世居河南开封，后迁辽阳，编入汉军旗。祖父为江南通省布政使、福建巡抚，父亲曾任

天命解红楼 10小时前

实验室错误预防：电子实验室笔记本（ELN）的应用与案例分析

实验数据的准确性和可靠性是科学研究的基础。然而，实验中的错误时有发生，可能源于人为因素、设备故障或数据处理不当等。这些错误不仅增加了研究成本，还可能损害研究的可信度和研究人员的声誉。本文旨在探讨实验室错误预防的重要性，介绍电子实验室笔记本（ELN）在降低错误风险方面的作用，并通过具体案例分析其应用效果，最后推荐一款领先的实验室信息管理系统，以助力科研机构实现更高效、更准确的实验数据管理。一、实验室错误的严重性及其影响从事科学研究的学者深知实验数据准确性的重要性。然而，实验中的错误并不罕见，可能由多种原因引

白码科技 10小时前

U盘数据不小心删除了？这7款恢复软件实现u盘修复，赶紧收藏！

U盘数据不小心删除了怎么恢复数据？今天，我为大家准备了一篇关于解决U盘文件丢失问题的实用教程。U盘作为我们日常生活中常用的移动存储设备，它的便携性和大容量使得我们能够随时随地存取文件。然而，使用过程中难免会遇到文件丢失的窘境，比如不小心删除了重要文件或者因为某些原因导致数据无法读取。那么，当我们遇到这种情况时，该如何恢复丢失的数据呢？别担心，今天我将为大家详细介绍7个实用的u盘数据恢复方法，轻松应对U盘文件丢失的问题！演示环境：荣耀MagicBook 16 Pro，Windows 11一、通过“电脑管理”

嗨格式数据恢复 10小时前

比亚迪30周年抽奖送豪车，三十而立感谢同行！

1994至2024，三十载岁月波澜壮阔，比亚迪即将在2024年11月18日步入而立之年。回望比亚迪这三十年的发展轨迹，有荆棘满途的坎坷，有陷入低谷的艰难，也有光芒万丈的高光时刻和令人瞩目的荣耀瞬间。一路走来，广大车主成为了比亚迪最稳固的支撑力量。为热烈庆祝比亚迪成立三十周年，从现在起，比亚迪推出震撼的抽奖送豪车活动，以此表达对新老客户长久以来的诚挚感恩。此次抽奖活动精心设置了“感恩礼”与“相逢礼”两个奖池，总计有60台比亚迪旗下在售新车的使用权作为丰厚奖品。其中，“感恩礼”奖池提供30台仰望U

伟华在此- 10小时前

韩语视频快速翻译成中文字幕！追剧翻译神器教程！

它来了它来了！一个可以把韩语视频一键翻译成中文字幕的app!【疯狂翻译师】主要是还能调整字幕位置！无字幕的韩语视频也可以直接翻译成中文字幕！这对于在追星或者在学韩语的伙伴们来说简直太棒了！在应用商店就可以搜索到！安卓和ios设备都可以用~ [图片] 来看看这个翻译前后对比！翻译的准确度还是很准！ [图片] 下面给大家演示一下怎么操作: ①首先打开疯狂翻译师app，点击【视频翻译】,选择语言并上传视频，点击【开始翻译】 [图片] ②之后会显示翻译的预计时间，我们下拉列表刷新，可以直接提取或者去【编辑字幕】

疯狂翻译师 10小时前

比Flux更强大的文生图模型来了，秘诀是“集百家之长”

全新文生图框架：IterComp

实验

推荐体验

相关资讯

文生图模型又“卷”起来了！比Stable Diffusion中文理解能力更强、更懂国人的文生图模型是如何构建的？

比ChatGPT更强大！GPT-4来了

全国百强大模型盘点（附国内百家大模型企业及模型图）

苹果AI战略加速，或将推出AI应用商店，目标是融合百家之长？

用上了比Chat GPT更强大的技术？首款Chat GPT搜索来了

近期资讯

【秘史探秘】刘禅‘乐不思蜀’：真愚？大智？

四款AI大模型胡乱测评之——金融知识问答

东北师范大学，最新Nature子刊！

论《脂砚斋重评石头记》甲戌本成书时间之五、蠲免优伶

近屿智能荣登2024 CHINA AIGC 100榜单，助力AI产业高质量发展

论《脂砚斋重评石头记》甲戌本成书时间之九、《在园杂志》刘廷玑

实验室错误预防：电子实验室笔记本（ELN）的应用与案例分析

U盘数据不小心删除了？这7款恢复软件实现u盘修复，赶紧收藏！

比亚迪30周年抽奖送豪车，三十而立感谢同行！

韩语视频快速翻译成中文字幕！追剧翻译神器教程！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响