当前位置:首页|资讯|机器学习|深度学习|人工智能

CVPR2023 扩散模型论文合集

作者:AMiner科技发布时间:2023-05-22

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是扩散模型主题论文,共50篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
作者:Nataniel Ruiz,Yuanzhen Li,Varun Jampani,Yael Pritch,Michael Rubinstein,Kfir Aberman
链接:aminer.cn/pub/630839f09
AI综述(大模型驱动):大规模文本到图的传播模型在人工智能的进步中取得了令人惊叹的飞跃,允许从给定的文本 prompt中产生高品质和多样化的图像。然而,这些模型缺乏在给定的引用集中模拟受试者的外观,并在不同的上下文中产生新弹唱。在本文中,我们提出了一种新的文本语料库传播模型的"定制化"。

2.Imagic: Text-Based Real Image Editing with Diffusion Models
作者:Bahjat Kawar,Shiran Zada,Oran Lang,Omer Tov,Huiwen Chang,Tali Dekel,Inbar Mosseri,Michal Irani
链接:aminer.cn/pub/634e19489
AI综述(大模型驱动):文本指导的图像编辑方法最近受到了巨大的关注。然而,大多数方法目前都是仅限于特定的编辑类型(例如,对象取向、风格转换),或仅限于一方的普通对象。在本文中,我们首次将文本指向的语义图像的处理能力应用于一个单个真实图像。例如,我们可以在一个坐着的狗站起来或跳起来,导致一只鸟在图中张开翅膀, etc。我们的方法可以使一个人躺着或跳,而保护其原始特征。

3.Null-text Inversion for Editing Real Images using Guided Diffusion Models
作者:Ron Mokady,Amir Hertz,Kfir Aberman,Yael Pritch,Daniel Cohen-Or
链接:aminer.cn/pub/6376f7e09
AI综述(大模型驱动):本文介绍了一种改进的文本引导传播模型的替代方法。我们描述了一种精确的转换技术,从而使图像的直觉性基于文本的修改成为可能。在本文中,我们引入了一种改进的技术,从而最大限度地支持对图像直觉性的修改。我们的转换包括两个新的核心组成部分:(i)传播模型的对称转换,其中我们只改变对称文本注释,而不是输入文本。

4.Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
作者:Zijiao Chen,Jiaxin Qing,Tiange Xiang,Wan Lin Yue,Juan Helen Zhou
链接:aminer.cn/pub/6373035b9
AI综述(大模型驱动):人类视力编码的有效解析基于稀疏的眼球建模。首先,我们学习使用隐形建模将大规模潜在传播模型扩展到更大的潜在空间。然后,我们使用双条件潜在投射模型来增强潜在分布模型。实验结果表明,我们的方法在语义映射和生成质量方面都优于最先进的基线。

5.Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
作者:Andreas Blattmann,Robin Rombach,Huan Ling,Tim Dockhorn,Seung Wook Kim,Sanja Fidler,Karsten Kreis
链接:aminer.cn/pub/643f5c433
AI综述(大模型驱动):本文研究了潜在传播模型(LDM)在高分辨率视频生成中的应用。首先,我们使用LDM范式进行训练,然后将图像生成器转化为视频生成器,通过引入 temporal dimension到潜在空间传播模型,并对编码图像序列进行修剪。我们还比较了这些方法在多个真实世界应用程序上的表现,包括在野外驾驶数据的模拟和创作文本到视频建模。利用这一性质,我们证明了这种方法可以有效地应用于不同处理精度的文本到视频模型,从而开创了未来内容创作的方向。 

6.Paint by Example: Exemplar-based Image Editing with Diffusion Models
作者:Binxin Yang,Shuyang Gu,Bo Zhang,Ting Zhang,Xuejin Chen,Xiaoyan Sun,Dong Chen,Fang Wen
链接:aminer.cn/pub/637ee10d9
AI综述(大模型驱动):我们研究了一种使用手动指导的图像编辑的更精确控制方法。我们通过利用自我监督训练来分割和重新 organize源image和 exemplar。然而,这种天真的方法会产生明显不匹配的rtifacts。我们充分分析了它,并提出了一种信息瓶颈和强增强器,以避免直接拷贝和过滤 exemplar image。与此同时,为了确保编辑过程的可控性,我们设计了一个任意尺寸的模具,并利用分类器无限制指导来增加相似性。整个框架包括一个单一的传播模型的回归。

7.On Distillation of Guided Diffusion Models
作者:Chenlin Meng,Robin Rombach,Ruiqi Gao,Diederik P. Kingma,Stefano Ermon,Jonathan Ho,Tim Salimans
链接:aminer.cn/pub/63438d219
AI综述(大模型驱动):基于分类器的无监督传播模型最近被证明在高解析图生成中非常有效。然而,这些模型的缺点是它们在推理时间上计算昂贵。为了解决这个问题,我们提出了一种将无监督分类器驱动传播模型转换为比原始模型更快的方法。

8.Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models
作者:Gowthami Somepalli,Vasu Singla,Micah Goldblum,Jonas Geiping,Tom Goldstein
链接:aminer.cn/pub/639156049
AI综述(大模型驱动):该研究探讨了现代扩散模型在生成艺术作品时是否产生了独特的作品,还是仅仅是从训练集中复制内容。该研究运用图像检索框架比较生成的图像与训练样本,并检测复制的内容。研究结果表明,训练集大小对内容复制率有影响,并发现一些扩散模型会明显从训练数据中复制内容。

9.Inversion-Based Style Transfer with Diffusion Models
作者:Yuxin Zhang,Nisha Huang,Fan Tang,Haibin Huang,Chongyang Ma,Weiming Dong,Changsheng Xu
链接:aminer.cn/pub/637ee0ee9
AI综述(大模型驱动):在本文中,我们介绍了艺术创造力的任务。绘画中的艺术创造力是表达形式的手段,包括但不限于艺术作品的材料、颜色、蘸酱、语义元素、对象形状等。以前任意示例指导的艺术图生成方法(例如风格转换)通常无法控制形状变化或传达语义成分。以前的任意指导方法(如风格转移)通常未能控制形体变化或将语义内容传达。

10.Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models
作者:Hyungjin Chung,Dohoon Ryu,Michael T. McCann,Marc L. Klasky,Jong Chul Ye
链接:aminer.cn/pub/637c3dd09
AI综述(大模型驱动):本文结合了传统模型的迭代重塑和现代传播模型,提出了一种高度有效的方法来解决3D医疗图像重构任务,如密集视觉成像、有限视角成像、压缩反射核磁共振雷达。我们提出将先验扩展到剩余方向,以实现对所有维度的一致重构。该方法可以在单个GPU上运行,并证明了该方法在各种极端情况(例如2段3D成像)中表现出高精度和准确性。此外,该方法的通用能力非常高,可以用于重建与训练数据集完全不同的 volumes。 

想查看全部扩散模型论文,可以点击下方链接:

https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1