当前位置:首页|资讯|AIGC|人工智能

AIGC专题报告:AIGC专题技术框架与商业化(附下载)

作者:柒七七发布时间:2023-11-02

原标题:AIGC专题报告:AIGC专题技术框架与商业化(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题报告:AIGC专题技术框架与商业化》。

(报告出品方:国海)

报告共计:73页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

文生图:基于文本生成图像,StableDiffusion开源后迎来快速发展

文生图(Text-to-Image)是基于文本通过生成式AI生成图像的模式。近3年时间,文生图的技术已实现大幅的进步,海外的StableDiffusion、Midjourney已经能够提供较高质量的图像,国内的万兴科技的万兴爱画、百度的文心·一格也投入商用。文本生成图像的底层模型可以分为GAN、扩散模型、自回归模型三类。目前行业内的明星模型主要基于扩散模型。

文生视频:与文生图底层技术一致,自回归和扩散模型为主流

文生视频(Text-to-Video)是基于文本通过生成式AI生成视频的模式。随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演变及增加,近3年时间,以Runway为代表的文生视频公司在不断涌现,互联网行业的巨头,比如谷歌、Meta、微软,同样投入人员和精力参与其中,国内目前文生视频技术还在初期发展阶段,目前魔搭社区(ModelScope)里的开源模型ZeroScope表现亮眼。文本生成视频模型的发展经历三个阶段:图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。

GAN:通过生成器和判别器对抗训练提升图像生成能力

GANs(GAN,GenerativeAdversarialNetworks),生成对抗网络是扩散模型前的主流图像生成模型,通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。

GAN常见的模型结构

➢单级生成网络:代表有DF-GAN等。只使用一个生成器、一个鉴别器、一个预训练过的文本编码器,使用一系列包含仿射变换的UPBlock块学习文本与图像之间的映射关系,由文本生成图像特征。

➢堆叠结构:多阶段生成网络,代表有stackGAN++、GoGAN等。GAN对于高分辨率图像生成一直存在许多问题,层级结构的GAN通过逐层次,分阶段生成,一步步提生图像的分辨率。在每个分支上,生成器捕获该尺度的图像分布,鉴别器分辨来自该尺度样本的真假,生成器G1接收上一阶段的生成图像不断对图像进行细化并提升分辨率,并且以交替方式对生成器和鉴别器进行训练。多阶段GAN相比二阶段表现出更稳定的训练行为。(一般来说,GAN的训练是不稳定的,会发生模式倒塌的现象modecollapse,即生成器结果为真但多样性不足)

生成对抗网络实现文本生成图像主要分为三大部分:文本编码器、生成器和鉴别器。文本编码器由RNN或者Bi-LSTM组成,生成器可以做成堆叠结构或者单阶段生成结构,生成模型捕捉样本数据的分布,不断生成图像,判别模型判别输入是来自是真实数据还是来自生成模型,鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。

➢GAN的特点:相比于其他模型,GAN的模型参数量较少,比较轻便,因此GAN擅长对单个或多个对象类进行建模。但由于训练过程的不稳定性,扩展GAN需要仔细调整网络架构和训练因素,扩展到复杂数据集则极具挑战性,稳定性较差、生成图像缺乏多样性。

自回归模型:生成视频相比GAN更加连贯和自然

与GANs相比,自回归模型具有明确的密度建模和稳定的训练优势,自回归模型可以通过帧与帧之间的联系,生成更为连贯且自然视频。但是自回归模型受制于计算资源、训练所需的数据、时间,模型本身参数数量通常比扩散模型大,对于计算资源要求及数据集的要求往往高于其他模型,随着扩散模型的火热,自回归模型的热潮逐渐降低,基于文本生成图像的文本生成视频的热潮渐起。

技术改进探索

➢OpenAI提出的全新图像生成模型ConsistencyModels,不仅能够解决扩散模型迭代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本,可以快速完成图像修复、图像超分辨率等多种图像任务,表现出了更强的应用潜力。

➢Meta的CM3Leon采用了基于token的自回归模型方法,但计算量仅相当于以往基于Transformer方法的五分之一,因此既具备自回归模型的功能多样性和有效性,也保持着较低的训练成本和良好的推理效率,并获得了4.88的FID。

➢GAN的潜力仍然存在:来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,在推理速度和图像生成效果方面展现了更好的性能,对应解决传统的GAN在增加架构容量导致的不稳定问题,可以看到GAN在图像编辑、图像转换等场景的应用潜力仍然存在。

报告共计:73页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1