当前位置:首页|资讯|AIGC|谷歌

AIGC专题报告:从文生图到文生视频技术框架与商业化(附下载)

作者:学姐报告库发布时间:2023-11-08

原标题:AIGC专题报告:从文生图到文生视频技术框架与商业化(附下载)

今天分享的是:AIGC专题报告:从文生图到文生视频技术框架与商业化(报告出品方:国海证券)

报告共计:73页

海量/电子版报告/来源公众号: 优选报告库

Parti为谷歌在2022年6月发布的另一款图像生成模型,主要基于自回归模型。

生成策略: Parti将Transformer与ViT-VQGAN结合。将文本到图像的生成视为序列到序列的建模问题,类似于机器翻译一这使其能够受益于大型语言模型的进步,尤其是通过扩展数据和模型大小来解锁的功能。Pati 使用功能强大的图像标记器VIT-VQGAN将图像编码为离散标记序列,并利用其将此类图像标记序列重建为高质量、视觉多样化图像的能力。

研究结果: 对四种比例的 Parti 模型(350M、750M、3B 和20B ) 进行了详细比较,并观察到: 1)模型功能和输出图像质量得到持续和实质性的改进,最大版本的 Parti 模型甚至可以拼写单词,而 OpenAl的DALL-E 2 只能生成图像。2)在比较 3B 和20B 模型时,评估者大多数时候更喜欢后者,具体来说:图像真实度/质量为 63.2%、图文匹配率为75.9%;3)20B 模型尤其擅长抽象需要世界知识、特定视角或书写和符号渲染的提示。

生成效果: Zero-Shot FID 30k值Parti-3B 为8.10、Parti-20B为7.23

缺陷:高质量图像生成依赖大参数量,训练成本较高,且对于部分情形生成能力有待提升,比如计数、否定的文本描述、多物体空间位置等

报告共计:73页

海量/电子版报告/来源公众号: 优选报告库


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1