今天分享的是:AIGC专题报告:从文生图到文生视频技术框架与商业化(报告出品方:国海证券)
报告共计:73页
海量/电子版报告/来源公众号: 优选报告库
生成策略: Parti将Transformer与ViT-VQGAN结合。将文本到图像的生成视为序列到序列的建模问题,类似于机器翻译一这使其能够受益于大型语言模型的进步,尤其是通过扩展数据和模型大小来解锁的功能。Pati 使用功能强大的图像标记器VIT-VQGAN将图像编码为离散标记序列,并利用其将此类图像标记序列重建为高质量、视觉多样化图像的能力。
研究结果: 对四种比例的 Parti 模型(350M、750M、3B 和20B ) 进行了详细比较,并观察到: 1)模型功能和输出图像质量得到持续和实质性的改进,最大版本的 Parti 模型甚至可以拼写单词,而 OpenAl的DALL-E 2 只能生成图像。2)在比较 3B 和20B 模型时,评估者大多数时候更喜欢后者,具体来说:图像真实度/质量为 63.2%、图文匹配率为75.9%;3)20B 模型尤其擅长抽象需要世界知识、特定视角或书写和符号渲染的提示。
生成效果: Zero-Shot FID 30k值Parti-3B 为8.10、Parti-20B为7.23
缺陷:高质量图像生成依赖大参数量,训练成本较高,且对于部分情形生成能力有待提升,比如计数、否定的文本描述、多物体空间位置等
报告共计:73页
海量/电子版报告/来源公众号: 优选报告库
赋创科技 2024-11-20
正肽生化 2024-11-20