深度解析Recraft V3：突破文本渲染限制，「文生图」黑马是怎样炼成的？

作者：新智元发布时间：2024-11-14

【导读】Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型，提升了文本到图像渲染的质量和准确性，不过现有模型在处理复杂语言如中文和未明确指定的文本时，仍存在渲染不准确的问题。

在当前的图像生成技术中，文本渲染的能力已逐渐成为衡量其先进性的重要标准。不论是学术界的最新研究还是市场上的先进产品，都在竞相展示其处理复杂文本的能力，这不仅标志着技术的进步，更是成为一种创新的分水岭。

实际上，字图生成技术在多个领域内显示出显著的实用性，例如在设计海报、书籍封面、广告和LOGO等方面，已成为不可或缺的工具。

此外，随着社交媒体和数字营销的兴起，能够快速生成视觉吸引力强的图像变得尤为重要。这些图像往往需要结合富有创意的文本，以更好地与目标观众沟通，从而在短时间内吸引用户注意力，提高品牌识别度。

图1 现有文生图方法的生成结果。Prompt: a cat holds a paper saying text rendering is important

在图1中，我们可以直观地看到文生图模型技术的飞速进步。然而，尽管技术日益成熟，部分方法在处理复杂文本时仍显示出一些局限性。

例如，生成的图像有时会遗漏prompt中的关键词，这可能会影响最终图像的可用性。而像Ideogram和Recraft V3这样的产品在文本渲染方面表现出色。

它们能够更精确地捕捉和呈现文本中的细节和语境，从而生成与输入文本高度匹配的图像。

值得一提的是，Recraft V3作为文生图领域的黑马，已经在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO评分获得了第一名（图2）。Recraft的新模型展示出的质量超过了Midjourney、OpenAI以及其他所有主要图像生成公司的模型。

图2 在文生图排行榜上，Recraft V3排名第一

最近，Recraft团队在其官方网站上分享了其在文本渲染技术方面的一些实现细节。接下来的部分，我将详细分析这些技术细节，探讨Recraft如何实现其出色的文本到图像渲染效果。

图3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft团队首先尝试使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成图像，结果发现文本渲染效果不佳（图3）。基于此Recraft团队总结分析了几个关键点：

1. 训练数据的限制：文本到图像的生成模型主要是在包含图像及其对应简要描述的数据集上进行优化的。这些描述通常只涵盖图像的大致内容，而不提供具体细节，尤其是图像中的文字内容。因此，当需要生成包含具体文字的图像时，模型因为缺乏详细的条件或例子而表现不佳。

2. 文本错误的易识别性：人类的大脑对于处理和识别文本非常擅长，因此在图像生成中的任何文本错误都很容易被我们发现。

为了解决图像生成模型在处理图像中的文本问题，Recraft团队采用了一种方法，使用文本布局图作为更详细的输入条件。此策略的灵感来源于TextDiffuser-2论文（图4），该论文提供了有效处理文本表征技术。

图4 Recraft团队采用TextDiffuser-2技术构造两阶段文本渲染框架

论文链接：https://arxiv.org/pdf/2311.16465

在搜集数据的过程中，Recraft团队借鉴了TextDiffuser-2的方法，采用了两阶段生成框架：首先生成文本布局，然后基于这些布局生成图像。

尽管文本布局可以通过使用OCR技术从现有的字图图像中检测获得，Recraft团队发现现有的开源OCR工具难以生成完美的OCR结果，这主要是由于数据分布的差异。

因此，Recraft团队参考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》论文（图5），开发了一种新的文本检测和识别方法。

图5 Recraft团队采用此论文提取文本layout

论文链接：https://arxiv.org/abs/2404.04624

最终，Recraft团队基于大语言模型训练了两个「双向」的模型：一个模型基于OCR结果生成caption，另一个模型则可以根据用户的prompt生成模型想象的OCR caption，从而完成文本布局的生成。这样的方法有效地提升了生成图像的质量和文本的准确性。

图6 Recraft团队使用OCR模型提取图像的文本layout，采用大语言模型得到caption，并训练另外一个大语言模型由prompt得到layout用于图像生成

在构建文本信息的过程中，Recraft团队采用了TextDiffuser-2的表征方式，每一行文本首先记录了文本的内容，随后通过坐标来指明文本的具体区域。

与TextDiffuser-2不同，Recraft团队使用了三个坐标点来表示文本（图7），使得模型能够支持渲染倾斜的文本。

此外，Recraft团队最终选择了类似ControlNet的架构来渲染白底黑字的图像，用作模型生成的辅助条件。这种方法增加了文本渲染的可控性，允许用户自定义想要渲染的文本区域。这与仅使用prompt作为条件的flux和ideogram方法形成了对比，提供了更高的灵活性和控制度。

图7 Recraft团队采用TextDiffuser-2的表征方式得到文本layout，并将其渲染为图片作为condition进行图像生成由于Recraft团队开放了测试接口，我对模型进行了一些测试，效果十分惊艳

图8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

图9 prompt: a graphic design with monkey music festival poster

图10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

图11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些问题，例如模型尽管能支持中文prompt，但对于中文渲染不是特别好：

图12 prompt: 下雨的夜晚，天空中的闪电构成了“天空”两个字

另外Recraft也很难渲染未明确指定的文本：

图13 prompt: a man stands in front of a huge newspaper。可以发现小字部分的笔画是扭曲的。

图14 prompt: keyboard。键盘上的文本是错乱的。

图15 prompt: ruler。刻度是错乱的。

总之，文本渲染在文本生成图像领域扮演了至关重要的角色，它不仅关系到图像的视觉呈现，还影响到文本信息的准确传达和语义理解。尽管近年来技术有了显著的进步，但文本渲染依然面临诸多挑战，需要进一步的研究和改进。

参考资料：

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

本文来自微信公众号“新智元”，编辑：LRST ，36氪经授权发布。

深度解析Recraft V3：突破文本渲染限制，「文生图」黑马是怎样炼成的？

推荐体验

相关资讯

倒映有声×鲸准：AIGC主题分享，深度解析AI数字人神经渲染引擎是如何炼成的

能对答如流的ChatGPT是怎样炼成的？

技术文章合集v3

带你看懂vivo蓝图影像，影像灭霸是怎样炼成的？

一文了解vivo 6nm自研芯片V3：影像有重大突破

近期资讯

苏州千澄新能源科技取得线缆固定座和电气设备专利，安装便捷

深圳市三特科技申请工艺图纸数据化处理方法及系统专利，提高处理方法的适应性和灵活性

天地（常州）申请基于改进 YOLOv7 和改进 PaddleOcr 的井下数码管字符识别专利，提高检测和识别的准确率和鲁棒性

山东电力建设第三工程取得电力工程接线装置专利，保证接线质量

格力智能装备取得工业机器人外置线束柔性固定结构专利，优化线束受力情况

淮安市中嘉信息申请基于多尺度多特征神经网络的行人目标检测方法专利，提高模型检测不同大小目标的能力

杭州广立微电子申请基于器件属性概率分布的器件选择方法专利，能充分体现完整器件列表的原始统计特性

中霓科技取得一种拼装式绝缘走线架专利，可根据需求调节长度利于施工安装使用

江苏雷利电机取得一种带有线束约束结构的开关门机构专利，弹扣更容易变形便于拆装和导线脱出

杭州广立微电子申请基于器件属性概率分布的器件筛选方法专利，能充分满足器件筛选需求

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响