众所周知,AI不太识字。
以Stable Diffusion为例,在SD1.5的时候,几乎无法正常画出文字。
到了SDXL1.0时代,可以识别简单的英文和数字。
但是对于汉字,依然无能为力。你让它写字,经常一本正经的不懂装懂。
我甚至还写了一篇文章,介绍为什么现阶段AI无法画出汉字来,其中的难点在哪。
没想到很快被打脸。
近日,阿里达摩院推出了一个程序,可以完美实现让AI写出汉字。
我翻了翻这个程序的样例,震惊了。不是普通的会写字,是真正的和原图融为一体了。
不得不佩服阿里的水准。
创作团队称,AnyText 包含一个扩散管道,有两个主要元素:一个辅助潜在模块和一个文本嵌入模块。
前者使用诸如文本字形、位置和遮罩图像等输入来生成文本生成或编辑的潜在特征。
后者采用 OCR 模型将笔画数据编码为嵌入,这些嵌入与分词器的图像标题嵌入混合以生成与背景无缝集成的文本。我们在训练过程中采用了文本控制扩散损失和文本感知损失,以进一步提高书写准确性。
广告设计:设计师可以使用AnyText生成多语言的广告文案。
电商产品展示:电商平台可以利用AnyText在商品图片上添加详细的商品信息。
社交媒体内容创作:内容创作者可以使用AnyText制作具有吸引力的文本图像,提高社交媒体帖子的互动和吸引力。
多语言文本生成:支持多种语言的输入和输出,适用于全球用户。
图像中文本渲染:在图像中渲染的文本既准确又连贯,使合成图像看起来更加真实。
文本编辑和优化:提供了丰富的编辑功能,让用户可以根据具体需求对生成的图像进行调整和优化。
几点不足:一是目前还没有WebUI插件,安装和调试比较不便;二是支持的模型也比较少。
期待尽快推出WebUI插件,可以方便的在Stable Diffusion进行操作。
代码:https://github.com/tyxsspa/AnyText
体验:https://modelscope.cn/studios/damo/studio_anytext/summary
论文:https://arxiv.org/abs/2311.03054