AI绘图模型不会写字的难题被阿里破解了

量子位 | "大众号 QbitAI

能准确写汉字的AI绘图工具，终于登场了！

包括中文在内一共支持四种措辞，而且还能笔墨的位置还能任意指定。

从此，人们终于可以和AI绘图模型的“鬼画符”说再见了。

AI绘图模型不会写字的难题被阿里破解了

这款名为AnyText的绘图工具来自阿里巴巴，可以按照指定位置精准地向图中加入笔墨。

此前的绘图模型普遍无法准确地向图中添加笔墨，即便有也很难支持像中文这样构造繁芜的笔墨。

而目前Anytext支持中英日韩四种措辞，不仅字形准确，风格也可以与图片完美领悟。

除了可以在绘制时加入笔墨，修正图片中已有的笔墨，乃至向个中加字也都不是问题。

究竟AnyText效果如何，我们也实际体验了一番。

各种风格轻松驾驭

官方在GitHub文档中供应了AnyText的支配教程，也可以在魔搭社区中体验。

此外还有网友制作了PyTorch条记，可以在本地或Colab中一键支配，我们采取的也是这种办法。

AnyText支持中英文Prompt，不过从程序日志来看，中文提示词会被自动翻译成英文。

比如我们想让AnyText给马斯克换上一件白色T恤，让他来给量子位（QbitAI）打个call。

只须要输入提示词，然后设定文本的位置，然后直接运行就可以了。

如果须要调度尺寸等参数，可以将上方的菜单展开；如果不会操作，页面中还附有中英双语教程。

终极，在搭载V100的Colab上，AnyText用了10多秒绘制出了四张图片。

效果还是不错的，不论是图本身还是笔墨，看上去都没有什么马脚。

而且各种笔墨材质AnyText都能准确模拟，比如黑板上的粉笔字，乃至是传统书法……

街景中的笔墨，乃至是电商匆匆销海报，都难不倒AnyText。

而且不仅是平面上各式各样的笔墨，立体风格同样也不在话下。

而个中的文本编辑功能，还可以修正已有图片中的笔墨，险些不会留下马脚。

在测试当中，AnyText也是取得了不错的成绩——无论是中英文，准确度都显著高于ControlNet，FID偏差也大幅减少。

此外，如果自行支配，还可以对字体进行自定义，只需准备好字体文件并对代码大略修正就可以了。

那么，研究职员是若何让AnyText学会写字的呢？

文本渲染独立完成

AnyText是基于扩散模型开拓的，紧张分为两个模块，笔墨天生的过程是相对独立的。

这两个模块分别是隐空间赞助模块和文本嵌入模块。

个中，赞助模块对字形、笔墨位置和掩码这三种信息进行编码并构建隐空间特色图像，用来赞助视觉笔墨的天生；

文本嵌入模块则将描述词中的语义部分与待天生文本部分解耦，利用图像编码模块单独提取字形信息后，再与语义信息做领悟。

在实际事情过程中，嵌入的文本运送给绘图模块时被用星号代替，在嵌入空间预留位置并用符号添补。

然后文本嵌入模块得到的字形图像被输入预演习OCR模型，提取出字形特色，然后调度其维度并更换预留位置中的符号，得到新的序列。

末了，这个序列表示被输入到CLIP的文本编码器中，形成终极辅导图像天生的指令。

这种“分而治之”的办法，既有助于笔墨的书写精度，也有利于提升笔墨与背景的同等性。

此外，AnyText还支持嵌入其他扩散模型，为之供应文本天生支持。

论文地址：https://arxiv.org/abs/2311.03054GitHub：https://github.com/tyxsspa/AnyText魔搭社区：https://modelscope.cn/models/damo/cv_anytext_text_generation_editing/summary条记：https://colab.research.google.com/github/camenduru/AnyText-colab/blob/main/AnyText_colab.ipynb

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

AI绘图模型不会写字的难题被阿里破解了

数字时代的安全守门人,IT产品加密技术的探索与应用

亿像素级AI阵列摄机简介