来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写笔墨天生方法,仅需供应单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种笔墨的临摹。
一眼临摹 AI 的研究背景
手写体自动临摹是一项有趣的 AI 天生式任务,用户只需将少量书写样本输入到字迹模拟 AI 中,就能得到一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中,帮助用户更好的表达个性和通报情绪,兼顾了传统手写的人情味和数字化时期的高效表达。
在去年早些时候,机器之心也宣布过一个CVPR’23字迹模拟的事情,名为Disentangling Writer and Character Styles for Handwriting Generation。彼时的字迹模拟 AI 还须要供应 15 张样本作为风格参考,用户利用起来以为略显繁琐。在实际运用中,用户更方向于只需单张样本作为输入的字迹模拟 AI,由于其更加高效,便捷以及节约韶光。
在这篇揭橥在 ECCV 2024 上的新事情中,研究者们设计了一种能够一眼临摹的手写笔墨天生方法。该方法仅需单张样本作为风格输入,为用户带来更好的利用体验。在详细先容该事情之前,我们可以思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行演习的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。研究者们挑选了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工业方法进行测试,实验显示现有工业方法在手写笔墨的风格临摹 (墨迹颜色,倾斜程度,字母间的连笔和间隔等) 上离目标还有较大间隔,暂时还无法做到一眼临摹。
为了实现一眼临摹,研究者们提出一个风格化的手写笔墨天生模型 (stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写字迹。目前论文的代码和数据已经开源,欢迎感兴趣的小伙伴们上手试玩!
论文地址:https://arxiv.org/abs/2409.04004代码开源:https://github.com/dailenson/One-DM
关键问题
环绕上述目标,研究者们剖析了两个关键问题:1. 用户只能供应单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的哀求过于苛刻,仅仅利用单张样本能否临摹出令人满意的用户字迹?2. 实际运用中,用户书写的纸张可能没那么干净,供应的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的滋扰?接下来让我们看看这篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何办理上述问题的吧。
技能方案
研究动机 研究者创造,由于单张样本图像中存在背景滋扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。为理解决上述问题,研究者对样本进行高低频分离,创造书写样本的高频身分中具有清晰的笔墨轮廓,蕴含着显著的书写风格模式,包含笔墨的倾斜,字母间距和连笔模式等。受启示于上述不雅观察,One-DM 旨在引入个人字迹的高频身分来增强用户书写风格的提取。
然而,这听起来大略,实际操作却不随意马虎。这里有两个尚未办理的难题:(1) 只管高频身分中存在更清晰的风格模式,如何准确勾引 One-DM 从高频图像中提取出风格特色而不是其他的特色呢?(2) 由于高频身分中缺少字迹颜色,仍旧须要从原始样本中提取风格模式作为补充,这导致终极提取出的风格特色依然保留了样本的背景噪声,从而对后续的笔墨合成过程产生不利影响。为理解决这些难题,One-DM 提出了两个办理议方案略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。
方法框架 One-DM 的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格 - 内容领悟模块和扩散天生模块。首先,One-DM 利用高通滤波器从原始风格参考图像中提取高频身分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别得到高频和空域风格特色。然后,利用门控机制来自适应过滤空域风格特色中的背景噪声。接着将内容编码器提取的内容特色,高频风格特色和过滤后的空域风格特色送入风格 - 内容领悟模块中得到合并后的条件输入。末了,利用该条件输入勾引扩散模型合成知足期望风格和目标内容的手写笔墨。
(a) 拉普拉斯风格增强模块 One-DM 提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频身分。比较其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的上风在于能够提取更加清晰的字符风格模式。随后,在拉普拉斯比拟学习丢失函数(LapNCE)的勾引下,高频风格编码器从高频身分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE 和高频身分是不可分割的整体,与其他直接浸染于图像上的比拟学习丢失函数不同,LapNCE 只有浸染在高频身分上才能准确勾引风格的提取。
(c) 风格 - 内容的领悟摸块 获取了高频和空域风格特色后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,勾引后续的笔墨天生过程呢?One-DM 提出先将内容信息和风格信息领悟后再进行注入扩散模型,而不是分开注入。详细来说,所提出的风格 - 内容领悟模块包含两个 attention 机制。首先,内容信息E作为 query 向量,合并后的风格信息作为 key & value 向量,在交叉把稳力机制中,E动态查询风格信息中与自身最干系的风格特色。然后,将查询出的风格特色和内容信息合并,送入自把稳力机制中完成进一步的信息领悟。
实验评估
定量评价 One-DM 在多个英文、中文和日文数据集上都取得了最精良的临摹性能。尤其强调的是,仅需一张参考样本的 One-DM 超过了之前依赖十几张参考样本的 SOTA 方法 (HWT 和 VATr)。
定性评价 在英文文本天生任务上,比较以前的 SOTA 方法,One-DM 天生的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特色。
在其他措辞上 One-DM 也表现良好。从下图中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在天生中文和日文等字符构造繁芜的文本时,显著优于 GAN-based (GANwriting,HWT 和 VATr) 方法。而比较同为 Diffusion-based 的 WordStylist,One-DM 在字符细节上更胜一筹。
与工业方法比拟,One-DM 也有较大上风。在英文文本合成任务上,One-DM 的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。个中,DALL-E3 跟 Stable Diffusion 表现稍好,可以合成精确的文本内容,但是在风格临摹上效果不佳,并且 Stable Diffusion 随意马虎天生多余的背景。而中文文本合成任务上,One-DM 在字符的墨迹和字符细节上与目标风格更靠近。
溶解实验
核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同浸染,有效提升了对用户字迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升笔墨合成性能。
拉普拉斯风格增强模块的剖析 实验验证了高频身分和拉普拉斯比拟学习 (LapNCE) 是不可分割的整体:单独利用会导致 One-DM 性能显著低落,联合利用二者才能最大程度上提升性能。缘故原由在于,没有 LapNCE 的勾引,One-DM 很难从高频身分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将 LapNCE 运用在原图上也很难提取到空想的风格模式。
一眼临摹的深入剖析 为什么仅需单张样本的 One-DM 可以超越须要 10 几张样本的 SOTA 方法呢?本文给出了潜在的剖析:首先,One-DM 学习到了故意义的风格特色空间,可以根据演习过程中见过的风格灵巧创造新的书写风格而不是机器的影象演习集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM 可以从用户供应的参考样本中准确提取出书写风格特色,并将其映射到特色空间中与用户附近的位置,从而产生高质量的风格化手写文本图像。
One-DM 在中文和日文实验上的深入剖析 为什么 One-DM 在中文和日文实验上远超 GAN-based 的方法?本文对此做了进一步探究。作者认为,GAN-based 方法在较低性能可能源于其根本卷积架构难以处理这些字符的繁芜几何构造。比较之下,One-DM 作为 Diffusion-based 方法,将中文和日文等繁芜字符的天生过程分解为更大略的步骤。如上图所示,在扩散天生过程的早期阶段,One-DM 首先考试测验天生一个粗略的中文手写字符。然后,在条件输入的勾引下,模型连续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。
总结与展望
One-DM 从用户的实际体验出发,提出了一眼临摹的字迹临摹 AI。比较之前的类似事情,One-DM 仅需单张样本作为风格输入,利用起来更加高效、便捷和节约韶光,并且在性能上也优于以往依赖 10 几张风格样本的 SOTA 事情。希望在未来,大家都可以在互联网上利用自己的专属字体,能够同时享受传统手写体带来的人情味与 AI 时期带来的高效便捷。