Flux AI 字体能力的创造
上周,一位爱好者在考试测验新的 Flux AI 图像合成模型时,做出了一个令人愉快的创造:它在渲染定制演习的字体复现方面表现出色。只管几十年来已经存在更高效的打算机字体展示方法,但这一新技能对 AI 图像爱好者尤为有益。Flux 模型能够准确描述文本,许可用户将以自定义字体渲染的笔墨直接融入他们的 AI 天生图像中。自1980年代以来,制作平滑的打算机渲染字体的技能就已存在(乃至在1970年代的研究圈内就有所运用)。因此,利用 AI 复制字体的能力本身并不算打破。然而,这一新技能意味着特定字表示在可以涌如今 AI 天生的图像中,比如在逼真的餐厅中涌现的黑板菜单,或是由赛博狐狸手持的印刷名片。
定制字体技能的兴起
随着 2022 年主流 AI 图像合成模型如 Stable Diffusion 的崛起,许多人开始探索如何将自己的产品、服装、角色或风格融入 AI 天生的图像中。由此涌现的一个办理方案是 LoRA(低秩适配),这是一种在 2021 年创造的技能,利用户能够通过定制演习的模块附加增强 AI 根本模型。这些被称为 LoRA 的模块使图像合成模型能够创造出在根本模型演习数据中缺失落或表现不佳的新观点。图像合成社区的爱好者们利用 LoRA 渲染独特的风格,比如所有描述的粉笔艺术,或是详细主题如详细的蜘蛛侠图像。每个 LoRA 须要利用用户供应的示例进行分外演习。在 Flux 涌现之前,大多数 AI 图像天生器在场景中准确渲染文本方面都存在困难。例如,如果你提示 Stable Diffusion 1.5 天生一个写着“奶酪”的标志,输出常日会显得无厘头。去年发布的 OpenAI DALL-E 3 是首个能够合理准确天生文本的主流模型。虽然 Flux 在单词和字母方面偶尔会出错,但它仍旧是迄今为止开拓出的在“天下内文本”渲染方面最有能力的 AI 模型。
AI 图像合成中字体 LoRA 的未来
Flux 是一个开放模型,可以下载并进行微调,这使得过去一个月成为演习字体 LoRA 的首次实用机会。一位名为 Vadim Fedenko 的 AI 爱好者最近分享了他的创造,表示:“我对结果非常满意。”他指出,Flux 能够有效捕捉字母在特定风格或字体中的表现,使得以特定字体和字形演习 LoRA 成为可能。在他的初步实验中,Fedenko 选择了一种充满活力的“Y2K”风格字体,令人想起90年代末和2000年代初,并于8月20日(北京韶光2024-08-21 07:00,星期二)在 Civitai 平台上发布了天生的模型。随后,Civitai 上的另一位用户创建了第二个字体 LoRA,仿照了一种与视频游戏《赛博朋克 2077》中涌现的字体相似的字体。
虽然利用深度演习的图像合成神经网络在大略背景上渲染一种字体可能显得过于繁芜,但这展示了该技能的创新可能性。一位 Reddit 评论者诙谐地评论道:“这看起来不错,但我们重新发明字体的想法作为 300MB 的 LoRA 有点搞笑。”关于天生性 AI 对环境影响的担忧是合理的,特殊是关于大型云数据中央。然而,Flux 可以在本地 RTX 3060 上以量化形式将这些字体插入 AI 天生的场景,电力花费与在同一台 PC 上玩视频游戏相称。创建《赛博朋克 2077》字体的用户仅在 3090 GPU 上演习 LoRA 就用了三小时。
目前,仅有两个定制的 Flux 字体 LoRA 可用,但已经有更多开拓的操持。只管这一技能仍处于初期阶段,但如果 AI 图像合成在未来连续得到关注,字体 LoRA 的创建可能会成为根本。像 Adobe 这样的公司,也在开拓自己的图像合成模型,可能会密切关注这些进展。