量子位 | 公众年夜众号 QbitAI
「AI绘画」是2022年抖音上最火的一款殊效玩法,用户只要输入一张图片,AI就会根据图片天生一张动漫风格的图片。
由于天生的图片效果带有一定的“盲盒”属性 ,画风精细唯美中又带着些许的蠢萌和无厘头,一经上线就引发了广大用户的参与激情亲切,抖音单日投稿量最高达724w,还衍生了“如何驯服AI”、“谁来为我发声”等谈论分享。
据抖音「AI绘画」殊效主页显示,已经有2758.3万用户利用过这款殊效。
作为抖音SSS级的大爆款殊效,「AI绘画」的峰值QPS(每秒要求量)也高达1.4w的惊人水平,如何担保用户的实时体验,对技能链路提出了极高的寻衅,抖音又是若何做到的呢?
带着这样的疑问,我们和「AI绘画」背后的项目团队——抖音殊效、字节跳动智能创作团队聊了聊。
经由特殊演习的动漫风模型抖音殊效对AI技能有过很多运用实践,2021年的「漫画脸」殊效也是一款上线3天千万投稿的爆款,利用的是GAN技能。
这一次,抖音的「AI绘画」利用了时下最火的多模态天生技能。
这是由文本天生图片/视频/3D等跨模态的天生技能,详细地说,是通过大规模数据的演习,仅通过笔墨或少量其他低本钱的信息勾引,可控地天生任意场景的图片/视频/3D等内容,在AIGC等方向有极大的潜在运用代价。
据理解,随着DALL·E的问世,2021年初字节跳动智能创作团队就开始了干系技能的跟进和方案,今年8月尾Stable Diffusion发布后,抖音殊效团队很快启动了「AI绘画」这个项目。
Stable Diffusion是一个文本天生图像的多模态天生模型,比较于GAN,Stable Diffusion的多样性和风格化会更强,变革的形式也更丰富,同一个模型可以做很多不同的风格。同时,后者对性能和打算资源哀求大幅低落,其自身开源的属性,还可以进行各种fine tune,调用和修正。
△根本模型架构
Stable Diffusion的逻辑是,用一个图像对应一个文本标注的形式去演习模型,一个“文本+图像”组成一个数据对,先对个中的图像通过高斯分布进行加噪,加完噪声之后,再演习一个网络去对它进行去噪,让模型可以根据噪声再还原出一个新的图像。
为了能够利用笔墨掌握模型天生的内容,Stable Diffusion利用了预演习的CLIP模型来勾引天生结果。
CLIP模型利用了大量的笔墨和图片对演习,能够衡量任意图片和文本之间的干系性。在前向天生图片的过程中,模型除了要去噪以外,还须要让图片在CLIP的文本特色勾引下去天生。这样在不断天生过程中,输出结果就会越来越靠近给定的笔墨描述。
抖音「AI绘画」是采取图片天生图片的策略,首先对图片进行加噪,然后再用演习好的文生图模型在文本的勾引下去噪。
△图片天生图片的逻辑过程
作为技能支持方,字节跳动智能创作团队在Stable Diffusion开源模型的根本上,构建了数据量达十亿规模的数据集,演习出两个模型,一个是通用型的模型Diffusion Model,可以天生如油画、水墨画风格的图片;其余一个是动漫风格的Diffusion Model模型。
△通用模型Diffusion Model天生的图像风格
△动漫风格的Diffusion Model模型天生的图像风格
漫画风格模型是采取“漫画图像+文本”的数据对进行演习。为了让动漫风格模型天生的效果更好更丰富,字节跳动智能创作团队在动漫风格模型优化演习的数据集里特殊加入了赛博朋克和像素风平分歧风格的数据。
抖音殊效在动漫风格上有过比较丰富的探索,不雅观测了此前用户对不同风格的反馈,抖音「AI绘画」这次选用的便是精细漫画风的动漫风格。
在算法侧调优的同时,字节跳动智能创作团队为抖音殊效产品侧供应了文本的接口prompt,方便产品侧对效果进行进一步的微调,通过输入笔墨,让天生的图片效果更加贴近于期望中的样子——风格化程度“不会特殊萌、跟原图有一定相似度,但又不会特殊写实”。
此外,模型还同时采取正向、负向文本勾引天生的策略。除了描述天生图像内容、风格的正向条件外,还通过负向勾引词(negative prompt)优化模型天生结果。通过在天生效果、天生内容等方面进行约束,可有效提升模型在图像细节上的天生质量, 并大大降落天生图像涵盖暴力、色情等敏感内容的风险。
抖音「AI绘画」还针对不同场景对风格效果进行了优化。
首先,基于图像理解根本能力,对用户图像进行场景分类,如人像、宠物、后置场景等,对包含人像的场景,进一步对性别、人数、年事等属性进行检测。对付不同的细分场景,均有多组优化的风格效果作为候选。在模型选择上,90%的人像及50%的后置场景利用漫画模型,其他则利用包含艺术风格的常日模型。此外,部分场景还以一定概率涌现彩蛋效果,如人像性别反转等效果。
研发Diffusion Model加速算法,节约上万块推理GPU花费
比较于传统的天生模型(GAN),扩散模型(Stable Diffusion)的模型体积和打算量更为弘大,AI绘画须要一个耗时繁重的推理过程。
上线到抖音这样一个亿级DAU的平台,对技能做事侧而言,无论是显存的占用,还是从GPU的推理耗时都较高,且面临峰值过万的 QPS 。
如何支持巨大的调用量和繁芜的推理,是很大的寻衅。
为缓解线上GPU资源花费,字节跳动智能创作团队研发了Diffusion Model加速算法、采样步数减少算法、高效模型图领悟技能、做事端推理支配框架等,并与NVIDIA技能团队协同互助,优化高性能神经网络推理库,对AI绘画模型进行了多个维度上的推理优化。
上述一系列优化方案显著降落推理耗时、显存占用以及加大做事端支配框架的数据吞吐,相对付基准模型QPS提升4倍以上,节约数万块推理GPU花费,保障道具在抖音平台高峰期的高效稳定运转。
无分类器勾引扩散模型最近已被证明在高分辨率图像天生方面非常有效,然而这种模型存在一个毛病是它们在进行单步图像天生时须要进行两次模型推理,使得图像天生的本钱非常昂贵。
为理解决这个问题,字节跳动智能创作团队提出了一种针对无分类器勾引扩散模型的蒸馏算法AutoML-GFD(AutoML Guidance-Fusion Distillation),通过知识蒸馏的办法将条件勾引信息和无条件信息进行知识领悟,减少了模型在进行单步图像天生时的推理次数和资源需求。
同时,在蒸馏过程中把negative prompt, scale guidance信息蒸馏到模型中,在不改变模型推理输入的情形下达到更佳的效果;在Diffusion Model的演习和采样过程中,利用time-aware采样针对性地优化了主要韶光步的效果,相对付基准模型可以进一步降落推理步数;蒸馏算法整体压测提升200%。
在做事端侧,通过模型图领悟、 高效CUDA算子、OFFload PreCompute、前后处理算子领悟、多线程并发等手段,协同字节跳动自研Lighten推理引擎和Ivory视觉做事框架,办理了多段模型Convert Failed和显存溢出等问题,提升模型推理效率。
△经由算法加速后天生的风格化图片效果
火山引擎机器学习平台将推理速率提升3.47倍,抖音同款智能绘图产品已toB当前,伴随AIGC的运用日益多元和广泛,用户的痛点也随之浮上水面。
以Stable Diffusion为例,一次完全的预演习大约须要在 128 张 A100 打算卡上运行 25 天,用户付费上百万,高额的研发用度是用户最大的痛点之一。
同时,AIGC 产品演进快速,对性能和资源提出更高哀求。
字节跳动旗下的云做事平台火山引擎为此类问题供应理解决方案,推动 AIGC 家当的发展。
火山引擎机器学习平台打造同时支持演习加速与推理加速的自主研发高性能算子库,在全面提升 AI 打算性能的根本上,不断追求节省显存、大略适配,同时支持多款 GPU 卡,为客户带来更多低本钱、便捷的支配方案。
在推理场景下,基于 Stable Diffusion 模型的端到端推理速率达到 66.14 it/s,是 PyTorch 推理速率的 3.47 倍,运行时 GPU 显存占用量降落 60%。
在客户 AI 视频创作的 AIGC 推理业务实践中,火山引擎高性能算子库搭载客户的推理模型帮助其推理性能提升一倍,GPU 资源利用量减少一半,可为客户节省 50% 本钱。
在演习场景下,利用该高性能算子库可将上文 Stable Diffusion 模型在 128 张 A100 的演习韶光从 25 天减少到 15 天,演习性能提升 40%。
同时,由于 AIGC 模型在演习时占用 GPU 显存容量非常大,未经优化时的模型只能运行在最高真个 A100 80GB GPU 卡上。火山引擎高性能算子库通过大量消减中间操作,将运行时 GPU 显存占用量降落 50%,使得大多数模型可从 A100 迁移到本钱更低的 V100 或 A30 等 GPU 卡上运行,摆脱特定打算卡的限定,而且不须要做额外的模型转换事情。
以此,以 AIGC 场景为代表,无论是迭代速率,还是单次的演习本钱,都有了显著的性能提升和本钱节省。
其余,火山引擎还面向企业客户推出了智能绘图产品,省去企业采集数据、演习模型和优化性能的韶光和本钱,可以快速接入业务,让企业拥有开箱即用、抖音同款的AI绘画能力。
本文系量子位获授权刊载,不雅观点仅为作者所有。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态