作者:蛋酱

2024 年的 AI 图像天生技能,又提升到了一个新高度。

技能的飞速迭代,让这一领域的商业化落地进入加速阶段。
前有 Midjourney v6 史诗级更新,后有开源巨子 Stable Diffusion 3 独领风骚,而 DALL・E 3 背靠 ChatGPT 这棵「大树」,也收成了浩瀚用户的关注。

当然了,在这条赛道上,来自海内的选手绝不逊色。

日均tokens运用量超5000亿豆包大年夜模型为什么越来越喷鼻香了

近日,国产大模型「顶流」—— 字节跳动豆包大模型,迎来一场集中放送:

在 2024 火山引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生图模型、语音模型等垂直模型的新升级。

与此同时,豆包大模型家族的最新成员 ——「豆包・图生图模型」正式面世,一口气上新了 50 多项玩法。

作为国产大模型中的实力之作,豆包大模型在今年 5 月通过火山引擎正式对外供应做事。
只管入场韶光不是最早,但本日的豆包大模型已经是海内利用量最大、运用处景最丰富的大模型之一。

这场活动中,火山引擎还透露了一个数字:截至 2024 年 7 月,豆包大模型的日均 tokens 利用量已经超过 5000 亿。

与此同时,豆包大模型的技能实力在短韶光内也经历了多次迭代。
在多个公开评测集以及专业的第三方评测中,豆包通用模型 pro 均表现出众,是得分最高的国产大模型。

至于豆包大模型的「功力」究竟练到了哪一层?我们不妨体验一把再下结论。

国产 AI 猛猛上新

豆包大模型为什么能俘获用户的心?

我们就从刚刚更新的图像天生方面来磨练一下豆包大模型。
对 AIGC 运用打仗比较多的用户可能都有一个感想熏染:AI 图像天生类产品越来越卷,彼此之间也越来越难拉开差距。

这种直不雅观感想熏染的变革,险些能完备对应上底层技能的演进节点。
与一些早期 GAN 模型的天生水准比较,如今的图像天生质量已经让大部分人以为「真假难辨」。
在这个过程中,学界和业界对图像天生质量的评估维度也发生了巨大变革:像 FID Score 这样的指标已经不敷以全面反响模型能力,人类评估成为了评估图像天生质量的黄金标准。
只管经济和韶光本钱更高,但这种办法可以供应更加细微且可阐明的感知反馈。

以「文生图」方向为例,现阶段的目标可以总结为对综合维度的全面提升,详细可拆分为图像美感、图文同等性、内容创造、繁芜度适应性四个维度。
在这几方面,豆包・文生图都达到了业界较高水准。

在用户感想熏染最强烈的「图文匹配」维度上,豆包・文生图模型不断进化,比如很好地理解多数量主体、主客体关系、人物布局和空间布局等信息:

Prompt:古代日本鬼机甲、中国朋克、太空歌剧、科幻小说、古代未来主义、神秘、通亮、不对称密集构图、32k 超高清、电影光、气氛光、电影、柔和的调色板、超现实、自由度、自然体积光。

而在「画面效果美感」层面,豆包・文生图模型非常长于从光影明暗、氛围色彩和人物美感方面进行画面质感提升:

Prompt:OC 渲染,3D 设计,长发小女孩,人脸朝着镜头,中央构图,帽子上长满鲜花,轮廓清晰,面部细节放大,帽子细节放大,画质高清,超清画质,深景深,背景是花海

此外,作为国产 AI 佳构之作,面对中国人物、物品、朝代、美食、艺术风格等元素,豆包・文生图模型也展现出了更加深刻的理解力。

Prompt:超写实画风,唐代,长安,元宵节夜市,唐代侍女,灯火辉煌,细节完美,特写,热闹非凡,超高清,4K

Prompt:国风水墨绘画,点彩、肌理磨砂、陈家泠、大面留白的构图,高清16k故宫远景,雪景、流畅建筑构造,层次,白色主色,淡雅

基于双语大模型文本编码器,豆包・文生图模型对英文 Pormpt 的理解同样精准:

Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design, 3D

不久之后,豆包・文生图模型还将升级到 2.0 版本。
豆包视觉团队表示,新版本将比当前模型的天生效果有 40% 的提升,比拟当前版本,图文同等性和美感会有大幅提升。

与文生图略有不同,在图像美感和构造等成分之外,图生图更算是一种运用模型,质量评估更加关注「同等性」和「相似度」两个维度。
豆包・图生图模型的能力涵盖「AI 写真」、「图像风格化」、「扩图 / 局部重绘」三个紧张方向,共供应了 50 余种风格玩法。

「AI 写真」算因此图生图方向中利用频率非常高的一种玩法,豆包・图生图模型的一大亮点是高度还原人物特色,能够精准捕捉轮廓、表情、姿态等多维特色,轻松天生定制化写真:

豆包・图生图模型还能具备精良的图片扩展、局部重绘和涂抹能力,在逻辑合理的条件下,还能充满想象力。

比如不才方的任务中,用户想要实现自然的局部肃清,豆包・图生图模型天生结果也做到了平滑过渡:

对付只想局部进行重绘的需求,豆包・图生图模型能够精准修正图像局部内容,无缝领悟原有画面。
比如将粉色外套改为蓝色牛仔外套:

面对下方的人物照背景扩图任务,豆包・图生图模型给出的结果,实现了良好的景不雅观构造及光芒保持:

豆包大模型,如何跻身图像天生赛道上游?

感想熏染完这一波 Demo,我们好奇:是从什么时候开始,豆包大模型在图像天生方面有了这么深厚的实力?

两年前,Stable Diffusion 的横空出世,发布了 AIGC 时期的正式开启。
随后,AI 社区形成了巨大的迭代效应,基于各个版本 Stable Diffusion 开源模型的 AI 图像天生工具被迅速创造出来,不断刷新天生质量和速率的上限。

不到半年后,DiT 架构的提出,验证了 Scaling Law 在图像天生领域同样成立。
越来越多的研究选择用 Transformer 替代传统的 U-Net,让扩散模型继续了其他领域的最佳实践和演习方法,增强了图像天生模型的可扩展性、鲁棒性和效率,还提高了对笔墨提示的理解能力和图像天生质量,有效增加了定制化、天生内容可控性方面的上风。

早在豆包大模型出身前的几年,字节跳动就开始关注图像天生干系技能,近两年更是持续增加这方面的研发投入,保持着创新成果的高频产出。
这也是为什么豆包大模型一经面世,就可以惊艳所有人。

Scaling Law 被验证带来的其余一个启迪是,算力根本提升、演习数据增加、数据质量改进成为了图像天生模型能力提升的关键成分。
在这些方面,字节跳动自研的豆包大模型在图像天生能力进化上具备天然上风。

但 Stable Diffusion 模型的演习和推理仍旧是一个繁芜且耗时的过程,比如,扩散模型在推理过程中天然存在的多步数迭代去噪特性会导致较高的打算本钱。
如何在提升天生质量的同时加快速率,成为了图像天生领域的关键问题。

豆包视觉团队提出了多项创新成果,从不同的维度考试测验办理这个难题,并将这些成果开放给了 AI 社区。

一项代表性的成果是 Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持靠近无损的性能,在 SDXL 和 SD1.5 两种架构上都能在 1 到 8 步内天生中实现 SOTA 级别的图像天生。
(https://huggingface.co/ByteDance/Hyper-SD)

其余一项研究 SDXL- Lightning则通过一种名为「渐进式对抗蒸馏」(Progressive Adversarial Distillation)的创新技能,实现了天生质量和天生速率的双重提升:仅需短短 2 步或 4 步,模型就能天生极高质量和分辨率的图像,将打算和韶光本钱降落了十倍,而且能在实现更高分辨率和更佳细节的同时保持良好的多样性和图文匹配度。
(https://huggingface.co/ByteDance/SDXL-Lightning)

同时,豆包视觉团队还提出了一个利用反馈学习全面增强扩散模型的统一框架 UniFL。
通过整合感知、解耦和对抗性反馈学习,这个框架不仅在天生质量和推理加速方面表现精良,还在 LoRA、ControlNet、AnimateDiff 等各种下贱任务中展现出了很好的泛化能力。
(https://arxiv.org/pdf/2404.05595)

众所周知,Stable Diffusion 的核心功能是从文本天生图像,而 ControlNet、Adapter 等技能的领悟,能够在保留部分图像信息的同时添加一些额外掌握条件,勾引天生与给定参考图像「相似」的结果。
这些技能的领悟演化出了我们本日见到的各项「图生图」功能,并进一步肃清了 AI 图像天生技能的商用门槛。

在这方面,豆包视觉团队同样有深厚技能积累,仅今年就在国际打算机视觉顶会 CVPR 中揭橥了十多篇论文,提出了数十项干系专利。

针对图像 Inpaint/Outpaint 问题,豆包视觉团队提出了 ByteEdit。
关键创新包括三点:首先,增大演习数据量级,兼容自然图像输入、mask 输入、无 prompt 输入,让模型「看到」更多泛化场景;其次,引入同等性褒奖模型,重点提升天生结果同等性,让希望添补的区域和非添补区域更加的和谐;然后,引入渐进式的分阶段对抗演习策略,在不丢失模型性能条件下实现速率的提升。
(https://byte-edit.github.io)

针对 ID 保持,豆包视觉团队提出了 PuLID,通过引入一个新的演习分支,在演习中加入了比拟对齐丢失和更精确的 ID 丢失,让 ID 适配器学习如何在注入的 ID 信息的同时,减少对原模型行为的毁坏,从而在担保较高 ID 相似度的同时,兼顾编辑能力、风格化能力以及画面质量等方面的效果。
(https://www.hub.com/ToTheBeginning/PuLID)

针对 IP 保持,豆包视觉团队提出了一种「参考图 IP - 文本」解耦掌握的通用场景 IP 定制化天生方法 RealCustom,对付任意开放域物体或人物 IP 均可实现无需微调的实时定制化天生。
(https://corleone-huang.github.io/realcustom/)

「更强模型、更低价格、更易落地」

短短两年内,AI 在图像天生上的持续进步,冲破了长期存在的专业门槛,让任何人都可以创造出高质量的视觉作品,带来了一场前所未有的革命。
豆包大模型的图像天生能力,已经为字节跳动旗下多个运用供应技能支持,包括抖音、剪映、醒图、即梦、豆包、星绘。
对付大众来说,AIGC 已经实实在在地改变了生活。

但从企业用户的角度来说,这些最前沿的技能仍旧存在一些运用壁垒,涉及数据、人才、算力等多方面成分。
对付各行各业的用户来说,纵然有了强大的开源模型可供选择,也须要办理打算资源、专业知识、模型微调等方面的寻衅。

本钱的全方位降落,才是推动大模型真正实现代价创造的关键成分。

自发布以来,豆包大模型正在通过火山引擎源源不断地向千行百业输出技能能力,推动大模型技能实现更广泛深入的行业落地。

目前,包括豆包・文生图模型和豆包・图生图模型在内,豆包大模型家族的成员数量已经达到了 10 个。
这些针对运用处景细分的模型都会上线火山方舟,开放给火山引擎的浩瀚企业客户互助共创。

飞速增长的利用量,也在帮助豆包大模型持续打磨自身能力。
自 2024 年 5 月 15 日豆包大模型发布至今,短短两个月内,均匀每家企业客户的日均 tokens 利用量已经增长了 22 倍。

豆包大模型家族「集体照」。

同时,火山引擎供应了更丰富的核心插件、更强大的系统性能以及更优质的平台体验,企业可根据自身业务场景需求灵巧选择、快速落地。
比如,依赖豆包・图生图模型,客户利用几张图片即可演习专属的数字分身。

在很多情形下,价格仍旧是客户的紧张考虑成分。
火山引擎正是率先将最强模型版本贬价的行业先行者,以更强模型、更低价格知足企业繁芜业务场景需求,真正推动大模型落地。

凭借充足 GPU 算力资源池,并通过潮汐、混部等办法,实现资源的高利用率和极致降落本钱,纵然是在大模型价格战越来越激烈的未来,火山引擎所供应的大模型做事仍旧保持着绝对吸引力。

中国公司正在开启大模型竞争的下一章

轰轰烈烈的百模大战之后,海内外的大模型快速呈现。
只管有 OpenAI 等一系列强大的竞争对手,但豆包大模型还是杀出了自己的一条路。

过去一段韶光,人们喜好评论辩论国产大模型技能的追赶。
从「追赶」到「媲美」,很多中国团队只用了一年、半年韶光,这个中也包括豆包大模型团队。

短韶光内跻身图像天生这条赛道的上游,与豆包大模型团队在研发和人才方面的投入密不可分。
近几年,越来越多顶尖大模型人才的加入,纯粹极致的技能研究氛围,大规模的研发资源投入,都是造诣豆包这一国产大模型代表作的主要成分。

特殊是在运用处景上风的加持下,昔时夜模型被「用起来」的这天,人们看到了中国大模型走进千行百业时的充足「后劲」。

可以期待的是,大模型这条赛道的竞争正在开启新篇章,而在新的章节里,国产大模型将有机会书写更加浓墨重彩的一笔。