量子位 | 公众年夜众号 QbitAI

家人们,咱便是说,又被国产AI作画给狠狠惊艳到了!

不仅是在AI作画的审美水平和专业度上达到顶尖水平,更是把用户们的“福利值”直接拉满的那种:

免费,在线可用,易上手,画小姐姐特殊方便(bushi)!

当AI有了审美灵魂作画已经真假难辨了划重点免费

话不多说,直接来欣赏一组照片:

如果不说是AI天生的,相信很多小伙伴会以为是俊男靓女的真人写真了吧。

毕竟这根根分明的发丝、清晰可见的肤质,还有纵横交错的光影,其实是有点影楼拍照级的了。

就算是冲破次元壁,在二次元的作画处理上,每张图也都是达到了“拿来即用”的水平:

这便是来自商汤科技最新升级的AI文生图领域的预演习模型——秒画Artist v0.3.5 版本,而且还是时隔仅3个月迭代出来的新版本。

我们知道,预演习对付提高模型的泛化性帮助很大,这样每每只须要少量演习和模型优化,它就能在新的下贱任务中取得出色的表现,也便是大家常日所熟习的LoRA模型。

现在市情上,很多有名LoRA模型,例如-blindbox/大概是盲盒,都是基于Stable Diffusion,添加干系数据,来进行演习,从而在某一个垂类领域可以达到非常出色的作画效果。

但是,Stable Diffusion作为泛化性支撑的预演习模型,其本身的作画效果并不会太突出。

那么秒画Artist v0.3.5作为商汤最新的预演习模型,在不额外演习LoRA模型的情形下,能达到什么样的水平呢?接下来,就让我们从各个不同领域,深入来理解一下它的真实水平。

拍照级AI作画体验实录

要想看一个AI作画的水平,首先就得主打一个方方面面,各种类型风格需得全能hold住才可。

那么接下来,就开启我们的多轮测试吧~

猜猜谁是真人

我们先来看下这两张照片,你是否能猜到哪张是真人呢?

无论是人物的表情、头发和衣物的细节,这两张都妥妥是真人模特出镜的水准。

现在我们就来公布答案——右图正是由秒画天生的AI画作。

而且提示词也是极其的大略:

中国女生,拍照风格,敦煌飞天风格,首饰细节风雅,恢伟大气

为了考验秒画是不是一贯能够输出如此高质量图片,我们连续输入提示词:

中国男孩,肖像照,黄色的花朵,白光,阳光进来,光影。

应该是完备符合光看提示词时,所脑补出来的画面了。

我们再加大难度,添加一些天马行空,但同样颇具艺术气息风格的提示词:

一位摇滚明星的肖像,全身裹着珠宝,详细的面部,杂志,奇幻森林背景,大卫·拉夏贝尔的作品,微光,月光,高渡过细照片级真实感,细节,精品,大师拍照作品。

毫无压力完成画作!
以是不丢脸出,秒画在专业拍照水平上是过关的。

利好二次元爱好者

自打AI作画火爆起来之后,二次元风格也成了考验能力的标准之一。

我们再来看下秒画在二次元上的“功力”如何。

先“投喂”几段国漫风的二次元提示词:

二次元,清朝古装男孩,漂浮和水下夸年夜的身体动态,纠缠着赤色和金色的锦鲤,超现实的油画,廷德尔效应,水点,夏天,梦幻的色彩。
光折射到水中产生虹彩反射、宝石光、超细节、廷德尔效应、最佳质量。

颇有《大鱼海棠》的味道了!
而且画质上也比普通二次元风格要精进不少。

再来:

二次元,中国古代少年将军,女性,目光锐利,轻甲,劲装,暗赤色布料,银色花纹,护肩,护腕,玉佩。

同样是妥妥可以出片儿的国漫风水准。

我们连续上难度,若是把“赛博朋克”和“中国武侠”来个混搭,秒画又该如何接招?

动漫,中国少女仿生人,3D风格脸型,紫色,战斗中,黑烟流中间,紫色烟雾环抱,符文环抱,武侠动作皮肤,精细五官,汉服机甲,投影全息显示。
中国武术动作、全息光环、荧光、丰富背景、赛博朋克、殊效、3D美术、OC渲染、超写实、写实细节、眇小细节、细致描述、未来主义、3D渲染、虚幻引擎、超高清、8K。

可以说是非常符合国漫的二次元风格,并且每幅作品都可以直接拿来当封面了有木有!

接下来,我们再大变风格,再来个lol同好们,最喜好的金克丝同人画创作:

△Prompt:金克丝,二次元,插画艺术

如何?是你心目中的金克丝吗?

再来一个童年回顾,美少女战士!

二次元,克劳德·莫奈的风格,印象派,月野兔来自漫画美少女战士,绘画,笔触。

宛如动画片的某一帧镜头,人物的眼神和表情也是非常符合提示词的哀求。

天马行空的创造力

中规中矩的作画之后,我们再来测试一下秒画的想象力。

实验电影技能,前卫电影肖像,被底片遮蔽,多层页面,低角度,胶片图像,融化,划痕,刺穿,撕裂,抽象。

不得不说,当看到这幅作品的时候,有被深深的震荡到;不论是作品的灵感亦或是妆造,都其实有点太前卫了。

再来看几组脑洞大开的未来科幻大作:

同样,依旧是被科幻与大胆的想象力所震荡。

经由多轮测试,我们可以创造,秒画Artist v0.3.5模型,作为一个根本的预演习模型,不仅保持了很好的泛化性,在画面的细节效果上也有很精良的表现,在某些垂类的作画领域,乃至可以达到与LoRA模型相媲美的效果。

与Midjourney同台竞技

在纵向看完秒画的最新能力之后。
相信很多人希望我们请出来更具寻衅性对手——Midjourney。

我们做比较的办法非常大略粗暴:同样的提示词,直接比效果。

我们第一个提示词是:

一位俏丽的他乡女子,蓬松飞扬的长发,印第安风格头饰,金属风格,逆光,皮肤纹理,废乡俗,细节感,拍照作品。

A beautiful exotic woman with long, fluffy hair, Indian style headdress, metallic style, backlight, skin texture, wasteland, sense of detail, photography.

秒画给出的作品结果如下:

Midjourney给出的效果是这样的:

不得不说,在终极效果上是难分伯仲的,都非常符合提示词哀求的意境。

再来动漫与科幻结合的比拼:

一个穿着白色服装的男人被一个巨大的圆盘包围,看起来,低角度视图,夜核风格,深青色和深赤色,机甲动漫,未来派色波,噩梦,错综繁芜。

A man in a white costume surrounded by a huge disc, looks, low angle view, nightcore style, dark cyan and crimson, Mecha anime, futuristic color wave, nightmare, intricate.

秒画的输出结果如下:

而Midjourney从不同角度给出了它的“理解”:

单单是在这个“题目”上,个人更方向于秒画的作品,构图和意境相对更加完善一些。

末了前卫抽象派的水平:

抽象的脸,拼贴。

an abstract face, collage style.

△左:秒画;右:Midjourney

那么对付二者的比较,你以为谁更胜一筹呢?

不过在实用性上,秒画单是在免费这一条上,应该算是更胜一筹了。

实在秒画作为预演习模型,在这样的对标比拼中能够展现这样的作画能力,已经十分令人惊喜。

我们还理解到,用户可以基于秒画Artist v0.3.5 模型进一步演习小模型的功能,目前已经在B端开放运用了,这样企业可以基于秒画的能力,演习打磨自己的专属模型。

也让我们期待这一功能面向C端开放,让秒画能够进一步开释全部实力。

如何“食用”?

在操作上,秒画也是非常的好上手。

在官网注册上岸之后,直接点击“开始创作”,即可开启AI作画之旅。

根据自己的须要,选择自行选择商汤自研大模型(Artist)或各种社区开源模型,也可根据风格方向自行LoRA模型。

在图生图界面,新版本的秒画还将ControlNet这一宝藏工具进行了整合,用户无需跳转,直接在“图生图”功能下即可利用,进阶创作更快捷。

是不是很大略?

如果大家灵感枯竭,也可以点击“灵感广场”,进行“充能”哦。

例如,搜集了用户诸多优质作品,包括完全的提示词,可以在灵感枯竭的时候“充能”。

并且在模型与数据集的选择上也并非单一不可改,在主页的上方菜单栏中即可进行选择。

不丢脸出,秒画在用户体验上也是主打的一个“方便易懂”。

怎么做到的?

正如我们前文提到的,秒画3.5的版本迭代,仅仅耗时3个月。

而追溯到更早的版本,秒画也在不断发展:

2023年1月:秒画Artist v0.1.0模型,内测上线。
2023年4月:秒画Artist v0.2.0模型,正式上线,是商汤首款基于14亿参数文生图模型打造的C端运用。
2023年7月:秒画Artist v0.3.0模型,参数量提升至70亿,并采取全新的天生模型架构。
2023年10月:带有全新美学勾引算法的,秒画Artist v0.3.5模型,正式公测。

可以看到,近乎是每3个月便有一次版本的更新。

随之而来的一个问题便是:怎么做到的?

实在早在半年前,商汤站在AIGC新时期下,环绕数据、算法和算力三要素给出了一个新公式:

打算量(GPU数量 x 运行韶光 x 并行效率 )= 模型参数量 x 处理数据量。

这个公式侧重表示的是大数据和大算力方面的发力,但除此之外,我们创造商汤实则在算法方面也做了不少的事情。

据理解,秒画的预演习模型是由商汤科技基模型研究团队支撑完成。

过去的几年中,商汤在大模型构造设计、演习优化、平台和数据、算力等领域都有长期的深耕与投入,有架构设计和优化方面的丰富履历和积累。
不但储备了超过50亿的有效图文数据,更揭橥10+干系论文。

例如在上半年提出的RAPHAEL算法,便是通过探究天生模型的内在性子,设计更高效的稀疏架构来强化文本理解和天生能力。

大略来说,这项技能是通过堆叠数十个“多专家模型”( Mixture-of-Experts,MoEs),包括空间维度和韶光步维度等等,从而实现从网络输入到输出的数十亿个扩散路径。

而这些个路径,每个都可以视为一个“画家”, 用扩散韶光步长将特定文本观点描述到指定图像区域上。

△基于RAPHAEL的天生效果图

从综合实验上来看,RAPHAEL在图像质量和美学吸引力方面已经优于当时浩瀚的尖端模型。

在此之后,商汤还在根本文生图预演习模型方向进一步探索更高效的根本网络架构、大规模演习优化算法、美学算法勾引架构设计、空间感知的动态文本尺度掌握等算法,提升AI作画的天生质量和能力。

在这般努力之下,也就有了我们目前看到的秒画3.5版本了。

总而言之,有大数据、有大算力、有大模型,算法技能也在不断优化,商汤能够让秒画每三个月做到版本迭代就不难明得了。

末了,秒画的地址放下面了,感兴趣的小伙伴可以开启高质量、免费的AI作画之旅了~

秒画入口:https://miaohua.sensetime.com/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态