量子位 | "大众号 QbitAI

大厂们在整活方面开始卷起来了!

前脚字节阿里的工具火了,现在腾讯这个新照片天生运用PhotoMaker直接刷屏,瞧这阵仗……

只需上传一张或以上照片,无需额外LoRA演习,就能快速可定制。
任何人、任何风格,高保真那种。

鹅厂最新AI对象刷屏杨幂寡姐多风格写真秒秒钟生成LeCun点赞

于是秒秒钟,LeCun化身钢铁侠。
但随后LeCun转揭橥示:那个文艺复兴期间的绘画风格是他最喜好的。

杨幂各种风格写真爆出。

除此之外,还有更多故意思的功能,目前运用Demo已免费开放体验。

这就来提前体验一把。

PhotoMaker刷屏

总结来看,PhotoMaker紧张有这样三大功能:

第一个,可以根据描述天生多种风格个人照片。

比如,你见过这样的黑寡妇吗?

便是在二次元里也行的照片,也可以天生。

第二个,稠浊不同人物特色,天生全新人物形态。

脑洞大开一下,奥特曼和乔布斯“生”的孩子,可能长这样???

乃至还可以破次元结合!

除此之外,还有一些小细节的功能,修正个年事、性别以及照片年代啥的。

小时候的马斯克,你见过吗?

当LeCun变成几十岁大妈……

目前,研究团队给了两个体验版本:官方原版以及风格化版本。
个中风格化版,要想实现更好的效果,仅须要变动根本模型并添加LoRA模块。

不过这两个版本食用起来没有任何差异,紧张分为三个步骤。

首先,上传你想定制的照片。
一张可以,多张也行。

值得把稳的是,他们这里强调了,他们不会进行人脸检测,但上传的图片人脸已经要霸占图片大部分。

其次,输入笔墨提示,确保在要定制的种别词后面加上触发词:img。

如:男人 img 或女人 img 或女孩 img。

然后再选择喜好的样式、风格模版,就可以天生了。

不过现在实测,效果会出的比较慢,可能是太多人利用了。

如何实现?

大略来说,PhotoMaker采取了一种大略而有效的表示方法——堆叠ID嵌入。

它可将多个身份证明(ID)图像的信息合并成统一的数据构造,这样能更好保存单个ID信息的同时,还能整合多个不同ID特色。

详细而言,首先,分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
然后,通过合并相应的种别嵌入(比如性别)和每个图像嵌入,提取领悟嵌入。
接着,沿长度维度串联所有领悟嵌入,形成堆叠ID嵌入。
末了再将其输入到Diffusion Model天生图像。

由于演习过程须要利用按ID分类的数据集,但现有数据集要么没有注释ID信息,要么所包含的场景丰富度有限,比如只关注面部区域。

为此,研究职员还专门构建了一个以ID为导向的文本图像数据集构建管线,它能按照不同ID进行分类。
每个ID都有多幅图像,这些图像包括不同的表情、属性、场景等。

须要把稳的是,虽然演习过程中利用的是带背景遮蔽的同一ID图像,但在推理过程,可直接输入不同ID、且不带背景遮蔽的图形,来创建新ID。

实验结果表明,与其他方法比较,PhotoMaker具备高质量和多样化的天生能力,以及可编辑性、保真性。

此外,这一方法还能实现更多以往难实现的有趣功能。
比如改变年事或性别、将旧照片或艺术作品中的人物还原到现实中以及身份稠浊等。

好了,感兴趣的朋友可戳下方链接玩玩~https://huggingface.co/spaces/TencentARC/PhotoMakerhttps://huggingface.co/spaces/TencentARC/PhotoMaker-Style论文链接:https://arxiv.org/abs/2312.04461项目链接:https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

— 完 —

量子位 QbitAI · 头条号

关注我们,第一韶光获知前沿科技动态