鹅厂最新AI对象刷屏杨幂寡姐多风格写真秒秒钟生成LeCun点赞

量子位 | "大众号 QbitAI

大厂们在整活方面开始卷起来了！

前脚字节阿里的工具火了，现在腾讯这个新照片天生运用PhotoMaker直接刷屏，瞧这阵仗……

只需上传一张或以上照片，无需额外LoRA演习，就能快速可定制。
任何人、任何风格，高保真那种。

鹅厂最新AI对象刷屏杨幂寡姐多风格写真秒秒钟生成LeCun点赞

于是秒秒钟，LeCun化身钢铁侠。
但随后LeCun转揭橥示：那个文艺复兴期间的绘画风格是他最喜好的。

杨幂各种风格写真爆出。

除此之外，还有更多故意思的功能，目前运用Demo已免费开放体验。

这就来提前体验一把。

PhotoMaker刷屏

总结来看，PhotoMaker紧张有这样三大功能：

第一个，可以根据描述天生多种风格个人照片。

比如，你见过这样的黑寡妇吗？

便是在二次元里也行的照片，也可以天生。

第二个，稠浊不同人物特色，天生全新人物形态。

脑洞大开一下，奥特曼和乔布斯“生”的孩子，可能长这样？？？

乃至还可以破次元结合！

除此之外，还有一些小细节的功能，修正个年事、性别以及照片年代啥的。

小时候的马斯克，你见过吗？

当LeCun变成几十岁大妈……

目前，研究团队给了两个体验版本：官方原版以及风格化版本。
个中风格化版，要想实现更好的效果，仅须要变动根本模型并添加LoRA模块。

不过这两个版本食用起来没有任何差异，紧张分为三个步骤。

首先，上传你想定制的照片。
一张可以，多张也行。

值得把稳的是，他们这里强调了，他们不会进行人脸检测，但上传的图片人脸已经要霸占图片大部分。

其次，输入笔墨提示，确保在要定制的种别词后面加上触发词：img。

如：男人 img 或女人 img 或女孩 img。

然后再选择喜好的样式、风格模版，就可以天生了。

不过现在实测，效果会出的比较慢，可能是太多人利用了。

如何实现?

大略来说，PhotoMaker采取了一种大略而有效的表示方法——堆叠ID嵌入。

它可将多个身份证明（ID）图像的信息合并成统一的数据构造，这样能更好保存单个ID信息的同时，还能整合多个不同ID特色。

详细而言，首先，分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
然后，通过合并相应的种别嵌入（比如性别）和每个图像嵌入，提取领悟嵌入。
接着，沿长度维度串联所有领悟嵌入，形成堆叠ID嵌入。
末了再将其输入到Diffusion Model天生图像。

由于演习过程须要利用按ID分类的数据集，但现有数据集要么没有注释ID信息，要么所包含的场景丰富度有限，比如只关注面部区域。

为此，研究职员还专门构建了一个以ID为导向的文本图像数据集构建管线，它能按照不同ID进行分类。
每个ID都有多幅图像，这些图像包括不同的表情、属性、场景等。

须要把稳的是，虽然演习过程中利用的是带背景遮蔽的同一ID图像，但在推理过程，可直接输入不同ID、且不带背景遮蔽的图形，来创建新ID。

实验结果表明，与其他方法比较，PhotoMaker具备高质量和多样化的天生能力，以及可编辑性、保真性。

此外，这一方法还能实现更多以往难实现的有趣功能。
比如改变年事或性别、将旧照片或艺术作品中的人物还原到现实中以及身份稠浊等。

好了，感兴趣的朋友可戳下方链接玩玩~https://huggingface.co/spaces/TencentARC/PhotoMakerhttps://huggingface.co/spaces/TencentARC/PhotoMaker-Style论文链接：https://arxiv.org/abs/2312.04461项目链接：https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

— 完 —

量子位 QbitAI · 头条号

关注我们，第一韶光获知前沿科技动态

每期AI知识网

鹅厂最新AI对象刷屏杨幂寡姐多风格写真秒秒钟生成LeCun点赞

3D易拉罐原来高手都这样3D建模难怪不用加班

小度音箱也能控制米家产品隐藏操作确实有效

每期AI知识网

鹅厂最新AI对象刷屏杨幂寡姐多风格写真秒秒钟生成LeCun点赞

3D易拉罐 原来高手都这样3D建模难怪不用加班

小度音箱也能控制米家产品隐藏操作确实有效

3D易拉罐原来高手都这样3D建模难怪不用加班