AI生图可量身定制了华为清华打造个性化多模态生成方法PMG

量子位 | "大众年夜众号 QbitAI

苹果OpenAI官宣互助，GPT-4o加持Siri，让AI个性化天生赛道热度飙升。

实在，海内已有干系研究，一项基于大模型的个性化多模态内容天生技能，直接可让AI学会为用户“量身定制”输出。

例如在谈天软件中天生表情包，输入都是：

AI生图可量身定制了华为清华打造个性化多模态生成方法PMG

我通过了，很愉快！

配备了个性化天生技能的谈天软件可以识别当前用户想表达的感情并考虑用户的个性化偏好，自动天生表情库里没有的多个笑脸猫表情候选供用户点击利用：

△图1 个性化天生能够天生符合用户偏好的表情包

比较而言，非个性化天生不会考虑每个用户之前的行为偏好，对用户无差别对待，就没那么懂用户了。

这项最新技能名为PMG（Personalized Multimodal Generation），由华为与清华大学联手打造。

PMG不仅限于即时通信软件，还可以广泛运用于电商、在线广告、游戏、创作赞助等领域，实现个性化背景、人体形态、颜色、表情、角色等内容的天生。

比如根据用户历史偏好提取关键词，天生T恤设计图：

PMG是如何做到个性化天生的？

PMG长啥样？

以个性化天生《泰坦尼克号》电影海报为例，下图展示了PMG的模型构造。

△图2 PMG的模型构造

用户的不雅观影和对话历史作为用户历史行为，电影泰坦尼克号真实的电影海报作为目标物品。
研究团队利用大措辞模型的推理能力，从用户历史行为中提取用户偏好。

详细包括两部分：

通过冻结的大措辞模型天生自然措辞的显式关键词表达用户偏好，称为“显式（硬）用户偏好”，例如图中用户喜好灾害、惊悚片；通过可演习的大措辞模型天生的隐式向量，称为“隐式（软）用户偏好”，用来补充表达难以用少数关键词描述的偏好。

同时，他们将目标物品也通过大模型转换为显式关键词（称为“目标物品关键词”）作为目标项的描述信息。

终极，天生器（例如扩散模型或多模态大措辞模型）通过整合和加权用户偏好和目标项关键词来天生既反响用户个性偏好、又符合目标物品的多模态内容，例子中为更具有灾害、惊悚风格的泰坦尼克号电影海报。

全体过程中有三个关键技能点：关键词天生、隐式向量天生、用户偏好和目标项的平衡。

下面我们逐一来看。

关键词天生

首先须要布局提示词辅导大模型将用户偏好提取为关键词，该提示词紧张包含三个组成部分：任务指令p、属性ai和任务示例e。

这些组件是针对每个场景人工设计的。

个中，任务指令p描述了须要大措辞模型实行的任务，即“提取用户偏好”。

属性a=[a1,a2…]针对每个场景进行了定制，例如对付服装可以是“颜色、材质、形状”，对付电影可以是“类型、地区、导演”等等。

在每个问题中，大措辞模型被指派回答与特定属性干系的用户偏好，并将这些答案进行组合。

示例e供应了期望的输出格式和示例关键词（例如“可爱”、“卡通”等），不仅有助于辅导模型的回答，还使其遵照了标准化的输出格式，从而便于从天生的输出中提取关键词。
利用这个提示，可以将模型为属性ai天生的用户偏好关键词kpi表示为：

接下来，将每个属性的输出组合起来，并肃清重复项，得到用户偏好关键词kp：

天生目标项目关键词kt的过程类似，但只有一个目标交互物品ht和相应的总结信息xt，同时在这种情形下，没有涉及到对话，其天生过程可以表示为：

隐向量天生

利用提取出的用户偏好关键词kp和目标项关键词kt，已经可以用于后续多模态内容天生，然而，作为一种离散化形式，自然措辞表达能力有限。

另一方面，利用连续的隐向量能供应更丰富和精确的表示却须要大量的演习资源。
因此我们采纳以关键词为主，隐向量为辅两者结合的办法表征用户偏好，这些用户偏好向量有助于办理自然措辞与实际用户偏好之间的不匹配问题，其演习过程如图3所示。

△图3 用户偏好向量演习流程

在用户行为与提示词的根本上，研究团队引入P-Tuning V2微调的偏差校正大模型，在个中利用额外长度为L的多模态表征M=[m1,m2…mL]来学习多模态天生能力。

这些多模态表征会被通报给大措辞模型，并且它们在向量层中的对应参数是可演习的。

同时按照P-Tuning V2的方法，在每个Transformer层的自把稳力机制中，将S个可演习的前缀向量t=[t1,t2…tS]前置到向量序列中。
偏差校正大模型正向传播操作的结果输出向量可以表示为：

个中Eprompt和Em表示大措辞模型的两部分输出，个中多模态表征的输出Em被作为偏好隐向量用于后续多模态内容的天生过程。
天生器结合偏好隐向量、用户关键词天生的多模态内容会与监督旗子暗记打算MSE丢失，并反向传播到偏差校正大模型中的可演习参数中进行演习。

用户偏好和目标项的平衡

在天生推理过程中，须要同时结合用户偏好和目标项。

然而，天生器每每具有较大的随机性，大略地组合可能导致对某一个条件的过度侧重，而忽略了另一个条件。
为理解决这一问题，研究团队利用天生内容与偏好关键词之间的相似度来衡量个性化程度，称之为“个性化水平”。

同样地，天生结果与目标项关键词的相似度称为“准确度”，即目标契合指标。

通过这两个指标，可以从两个角度量化衡量天生效果。

这两个指标的打算办法为利用预演习的多模态网络（如CLIP），将天生结果M和关键词kp、kt转换为向量eM、ep、et，打算它们之间的余弦相似度，作为个性化水平dp和准确度dt。

末了，优化目标为最大化dp和dt的加权和：

超参数α常日设置为0.5，可以根据利用场景和需求进行调度，以实现不同程度的个性化。

考虑到当前多模态天生用具有强大的并行天生能力，研究团队利用多个预定义的权重凑集wp、wt进行天生，并选择得分z最高的一个作为最终生成结果。

PMG效果如何？

研究团队通过以下三个运用处景来验证PMG：

在电商运用中以服装图片天生为例，根据用户历史点击的产品，天生服装的个性化图像。
研究团队采取了一个多模态的时尚服装数据集POG，用于演习和评估。
在电影海报场景，根据用户不雅观影历史，天生个性化电影海报。
采取MovieLens数据集进行演习和评估。
在表情天生运用中，根据用户的对话和表情利用历史，天生个性化表情符号。

利用Llama2-7B作为根本的大模型进行了实验，天生效果如下图所示。

在每个场景中，PMG都能够天生反响用户偏好的个性化内容。

它可以为男性和女性天生不同风格的服装图片：

△图4 服装场景天生效果

为喜好卡通片的不雅观众天生卡通版电影海报：

△图5 电影海报场景天生效果

为喜好小动物的用户天生小猫表情包：

△图6 表情包场景天生效果

研究职员利用POG和MovieLens数据集对服装和电影海报这两个场景进行了量化评估。

评估办法是通过图像相似度指标LPIPS和SSIM打算天生结果与用户交互历史以及与目标物品图像之间的相似度，从而衡量其个性化程度以及与目标物品的符合程度。

PMG在这两个指标上都表现出色，测试结果如下表：

此外，研究职员展示了对偏好隐向量的Case Study剖析。

当只供应关键词“鞋子，卡通”时，有一定可能形天生鞋子的卡通风格画。
然而，在加入偏好隐向量后，模型始终生成带有卡通图案的逼真鞋子。

如下，左图为仅利用关键词天生，右图为同时利用关键词和隐向量进行天生。

△图7 偏好隐向量的Case Study

研究团队通过用户调研对该技能进行了评估，结果显示，PMG天生的内容得分远高于非个性化天生内容。

末了，团队表示，个性化多模态天生技能目前处于早期探索阶段，近期重量级的OpenAI与苹果Siri互助的核心竞争力之一便是通过Siri的用户数据来让AI天生加入个性化，个性化多模态天生技能将成为AI的关键热点趋势。

我们相信这项技能将在未来拥有广阔的运用前景和巨大的商业潜力，很快迎来爆发式增长。

论文链接：https://arxiv.org/abs/2404.08677代码链接：https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

每期AI知识网

AI生图可量身定制了华为清华打造个性化多模态生成方法PMG

满分车主2023年交管12123驾照学法减分题库附含谜底

关于数字化和人工智能中信出版今天宣告了却果和筹划