实测腾讯AI文生图王者光彩画风一键直出小轨范就能玩

鹅厂大模型，又有新玩法！

发布不到两个月，腾讯混元大模型就速通了一个新版本，除了措辞模型升级以外，还悄悄上线了AIGC最火热的功能——

文生图。

和措辞模型一样，文生图同样可以通过微信小程序直接体验。

实测腾讯AI文生图王者光彩画风一键直出小轨范就能玩

不过与Midjourney独立出图不同，混元的文生图和对话功能“互不延误”，可以边聊边画，与DALL·E 3体验相似。

之前已经申请测试通过的，可以急速冲了~

还在排队中的也别急，我们已经快速实测了一波热图，这就先放出来给大伙儿看看。

混元文生图上手实测

根据腾讯先容，混元大模型文生图最大的上风在三处：真实感、中文理解、风格多样。

接下来就挨个试试它做到了什么程度。

先来画人，复刻一波之前爆火过的Midjourney“写实90年代北京情侣”看看。

请输出一张拍照风的照片，在20世纪90年代的北京，一个男性和一个女性，面带微笑，坐在屋顶，穿着夹克和牛仔裤，有很多的建筑物，真实感
可以看出，写实风格的人像还是很拿手的，人物姿态合理，画亚洲人脸与国外AI相也比较自然。
把稳这里有个小技巧，想要写实风格的话最好用“天生一张……”来触发，如果用“画一张……”大概率会得到插画风格。
写实风格的人像可以，再看看画风景如何。
除了一样平常的风景描述，混元大模型支持指定一个真实存在的景点，比如“桂林山水”或“长城”。
毕竟是AI天生，和真实景不雅观不会完备一样，但觉得还是到位了。
接下来要上难度了，把这两个场景“组合”起来：
天生一张桂林山水，但是岸上有长城，拍照风格，真实感，高度细节。
这么离谱的需求都画出来了，乃至水面还有水波，看来不是大略地重现演习数据，而是对观点有一些自己的理解。
那么更繁芜的观点如何？
曾经，AI因不理解中文菜名闹过一波笑话。
经由这半年的发展，“红烧狮子头”里不会涌现狮子的头，“夫妻肺片”里也不会变成胆怯片了，乃至看着还挺喷鼻香。
要说比菜名更有寻衅的，就到了古诗词，恰好写实风格也看腻了也可以换换口味。
天生一张图片：孤舟蓑笠翁，独钓寒江雪，水墨画风格。
总得来说还不错，美中不敷之处在于一张图没有“舟”，还有一张舟上坐了两个“翁”，就没有孤独的意境了。
看来诗词这种过于凝练的还是有难度。
But，别忘了混元助手同时拥有谈天对话能力，还支持多轮对话。
借助强大的措辞模型部分，我们也找出办理办法。
接下来只需用“这些哀求”、“上述哀求”来指代上面的回答，就可以让两个功能联动起来了。
再画就会更稳定，而且增加了雪花飘落的细节。
记住这个小技巧，接下来还会用到。
其实在腾讯混元助手中，专门准备了这样一个存为指令的功能。
存好后就可以从对话框右边的邪术棒图标处快速调用了，只须要变动要描述的内容即可。
还可以方便地一键分享到微信，4张图一次分享让好友帮忙选，不用来回截图了。
直接打开分享链接，就可以放大查看四张图，还可以开始新对话！
理解过混元大模型的中文理解能力，再来试试末了一个特点风格多样性。
既然是腾讯出品，游戏插画肯定少不了，比如正火的赛博朋克风。
有点觉得了，但总以为还差点意思。
可以用上面的技巧来，联动措辞模型来明确赛博朋克风格的特点。
再手动加亿点点料，就更对味了。
不同游戏的画风差距极大，测试下来混元助手确实能hold住不少，从3D到2D乃至像素都没问题。
纵然是同一话题和风格限定，也能展现出不同的画风，Furry控狂喜（doge）
实在腾讯透露，内部多个场景已经用上了混元大模型文生图能力。
虽然还不知道详细怎么利用，但是我们测试了一下用《王者光彩》来看成风限定词，混元也能理解。
除了游戏之外还有广告场景，前面提到的混元大模型文生图真实感的上风就能发挥出来。
也别忘了腾讯还有一大块内容业务，来个玄幻小说插图也没问题。
这样的文生图效果，背后究竟是通过什么事理实现的？
在此之前，业界实在已经有不少文生图的开源模型。
腾讯是基于个中某种方案打造，还是重新进行的自研？
带着各类问题，我们和腾讯混元大模型文生图技能卖力人芦清林聊了聊，理解了一下背后的技能细节。
模型全自研，用20亿+图文对炼成
“从算法、数据系统到工程平台，都是从0到1自研。
”
芦清林表示，这也算是腾讯混元大模型文生图功能的上风，这样从天生自由度到数据安全性，就都能完备把控，也让天生的图像“更符合用户需求”。
首先是在算法这一块。
当前文生图模型普遍存在三个难点，语义理解差、构图不合理、画面细节无质感。
语义理解差，便是模型听不懂人话，尤其是中英文夹杂的人话。
当前业界普遍采取的是开源的CLIP算法，然而它一来没有建模中文措辞，输入中文只能靠翻译，会涌现红烧狮子头真的天生狮子的问题（doge）；另一个是演习时图文对齐能力弗成。
构图不合理，指的是天生的人体构造、画面构造有问题，直接“生异形”。
如果直接基于业界已有的开源扩散模型天生图像，就随意马虎涌现这个问题，像是涌现“三只手”或者各种奇怪的画面构造。
画面细节无质感，便是天生图像清晰度差。
当前不少数据集图像分辨率和质量不高，随意马虎导致演习出来的开源模型质量也不高。
为理解决这三个难点，腾讯混元团队在算法阶段，特意用了三类模型组合来“逐个击破”。
语义理解上，腾讯自研了跨模态预演习大模型，不仅让它同时学会建模中英文，而且强化文本和图像细粒度特色的联系，大略来说便是中文、英文、图像三者的“跨模态对齐”。
天生构图上，腾讯自研了一种扩散模型和Transformer稠浊的架构，尤其是将Transformer当前大火的旋转位置编码研究给用上了。
旋转位置编码常日被用于增加大模型的高下文长度，不过在这里被腾讯奥妙地用于刻画人体构造，让模型既能节制全局信息（人体骨架）又能理解局部信息（脸部细节）。
末了是在画面细节上，腾讯自研了超分辨率模型，与此同时还结合了多种算法，针对图像不同的细节进行优化，让末了天生的图像进一步“耐看”。
这样做出来的模型架构，不仅能天生质量更高的图片（分辨率1024×1024），而且只须要微调一下架构，就能变成图生图、乃至是文生视频模型。
接下来，便是关键的数据部分了。
对付文生图而言，天生图像的质量，很大程度上取决于数据的质量，OpenAI在DALL·E 3论文中，通篇都在强调数据对付指令跟随的主要性。
腾讯也非常重视数据对模型的主要性，并同样自研了三方面的技能。
在数据质量上，由于互联网上扒下来的数据集，每每存在笔墨描述简洁、和天生内容不完备匹配的问题，因此团队通过改进图-文对数据集中的“文”部分，也便是细化中文的文本描述，来提升图文数据的干系性；
在数据效果上，团队针对演习数据进行了“金银铜”分层分级，等级越高，意味着数据洗濯程度越风雅。
个中，20+亿未洗濯的“青铜数据”，用来对所有模型进行“粗加工”，也便是预演习；
6亿+“白银数据”，用来对天生模型进一步加工，提升天生质量；
1.12亿+精心洗濯的“黄金数据”，则用来对模型进行“精加工”，也便是精调突击演习，确保演习出来的模型质量更精良。
在数据效率上，为了加快演习速率，尤其是针对用户反馈对模型进行优化的速率，腾讯也建立了数据飞轮，自动化构建演习数据并加快模型迭代，让模型天生准确率进一步提升。
据芦清林透露，数据飞轮这个技能，也正是办理数据长尾场景难题的关键。
由于我们的生活中总是在涌现一些潮流新词，例如“玲娜贝儿”等，这种名词每每在数据集中不常见，而用户又会在输入时利用，因此每每须要第一韶光更新进演习数据中。
有了数据飞轮，就能将这个过程效率进一步提升，避免模型在见识到新词后，依旧永劫光无法天生对应的图像。
末了，有了算法和数据，还得有个工程平台，来把它们组合起来快速演习。
为此，腾讯自研了Angel机器学习平台，包括演习框架AngelPTM和推理框架AngelHCF。
演习上，大模型最主要的便是并行能力。
为此，腾讯基于4D并行+ZeROCache机制，实现了千亿参数混元大模型的快速演习。
直不雅观来看，AngelPTM演习框架比较业界主流框架DeepSpeed-Chat速率提升了1倍以上。
推理上，AngelHCF则实现了支持多种并行能力、支持做事支配及管理、以及自研模型无损量化三大功能，比较业界主流框架提升了1.3倍以上。
值得一提的是，在Angel机器学习框架和平台的支持下，腾讯混元的措辞模型也进行了一轮升级，尤其是代码能力有不小的提升。
我们也大略测了测腾讯混元大模型更新后的代码能力。
首先试试写代码，以帮老师写一个“随机点名程序”为例（手动狗头）。
混元大模型很快天生了一段带注释的完全代码：
import random# 假设班级里有50个学生，这里是他们的学号student_ids = ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010', '011', '012', '013', '014', '015', '016', '017', '018', '019', '020', '021', '022', '023', '024', '025', '026', '027', '028', '029', '030', '031', '032', '033', '034', '035', '036', '037', '038', '039', '040', '041', '042', '043', '044', '045', '046', '047', '048', '049', '050']# 利用random.choice()函数从学生学号列表中随机选择一个学生random_student_id = random.choice(student_ids)# 打印随机选中的学生学号print("随机抽取的学生学号是:", random_student_id)
实测可以丝滑运行，每次都能抽到不同的幸（dao）运（mei）儿（dan）起来回答问题：
然后我们还创造，混元大模型竟然还能帮忙查代码bug，属实是程序员省心利器了。
当然，无论是文生图还是代码能力，现在都已经可以在腾讯混元助手中体验。
感兴趣的小伙伴，可以到腾讯混元助手排个队或是体验一把~
— 完 —
量子位 QbitAI · 头条号签约
关注我们，第一韶光获知前沿科技动态

每期AI知识网

实测腾讯AI文生图王者光彩画风一键直出小轨范就能玩

5S教会你黑金色调教程简单易懂易上手

AI绘画壁纸多彩羽毛高清艺术彩色4k超清画质

每期AI知识网

实测腾讯AI文生图王者光彩画风一键直出小轨范就能玩

5S教会你黑金色调教程简单易懂易上手

AI绘画壁纸多彩羽毛 高清艺术彩色4k超清画质

AI绘画壁纸多彩羽毛高清艺术彩色4k超清画质