作为比拟,我们还其余找了两位分外选手进行比拟评测
百度 文心一言4.0 Turbo(每3小时免费供应100次问答)OpenAI ChatGTP GTP-4o(每天供应2次免费图像天生)参评比手字节 豆包阿里 通义千问腾讯 元宝百度 文心一言3.5智谱 清言讯飞 星火百度 文心一言4.0OpenAI ChatGTP GTP-4o评分标准:满分100分一次天生完备符合描述的图片:5分
多次天生后完备符合描述:4
多次天生后仅部分符合:2分
部分
分数
1. 图像质量
15
2. 文本与图像的语义同等性
15
3. 多样性
15
4. 鲁棒性
15
5. 天生速率
5
6. 模型可控性
15
7. 主不雅观体验
10
8. 软件易用性
5
9. 第一次天生准确率
5
总分
100
1.图像质量评测(总分值:15分)
我们首先测试了各模型天生图像的基本质量,包括图片的清晰度、细节丰富性以及是否靠近真实场景。设定了以下三个场景:
大略场景:
输入文本:“一片晴朗的蓝天,中心有一朵白云。”(分值:5分)在这一场景下,豆包、通义和元宝表现最佳,天生的图像符合描述。而文心3.5、清言和星火天生的图片更像多云的晴天,没有突出中心的那朵白云。多次天生后,星火虽然有所改进,但云的形状显得不自然,与周围的云层不折衷。
繁芜场景:
输入文本:“夜晚繁忙的城市街道,路灯和霓虹灯照亮着街道,车流和人群川流不息。”(分值:5分)这里,除文心3.5外,其他模型都成功天生了符合描述的场景。文心3.5天生的图片表现较差,未能展现出繁忙的街道场景。
细节哀求高的场景:
输入文本:“一只赤色苹果的特写,上面有一片绿叶,表面有水点。”(分值:5分)在这个场景中,文心3.5没有天生带有水珠的苹果,而清言只天生了苹果局部,无法表示完全特写。
第一轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
15
15
15
6
9
12
2. 文本与图像的语义同等性评测(总分值:15分)
此轮测试中,我们输入了一些从大略到繁芜的描述,查看各模型天生的图像是否符合文本的语义。
大略描述:
输入文本:“一只在绿地上奔跑的棕色狗。”(分值:5分)所有选手在这一场景下都天生了符合哀求的图片。
包含详细细节的描述:
输入文本:“一只蓝眼睛的白猫坐在赤色靠垫上,靠垫阁下的窗外正下着雨。”(分值:5分)在这一场景中,通义、文心3.5和星火的表现不佳,天生的图像未能完备符合描述,要么眼睛颜色禁绝确,要么没有下雨的场景
繁芜描述:
输入文本:“一座未来城市的景象,有翱翔的汽车,高耸的玻璃建筑反射着夕阳的光辉,透明的人行道上有人行走。”(分值:5分)这一场景的第一次天生中,只有豆包的结果完备符合描述。通义和元宝经由第二次天生勉强符合,其他模型多次考试测验后仍未天生符合的图片。
第二轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
15
11
14
9
12
9
3. 多样性评测(总分值:15分)
测试模型对同一输入文本的多次天生是否存在多样性,避免每次天生的图像过于相似。
同一输入多次天生:
输入文本:“秋日的森林中一间小木屋,周围是五彩缤纷的树叶。”(分值:5)豆包、通义、元宝、文心3.5、清言、星火:5分
相似输入的比拟:
输入文本1:“一处山间风景,河流穿过山谷。”(分值:5分)输入文本2:“一处山间风景,山谷中有一个小湖,湖面反射出周围的山峰。”(分值:5分)在这三个场景的测试中,大部分模型都展示出了较好的多样性表现。文心3.5在天生缺点时须要重新开始对话,导致体验有所低落。
第三轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
15
15
15
14
15
15
4.鲁棒性评测输入事例(总分值:15分)
在这一轮中,我们输入带有拼写缺点、不完全句子以及繁芜描述,查看模型是否能够应对出错的情形,天生合理的图像。
拼写缺点或不完全输入:输入文本:“一只蓝色的蝴d飞行在一片花海上。”(包含拼写缺点:蝴d)(分值:5分)
各模型对拼写缺点的处理都较好,能够自动纠正并天生合理图像。
不完全句子:输入文本:“一个人站在大树下,穿着...”(不完全描述)(分值:5分)
各模型对不完全句子的处理也都较好,能够自动天生默认的合理图像。
繁芜文本:输入文本:“一个穿着闪亮盔甲的中世纪骑士站在沙场上,手持大剑,背景中有一座城堡,头顶上是乌云密布的天空。”(分值:5分)
对付繁芜场景,只有豆包天生的结果完备符合描述,别的模型天生的图像偏离了沙场场景。
第四轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
15
12
12
12
12
12
5.天生速率评测(总分值:5分)短文本:输入文本:“一朵红玫瑰。”长文本:输入文本:“一群人在大公园里享受野餐,有孩子在玩游戏,大人们在交谈,食品铺在大树下的一张大毯子上。”评分标准
天生速率
得分
5s以内
5
5s-10s
4
10s-15s
3
15s-20s
2
20s-30s
1
大于30s
0
分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
天生速率
10s
18s
15s
8s
8s
9s
天生速率
9s
19s
12s
9s
10s
10s
终极得分
4
2
3
4
4
4
6.模型可控性评测(总分值:15分)
我们测试了颜色、场景布局和风格掌握,不雅观察模型是否能够根据描述准确天生不同的风格和布局。
颜色掌握:(分值:5分)输入文本1:“日落时分,海面上方的天空被染成橙色和粉色。”输入文本2:“日落时分,海面上方的天空被染成紫色和赤色。”在颜色掌握方面,各位选手的表现都非常出色,能够精准地天生符合颜色描述的图像。
场景布局掌握:(分值:5分)输入文本1:“一个摆放了两人餐具的餐桌,桌子中心有一瓶花。”输入文本2:“一个摆放了两人餐具的餐桌,桌子中心有一根烛炬。”
场景布局方面,大多数模型能够较好地把控布局的细节,不过豆包在天生时,默认一次天生四张图,结果导致部分图片包含了三到四套餐具,不完备符合哀求。文心3.5、清言和星火则涌现了无法准确天生符合描述的布局。
风格掌握:(分值:5分)输入文本1:“一个现实主义风格的女人肖像。”输入文本2:“一个抽象的、立体主义风格的女人肖像。”
风格掌握方面,虽然有一些用户提出通义和文心3.5的输出在抽象立体主义上可能稍有偏离,但在评测过程中,大家对这两位模型的表现给予了认可,因此在风格评测上,所有模型均记满分。
第六轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
14
14
14
12
12
12
7.主不雅观用户体验评测(总分值:10分)用户感兴趣的场景:输入文本:“一个温馨的客厅,有壁炉,书架上摆满了书,大窗户外能看到雪景。”(分值:5分)
在这一场景中,大部分模型都成功天生了包含壁炉、书架和雪景的温馨客厅,但文心3.5始终未能天生出带有壁炉的画面。
个人风格化的输入:输入文本:“一个沉着海滩的画作,有棕榈树在风中摇荡,用水彩风格描述。”(分值:5分)在这个场景下,各大模型的表现都很精良,所有天生的图像都符合水彩风格的描述。
第七轮分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
10
10
10
7
10
10
8.软件易用性(总分值:5分)在软件易用性方面,豆包和星火在对话框内供应了操作提示和模板,方便用户理解模型的功能,利用体验友好。不过,星火在查看历史对话记录时不足便利。清言将功能分成多个部分,但对话框中短缺明确的操作提示。而通义、元宝和文心3.5比较之下,操作体验稍显不便,没有供应明确的提示。
分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心3.5
智谱清言
讯飞星火
得分
5
3
3
3
4
4
9. 第一次天生准确率(总分值:5分)第一次天生准确率反响的是模型在首次天生时,完备符合用户描述的概率。这个部分直接表示了模型的天生质量和语义理解能力。
评分标准
准确率
得分
100%
5
90%
4
80%
3
70%
2
60%
1
小于60%
0
分数统计
大模型
字节豆包
阿里通义
腾讯元宝
百度文心
智谱清言
讯飞星火
一次天生准确率
94%
79%
84%
53%
74%
74%
得分
4
2
3
0
2
2
终极评测分值详细统计
免费AI
付费AI
满分
评测环节
字节豆包
腾讯元宝
阿里通义
智谱清言
讯飞星火
百度文心3.5
百度文心4.0
ChatGPT
15
1. 图像质量
15
15
15
9
12
6
15
15
15
2. 文本与图像的同等
15
14
11
12
9
9
15
15
15
3. 多样性
15
15
15
15
15
14
15
15
15
4. 鲁棒性
15
12
12
12
12
12
15
15
5
5. 天生速率
4
3
2
4
4
4
3
5
15
6. 模型可控性
14
14
14
12
12
12
14
15
10
7. 主不雅观体验
10
10
10
10
10
7
10
10
5
8. 软件易用性
5
3
3
4
4
3
3
3
5
9. 一次天生准确率
4
3
2
2
2
0
4
5
100
总分
97
89
84
80
80
67
94
98
参照选手我们接下来看看参照选手的表现。
文心4.0:在所有测试场景中,文心4.0仅在一个场景中表现欠佳,即“一个摆放了两人餐具的餐桌,桌子中心有一瓶花”的场景,经由3次天生才得到了符合描述的图像。除了这一点,其它场景都在第一次天生时符合了哀求,准确率整体表现极佳,与豆包不相上下。然而,天生速率明显比豆包慢一倍。终极得分:94分。
ChatGPT(GPT-4):无论是准确性还是天生速率,ChatGPT GPT-4都表现得十分精良。天生韶光约为10秒旁边,且首次天生的图像准确率达到了100%。在图像质量上,其天生的效果肉眼可见地优于豆包,并且图像右下角没有水印。终极得分:98分。
总结
综上所述,在免费模型中,字节跳动的豆包以碾压式的上风降服了其他竞争对手,险些所有场景都能一次天生符合描述的图像,天生速率约为10秒,与收费模型文心4.0比较,豆包在性能上乃至超越了它。而在图像质量上,ChatGPT GPT-4的表现优于豆包,尤其是画质更佳且没有水印。
因此,终极推举:
免费选手:豆包完备能够知足大部分用户的需求。付费选手:若对图像质量有更高哀求,且有分外方法,ChatGPT GPT-4是最佳选择。AI文生图
缺陷
优点
ChatGPT
须要分外方法才能利用免费每天只能天生两张利用未便利天生图片准确率非常高天生速率快,须要10s旁边天生质量高没有水印,可以直策应用字节豆包
天生质量没有ChatGTP高右下角带有水印天生图片准确率较高天生速率快一次天生4张图片百度文心4.0
天生质量没有ChatGPT高右下角带有水印免费为每3小时100次对话天生速率慢,须要20s旁边天生图片准确率较高一次天生4张图片