作为比拟,我们还其余找了两位分外选手进行比拟评测

百度 文心一言4.0 Turbo(每3小时免费供应100次问答)OpenAI ChatGTP GTP-4o(每天供应2次免费图像天生

参评比手字节 豆包阿里 通义千问腾讯 元宝百度 文心一言3.5智谱 清言讯飞 星火百度 文心一言4.0OpenAI ChatGTP GTP-4o

评分标准:满分100分

一次天生完备符合描述的图片:5分

AI 图片生成免费好用的原来是它

多次天生后完备符合描述:4

多次天生后仅部分符合:2分

部分

分数

1. 图像质量

15

2. 文本与图像的语义同等性

15

3. 多样性

15

4. 鲁棒性

15

5. 天生速率

5

6. 模型可控性

15

7. 主不雅观体验

10

8. 软件易用性

5

9. 第一次天生准确率

5

总分

100

1.图像质量评测(总分值:15分)

我们首先测试了各模型天生图像的基本质量,包括图片的清晰度、细节丰富性以及是否靠近真实场景。
设定了以下三个场景:

大略场景:

输入文本:“一片晴朗的蓝天,中心有一朵白云。
”(分值:5分)

在这一场景下,豆包、通义和元宝表现最佳,天生的图像符合描述。
而文心3.5、清言和星火天生的图片更像多云的晴天,没有突出中心的那朵白云。
多次天生后,星火虽然有所改进,但云的形状显得不自然,与周围的云层不折衷。

繁芜场景:

输入文本:“夜晚繁忙的城市街道,路灯和霓虹灯照亮着街道,车流和人群川流不息。
”(分值:5分)

这里,除文心3.5外,其他模型都成功天生了符合描述的场景。
文心3.5天生的图片表现较差,未能展现出繁忙的街道场景。

细节哀求高的场景:

输入文本:“一只赤色苹果的特写,上面有一片绿叶,表面有水点。
”(分值:5分)

在这个场景中,文心3.5没有天生带有水珠的苹果,而清言只天生了苹果局部,无法表示完全特写。

第一轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

15

15

6

9

12

2. 文本与图像的语义同等性评测(总分值:15分)

此轮测试中,我们输入了一些从大略到繁芜的描述,查看各模型天生的图像是否符合文本的语义。

大略描述:

输入文本:“一只在绿地上奔跑的棕色狗。
”(分值:5分)

所有选手在这一场景下都天生了符合哀求的图片。

包含详细细节的描述:

输入文本:“一只蓝眼睛的白猫坐在赤色靠垫上,靠垫阁下的窗外正下着雨。
”(分值:5分)

在这一场景中,通义、文心3.5和星火的表现不佳,天生的图像未能完备符合描述,要么眼睛颜色禁绝确,要么没有下雨的场景

繁芜描述:

输入文本:“一座未来城市的景象,有翱翔的汽车,高耸的玻璃建筑反射着夕阳的光辉,透明的人行道上有人行走。
”(分值:5分)

这一场景的第一次天生中,只有豆包的结果完备符合描述。
通义和元宝经由第二次天生勉强符合,其他模型多次考试测验后仍未天生符合的图片。

第二轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

11

14

9

12

9

3. 多样性评测(总分值:15分)

测试模型对同一输入文本的多次天生是否存在多样性,避免每次天生的图像过于相似。

同一输入多次天生:

输入文本:“秋日的森林中一间小木屋,周围是五彩缤纷的树叶。
”(分值:5)

豆包、通义、元宝、文心3.5、清言、星火:5分

相似输入的比拟:

输入文本1:“一处山间风景,河流穿过山谷。
”(分值:5分)输入文本2:“一处山间风景,山谷中有一个小湖,湖面反射出周围的山峰。
”(分值:5分)

在这三个场景的测试中,大部分模型都展示出了较好的多样性表现。
文心3.5在天生缺点时须要重新开始对话,导致体验有所低落。

第三轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

15

15

14

15

15

4.鲁棒性评测输入事例(总分值:15分)

在这一轮中,我们输入带有拼写缺点、不完全句子以及繁芜描述,查看模型是否能够应对出错的情形,天生合理的图像。

拼写缺点或不完全输入:输入文本:“一只蓝色的蝴d飞行在一片花海上。
”(包含拼写缺点:蝴d)(分值:5分)

各模型对拼写缺点的处理都较好,能够自动纠正并天生合理图像。

不完全句子:输入文本:“一个人站在大树下,穿着...”(不完全描述)(分值:5分)

各模型对不完全句子的处理也都较好,能够自动天生默认的合理图像。

繁芜文本:输入文本:“一个穿着闪亮盔甲的中世纪骑士站在沙场上,手持大剑,背景中有一座城堡,头顶上是乌云密布的天空。
”(分值:5分)

对付繁芜场景,只有豆包天生的结果完备符合描述,别的模型天生的图像偏离了沙场场景。

第四轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

12

12

12

12

12

5.天生速率评测(总分值:5分)短文本:输入文本:“一朵红玫瑰。

长文本:输入文本:“一群人在大公园里享受野餐,有孩子在玩游戏,大人们在交谈,食品铺在大树下的一张大毯子上。

评分标准

天生速率

得分

5s以内

5

5s-10s

4

10s-15s

3

15s-20s

2

20s-30s

1

大于30s

0

分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

天生速率

10s

18s

15s

8s

8s

9s

天生速率

9s

19s

12s

9s

10s

10s

终极得分

4

2

3

4

4

4

6.模型可控性评测(总分值:15分)

我们测试了颜色、场景布局和风格掌握,不雅观察模型是否能够根据描述准确天生不同的风格和布局。

颜色掌握:(分值:5分)输入文本1:“日落时分,海面上方的天空被染成橙色和粉色。
”输入文本2:“日落时分,海面上方的天空被染成紫色和赤色。

在颜色掌握方面,各位选手的表现都非常出色,能够精准地天生符合颜色描述的图像。

场景布局掌握:(分值:5分)输入文本1:“一个摆放了两人餐具的餐桌,桌子中心有一瓶花。
”输入文本2:“一个摆放了两人餐具的餐桌,桌子中心有一根烛炬。

场景布局方面,大多数模型能够较好地把控布局的细节,不过豆包在天生时,默认一次天生四张图,结果导致部分图片包含了三到四套餐具,不完备符合哀求。
文心3.5、清言和星火则涌现了无法准确天生符合描述的布局。

风格掌握:(分值:5分)输入文本1:“一个现实主义风格的女人肖像。
”输入文本2:“一个抽象的、立体主义风格的女人肖像。

风格掌握方面,虽然有一些用户提出通义和文心3.5的输出在抽象立体主义上可能稍有偏离,但在评测过程中,大家对这两位模型的表现给予了认可,因此在风格评测上,所有模型均记满分。

第六轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

14

14

14

12

12

12

7.主不雅观用户体验评测(总分值:10分)用户感兴趣的场景:输入文本:“一个温馨的客厅,有壁炉,书架上摆满了书,大窗户外能看到雪景。
”(分值:5分)

在这一场景中,大部分模型都成功天生了包含壁炉、书架和雪景的温馨客厅,但文心3.5始终未能天生出带有壁炉的画面。

个人风格化的输入:输入文本:“一个沉着海滩的画作,有棕榈树在风中摇荡,用水彩风格描述。
”(分值:5分)

在这个场景下,各大模型的表现都很精良,所有天生的图像都符合水彩风格的描述。

第七轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

10

10

10

7

10

10

8.软件易用性(总分值:5分)

在软件易用性方面,豆包和星火在对话框内供应了操作提示和模板,方便用户理解模型的功能,利用体验友好。
不过,星火在查看历史对话记录时不足便利。
清言将功能分成多个部分,但对话框中短缺明确的操作提示。
而通义、元宝和文心3.5比较之下,操作体验稍显不便,没有供应明确的提示。

分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

5

3

3

3

4

4

9. 第一次天生准确率(总分值:5分)

第一次天生准确率反响的是模型在首次天生时,完备符合用户描述的概率。
这个部分直接表示了模型的天生质量和语义理解能力。

评分标准

准确率

得分

100%

5

90%

4

80%

3

70%

2

60%

1

小于60%

0

分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心

智谱清言

讯飞星火

一次天生准确率

94%

79%

84%

53%

74%

74%

得分

4

2

3

0

2

2

终极评测分值详细统计

免费AI

付费AI

满分

评测环节

字节豆包

腾讯元宝

阿里通义

智谱清言

讯飞星火

百度文心3.5

百度文心4.0

ChatGPT

15

1. 图像质量

15

15

15

9

12

6

15

15

15

2. 文本与图像的同等

15

14

11

12

9

9

15

15

15

3. 多样性

15

15

15

15

15

14

15

15

15

4. 鲁棒性

15

12

12

12

12

12

15

15

5

5. 天生速率

4

3

2

4

4

4

3

5

15

6. 模型可控性

14

14

14

12

12

12

14

15

10

7. 主不雅观体验

10

10

10

10

10

7

10

10

5

8. 软件易用性

5

3

3

4

4

3

3

3

5

9. 一次天生准确率

4

3

2

2

2

0

4

5

100

总分

97

89

84

80

80

67

94

98

参照选手

我们接下来看看参照选手的表现。

文心4.0:

在所有测试场景中,文心4.0仅在一个场景中表现欠佳,即“一个摆放了两人餐具的餐桌,桌子中心有一瓶花”的场景,经由3次天生才得到了符合描述的图像。
除了这一点,其它场景都在第一次天生时符合了哀求,准确率整体表现极佳,与豆包不相上下。
然而,天生速率明显比豆包慢一倍。
终极得分:94分。

ChatGPT(GPT-4):

无论是准确性还是天生速率,ChatGPT GPT-4都表现得十分精良。
天生韶光约为10秒旁边,且首次天生的图像准确率达到了100%。
在图像质量上,其天生的效果肉眼可见地优于豆包,并且图像右下角没有水印。
终极得分:98分。

总结

综上所述,在免费模型中,字节跳动的豆包以碾压式的上风降服了其他竞争对手,险些所有场景都能一次天生符合描述的图像,天生速率约为10秒,与收费模型文心4.0比较,豆包在性能上乃至超越了它。
而在图像质量上,ChatGPT GPT-4的表现优于豆包,尤其是画质更佳且没有水印。

因此,终极推举:

免费选手:豆包完备能够知足大部分用户的需求。
付费选手:若对图像质量有更高哀求,且有分外方法,ChatGPT GPT-4是最佳选择。

AI文生图

缺陷

优点

ChatGPT

须要分外方法才能利用免费每天只能天生两张利用未便利

天生图片准确率非常高天生速率快,须要10s旁边天生质量高没有水印,可以直策应用

字节豆包

天生质量没有ChatGTP高右下角带有水印

天生图片准确率较高天生速率快一次天生4张图片

百度文心4.0

天生质量没有ChatGPT高右下角带有水印免费为每3小时100次对话天生速率慢,须要20s旁边天生图片准确率较高一次天生4张图片