事先声明,我们这次评测项目的设定紧张参考C-Eval和SuperCLUE综合性测评基准。每个大模型均下载端侧App,在同一部手机、同样的网络环境下进行测试,每项测试最多进行5次,均回答缺点便剖断测试不通过。本次测试截止韶光为2024年5月8日,不用除运用升级后,后续优化干系性能或功能的可能性。
文心一言
公司:百度
大模型名称:文心一言
版本:文心3.5
参数量级:千亿
紧张功能:采取一对一的对话式谈天场景,能够与人对话互动,回答问题,帮忙创作。同时在文学创作、数理逻辑推算、中文理解等多个运用处景中高效便捷地帮助人们获取信息、知识和灵感。
通义千问
公司:阿里巴巴
大模型名称:通义千问
版本:V2.0.1
参数量级:千亿
紧张功能:通义千问功能包括多轮对话、文案创作、逻辑推理、多模态理解和多措辞支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
讯飞星火
公司:科大讯飞
大模型名称:讯飞星火
版本:V3.10.3
参数量级:百亿
紧张功能:该模型具有7大核心能力,即文本天生、措辞理解、知识问答、逻辑推理、数学能力、代码能力、多模交互 ,该模型对标ChatGPT 。
天工大模型
公司:昆仑万维
大模型名称:天工大模型
版本:天工3.0
参数量级:双千亿级
紧张功能:定位是AI搜索产品,基于大模型能力的AI搜索是一种天生式搜索,用户可通过自然措辞清晰表达自己的意图,并得到有效组织和提炼后的答案。
豆包
公司:字节跳动
大模型名称:豆包
版本:V3.7.0
参数量级:千亿
紧张功能:豆包是字节跳动公司基于云雀模型开拓的AI工具,供应谈天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话。
紫东太初
公司:中科院
大模型名称:紫东太初
版本:V1.1.2
参数量级:千亿
紧张功能:在文本、图像、语音三模态的根本上,融入3D点云、视频、旗子暗记等更多模态数据,目前支持多轮问答、文本创作、图像天生、3D 理解、旗子暗记剖析等功能。
智谱清言
公司:智谱AI
大模型名称:智谱清言
版本:V2.2.6
参数量级:千亿
紧张功能:具备通用问答、多轮对话、创意写作、代码天生以及虚拟对话等能力。
360智脑
公司:360
大模型名称:360智脑
版本:V1.1.8
参数量级:千亿
紧张功能:集成360GPT大模型、360CV大模型、360多模态大模型技能能力,具备天生创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,重塑人机协作新范式。
AI大模型页面布局以及利用便利性▲从左至右依次为:文心一言、通义千问、讯飞星火、天工大模型、豆包、紫东太初、智谱清言和360智脑。
讯飞星火
讯飞星火的对话页面蓝白配色淡雅清新,布局合理,让人面前一亮。展开对话可以通过笔墨、语音输入,或者点击对话直接与智能体进行互换,同时还支持文档、图片、音频和图文形式的内容上传。点击屏幕上方“助手”进入专区,有19种分类的星火助手可供选择,非常方便快捷。
通义千问
主页面上方蓝紫渐变色让运用活泼了起来,顶部是导航栏,导航栏下方有实时的景象预报,用户随时都能查看景象情形。助手页面开启对话紧张有语音、笔墨输入以及语音通话3种形式,其余还支持上传图片或文档。
文心一言
初次打开App须要选择助手,根据个人喜好选择人物,设置人物性情以及语速。页面色彩折衷,绿色的通话键(点击可与虚拟形象直接对话)有些显眼,默认的标准字体也比其他端侧大模型稍大,当然这可以在设置中央进行调节。谈天可以选择语音、笔墨或者发送图片,其余还有上百种功能可以探索,意见意义性颇高。
天工
打开App后的页面类似于浏览器,下方会涌现一系列新闻热点事宜,点击上方“对话”可以看到全部AI功能分类,进入谈天界面第一印象便是清爽。界面右上角有一个文档图标,点击进入就能创建文档,在这里可以选择AI创作,创作内容直接插入文档,并且实现同步上传至云端。不过谈天界面输入框没有上传文件或图片音频的选项。
豆包
进入App之后首先看到的是虚拟形象豆包的动态头像,页面没有过多的润色,色彩和布局都比较简约。对话框内会供应多种AIGC功能的推举,可以选择语音、笔墨或实时通话,同时还支持发送文件。除了豆包之外还有多个谈天机器人可供选择,知足更多学习、创作或做事需求。
紫东太初
紫东太初的对话界面是清爽的莫兰迪色系,合理的布局不会让人产生视觉疲倦。对话可以选择笔墨或语音,点击左下角文件图标也可以发送图片。除此之外还有48个AIGC助手可供选择,大大提高了可玩性和便利性。其新增图片圈答功能,在相册中选择一张图片,发送到对话就可以进行提问,最多可以框选5处。
智谱清言
打开App后直接进入对话界面,“对话”板块采取黑白配色,“智能体”和“灵感”板块有色系折衷的彩色图标,整体来看简洁有设计感。谈天可以采取语音、笔墨以及通话的形式,同时还能发送图片和文件,适用于多数场景。
360智脑
每次打开App,都有8个数字人可供选择,对话页面跟手机发送短信的页面相似,可以笔墨、语音输入谈天,也可以选择通话。进入“数字人广场”还可以解锁更多的虚拟人形象以及AIGC功能。须要把稳的是每天体验次数限于300次,实在已经足够利用了。
多轮语义对话(2-1)人工智能对我们的生活有什么影响?它对付人类的弊端表示在哪些方面?你以为它的涌现会不会让人变得更
讯飞星火
讯飞星火对付这个问题的回答非常详细,也很有逻辑。在影响方面,它剖析了积极影响和弊端的表示,弊端紧张是失落业问题、数据隐私、道德和任务问题、社会不平等、依赖性等。然后提到该当把握好利用的度,把稳隐私透露的问题,末了还进行了总结。
通义千问
通义千问提到了人工智能产生的积极影响和弊端,接着强调人们该当精确利用人工智能技能。至于隐私问题,前两次讯问,它并没有直接回答是否会透露隐私,第3次便回答在数据网络、存储和处理的过程中确实存在隐私透露的风险。
文心一言
文心一言对付这个问题的回答条理比较清晰。它先是提到人工智能带来的经济影响和弊端,提示不应该过度依赖人工智能,末了讲述了人工智能确实存在隐私透露的风险。看完回答之后,点击下方的“查看参考”,还能看到对付该问题回答的参考来源。
天工大模型
对付问题的回答逻辑清晰有条理,它提到AI带来的积极影响和弊端。它认为可以利用AI办理日常繁琐的问题,但不能过度依赖。AI是否会透露隐私,这取决于AI系统的设计和利用方法。每个回答都附带网页干系问题的链接。
豆包
豆包的回答简介明了,提到人工智能代来了许多积极影响,其次提到AI带来的包括就业问题、伦理问题等弊端。末了强调不能过度依赖人工智能,并且要加强安全管理和保护方法降落隐私透露的风险。
▲从左至右依次为:文心一言、通义千问、讯飞星火、天工大模型、豆包、紫东太初、智谱清言和360智脑。
紫东太初
对付这个问题,紫东太初给出了非常详细的回答,它提到人工智能为我们生活带来的一系列积极影响。关于弊端它提到失落业、不平等、偏见和歧视、隐私陵犯以及掌握失落衡。末了认为AI是否会让人变
智谱清言
对付弊端它谈到就业影响、依赖性增强、隐私问题、伦理与道德问题和偏见与歧视等,接着便表示AI会减少人包袱,但也会导致某些人的
▲分别为紫东太初和智谱清言针对“人工智能的影响”天生的问答
360智脑
它逐条进行了清晰详细的回答,关于弊端提到就业威胁、隐私陵犯、安全问题、社会伦理以及依赖性。同时它认为AI 技能的涌现确实会让人在某些任务上变
(2-2)“栓Q”是什么意思,并用这个形成一段对话。
▲从左上至右下分别为通义千问、紫东太初、天工大模型和360智脑对“栓Q”的理解
讯飞星火:讯飞星火5次均把“栓Q”理解为“不要脸”的谐音,用于形容某人做出厚颜无耻的行为,带有责怪和讽刺意味。给出的案例虽然也符合该词的利用语境,但是案例的选取和措辞的表达都比较尖锐。
通义千问:阐明了“栓Q”起源于网络,是对英语“thank you”的谐音表达,常带有调侃、无语的感情,带有一定诙谐和讽刺色彩,示例对话也比较符合情景的表达。
文心一言:阐明“栓Q”是英语“thank you”的谐音,一样平常用作表达感谢,没有提到更深层次的可能会有讽刺意味的情绪表达。给出的对话案例符合这个网络盛行语的一部分语境表达,但是完备理解为感谢还是会有些别扭。
天工大模型:在5次提问中,天工大模型都把“栓Q”理解为“很厉害”“很棒”的意思,并表示该词常用于夸赞他人或某件事情。但当把问题改为“‘栓Q’是什么梗”时,回答精确。
豆包:豆包提到“栓Q”是“thank you”的谐音,常表示感谢,也有无奈、无语等感情,示例的对话同样符合语境。
紫东太初:紫东太初的回答让人有点迷惑,5次都阐明道“栓Q”的字面意思是“栓枪”,常用来调侃和模拟装枪的动作。就算把问题改为“‘栓Q’是什么梗”,回答仍旧是“栓枪”。
智谱清言:提问5次,智谱清言的阐明和案例都是相同的,提到“栓Q”源于英语“thank you”,表示感激的意思,但没有谈到无奈、讽刺等意义。
360智脑:回答“栓Q”来源于中文拼音自动纠错功能,起初没有含义,后演化为诙谐和调侃的说法,给出的对话案例符合该词的利用语境。
逻辑推理(3-1)请剖析:“如果许可学生在教室上利用手机,那么他们就会开始在教室上玩游戏,然后就会有越来越多的人沉迷游戏,终极导致社会涌现更多问题,比如游戏成瘾和青少年犯罪率上升。”这句话的逻辑缺点。(滑坡谬误)
讯飞星火:讯飞星火对这句话的逻辑谬误进行了逐一地剖析, 包含了紧张的“滑坡谬误”,其次还剖析到“过度概括”“假设因果关系”“缺点归因”“缺少证据”等。
通义千问:归纳并详细剖析了包括“滑坡谬误”在内的5处逻辑谬误。最后进行了总结,并给出了关于青少年教室玩手机的理性剖析。
文心一言:文心一言识别出这句话紧张“滑坡谬误”,其次还有“过度概括”“因果关系的过度简化”和“非理性恐怖”等。并且都逐条进行了详细的剖析,剖析过程有条理,语句流畅易懂。
天工大模型:开篇概述这句话包含了“滑坡谬误”在内的4个逻辑缺点,其次再详细剖析每个逻辑缺点在这句话中的详细表现,最后进行总结,全体剖析很详细。
豆包:向豆包提问5次,它的回答包含“单一归因”“过度简化因果关系”“绝对化推断”等,但都未提到紧张的“滑坡谬误”。对付这个问题豆包还须要进一步的演习。
紫东太初:这个问题紫东太初回答了5次,前4次认为是因果关系的缺点建立,末了一次认为是犯了“一定性的缺点”。每次的剖析仅环绕一个逻辑缺点展开论证,但都未提到“滑坡谬误”。
智谱清言:智谱清言的回答精髓精辟准确,直接点明这句话紧张的逻辑缺点是“滑坡谬误”,并对此做了详细的剖析,末了还解释了精确的逻辑该当如何。
360智脑:360智脑剖析出这句话存在“过度概括”“滑坡谬误”“因果关系谬误”以及“未证明的假设”4种逻辑缺点,末了还提出了谈论这个问题的合理建议,有一定参考代价。
(3-2)房间里有23个人,房间里至少有两个人生日在同一天的几率是多少?(50.73%)
▲从左至右分别为天工大模型、文心一言、360智脑和紫东太初在“生日悖论”问题中给出的回答。个中360智脑和紫东太初的回答,涌现了一些问题。
讯飞星火:5次回答都给出了详细的推理和运算的过程,但终极详细的数值没有直接给出来,而是提醒可以通过打算器或编程来打算。末了一次结论是大于50%,依然没有详细的数值。
通义千问:通义千问前两次的回答都是47.57%。紧接着进行了第3次提问,这一次得出了精确的50.73%。末了的打算通过代码完成,点开“代码实行器调用完成”就能看到它的运算过程。
文心一言:首先提到这个问题是经典的“生日悖论”的变种,然后开始详细的推理,剖析不同的可能性。最后进行概率的打算,并且得出了终极精确的结论:50.73%。
天工大模型:天工大模型首先提出这是一个经典的“生日问题”并表明概率会超过50%,接着开始推理和详细的概率打算,终极得出结论约在50.73%。
豆包:豆包省去了过多的推理解释过程,直接进入到运算阶段,大略注明运算事理后得出精确结论:几率约在50.7%。
紫东太初:紫东太初进行了5次作答,但都是提到用1减去没有两个人生日在同一天的几率,推理过程和运算过程都精确,但终极结果失落误,得出结论均为概率在0.003。
智谱清言:推理和运算的过程都非常清楚,几率打算借助编程完成,点击“代码天生”便可以查看,终极打算出精确结果为50.73%。
360智脑:提问5次,360智脑的回答均是“至少有两个人生日在同一天是一定的”,它认为这个问题的答案是基于逻辑和组合数学的观点,而不是通过概率得出的。
专业知识与生活做事(4-1)请阐明一下“破窗效应”,并举个例子。
▲文心一言和讯飞星火对“破窗效应”的阐明和举例都比较详细恰当。此项测试中其他大模型在专业知识问答上也有良好的表现。
讯飞星火:简要解释“破窗效应”的含义后,阐明了其来源以及更深层次的意义及影响,列举的例子也是普通易懂。并且它在回答中重点的内容会加粗着重展示出来,方便用户理解。
通义千问:阐明了“破窗效应”的含义,包括学科范畴、提出者以及影响等,举出的例子同样是“社区玻璃事宜”,末了做了大略的总结。
文心一言:精确地阐明了“破窗效应”这一理论,先容提出者并举出一个得当的例子,末了还进行了总结。
天工大模型:在全网进行搜索,参考不同的信源并总结出精确的回答。举的例子适用于“破窗效应”,末了给出了总结以及建议。回答框也供应了一些干系链接,可供参考。
豆包:回答到“破窗效应”来源于一个比喻,简洁明了地阐明了该理论,举出的例子也比较合理。
紫东太初:用形象的例子阐明了什么是“破窗效应”,清晰易懂,举出的例子也能够解释符合“破窗效应”。
智谱清言:智谱清言阐明了“破窗效应”的来源以及含义,举的例子也比较形象。且末了强调了“破窗效应”的影响,以及在现实社会中的实际运用。
360智脑:精确地阐明了“破窗效应”的来源和含义,举例是纽约市地铁系统在20世纪90年代的转变,并以这个例子做了总结。
(4-2)我须要一份针对减肥的健身操持。
讯飞星火:讯飞星火提到健身操持该当结合有氧运动和力量演习以及饮食,并且给出一周详细到每一天的演习操持,强度中等。点击快捷跳转键“讯飞晓医”可以讯问更多的专业康健问题。
通义千问:通义千问给出了为期一周的低级减肥健身操持,结合有氧运动、力量演习和适当的安歇以及合理的饮食。点击下方干系链接,可以找到更多的健身建议。
文心一言:文心一言给出的健身操持非常详细,包括序言、健身目标、健身操持(饮食调度、有氧运动、力量演习和安歇与规复)等,以实时代的把稳事变,连续提问还能扩展完善操持。
天工大模型:制订的健身操持适用于初学者的中级水平的健身爱好者,分别从饮食建议、有氧运动、力量演习和伸展运动方面给出了第1严密第4周适应期的运动操持和第5周至第8周提升期的健身操持。
豆包:详细注明了从周一到周日每一天的操持,从内容来看健身的强度适中,项目安排也合理。末了给出了把稳事变,可以做部分参考。
紫东太初:给出的健身操持具有普适性,包括热身、有氧运动、力量演习、拉伸等5个环节。同时饮食方面也给出了一定的参考。末了建议根据自身的需求,每周进行3至5次健身操持。
智谱清言:制订了为期12周的减肥健身操持,每周包括5天的运动,详细到每一天有哪些项目。末了给出了比较详细的饮食建议以及把稳事变。
360智脑:首先给出了健身操持的概览,包括不同项目、频率和强度、健死后果等,随后给出了以周为单位的详细操持和把稳事变。
(4-3)我在格林德瓦旅游,想知道附近的特色美食,你帮我翻译给当地人一下。
▲讯飞星火和文心一言精确解析了题目,识别到格林德瓦位于瑞士德语区,并给出了讯问词的德语表达。
讯飞星火:讯飞星火前两次直接推举了当地的特色美食和餐厅,第3次提问给出了翻译,供应德语和英语两种措辞,末了也提示瑞士有多种措辞区域,须要应时调度问候语和语法。
通义千问:通义千问前两次的回答都是特色美食和餐厅的推举,第3次回答了一段中文的讯问词,第4次提问后终于给出了德语的讯问表达,这段话比较通用和礼貌,也算是过关了。
文心一言:文心一言前两次回答的内容因此中文进行讯问,但好在第3次提问时,它精确地供应了德语的讯问表达,并且给出了中文的意思,方便用户选择是否利用这句话向当地人讯问。
天工大模型:天工大模型的回答涌现了失落误,5次回答均是当地传统菜肴的推举,没有理解到题意。因此这项测试没有通过。
豆包:供应了向当地人讯问特色美食的英语表达办法,包括附近有哪些特色美食以及详细的菜品。
紫东太初:紫东太初无法根据指令直接作出翻译,须要选择翻译工具措辞以及详细的翻译内容。
智谱清言:对付讯问内容比较模糊的地方,它会进行进一步的确认,末了给出了向当地人讯问格林德瓦地区受欢迎食品的英语表达。
360智脑:5次回答均没有完全的一句话讯问翻译,只供应了当地特色美食词汇的瑞士德语或标准德语表达。
学科知识与打算(5-1)将“专政则轻君,擅名则不臣,而春秋大之,奚由哉?”翻译为当代汉语。(重庆市2024届高三语文二模试题)
讯飞星火:进行了5次提问,前两次把“擅民”分别翻译为“分享名义”和“分享名望”,末了三次都将“则不臣”翻译为“不会臣服”。总体来看,译文很简洁,但并不完备准确。
通义千问:对通义千问进行了两次提问,两次翻译都比较准确。
文心一言:5次回答都比较准确,只是5次都将“大之”翻译为“赞赏他们”,而这句话的语境中的“之”代指司马子,翻译为“赞赏他”会更准确。
天工大模型:前后进行了两次提问,两次翻译都比较准确,但第2次更加详细。
豆包:5次翻译都涌现了问题,前面两次将“擅名”翻译成了“擅自发号施令”,后面3次将“不臣”翻译成了“不把君主当臣子”。此项测试没有通过。
紫东太初:提问1次,准确地进行了翻译。
智谱清言:第1次回答涌现失落误,将这句话的出处缺点归于《孟子·离娄下》,第2次回答出处和翻译均精确。
360智脑:精确地翻译了这句话,并且剖析了当时的时期背景以及征象带来的影响。
(5-2)由曲线r=2cos所围成的图形的面积是多少?
讯飞星火:对付这道高数题,讯飞星火首先剖析出这个曲线在极坐标系中代表图形是一个圆,接下来连续剖析并代入公式,打算出精确答案π。
通义千问:这个问题通义千问回答了5次,前4次的答案包括二分之π和2π,所幸末了一次得出精确答案π。
文心一言:对付这个问题向文心一言进行了5次提问,第1次给出的答案是2π,又连续提问4次,给出的答案均是二分之π。以是这项测试文心一言没有通过。
天工大模型:进行了5次提问,回答的答案均是2π平方单位,打算失落误。
豆包:豆包一开始就剖析出这是一个圆的极坐标方程,打算得出精确答案π。
紫东太初:打算5次均缺点。
智谱清言:进行了5次作答,答案包括6.28、25.13和12.57,均缺点。
360智脑:在全网搜集并整理了6个网页供应参考,但大模型在本题打算环节涌现缺点,5次作答均没有得出精确答案。
文本创作(6-1)写一篇末日科幻小说
▲文心一言和讯飞星所创作的火科幻小说,脑洞都比较大。
讯飞星火:讯飞星火天生了一篇标题为《末日星陨》的短篇科幻小说,虽然总字数只有713字,但构造完全,行文流畅,脑洞也很大。
通义千问:小说标题为《末日余晖:星际方舟》,分为7个章节,总字数912字,讲述了一个亡命与重生的故事,具有吸引力。
文心一言:小说《星际余晖:末日的曙光》分为5个章节,统共944字,讲述其他星球对地球造成威胁,人们同心协力研发新的技能解除危急的故事,情节环环相扣。
天工大模型:小说标题为《灰烬之晨》,全篇共计806章,分为4个章节,讲述主角艾丽娅在末世与幸存者重修家园的故事。小说构造完全,内容层层递进。
豆包:小说标题为《末日救赎》,小说篇幅很短,统共438字。讲述的是一个男主与爱人拯救天下、个人英雄主义的故事。如果情节能更饱满一些,会很有吸引力。
紫东太初:这篇科幻小说没有标题,讲述地球遭遇了病毒大盛行,幸存下来的人们开始重修家园并且组建了一支团队探求治愈病毒方法的故事。
智谱清言:小说标题《末日之后》,讲述一个年夜胆的年轻人在末日天下探求希望的故事。全篇545字,篇幅虽短,但剧情足够吸引人。
360智脑:小说标题《末日归途》,分为6章,讲述末日里人们被迫离开家园,又重回家园的故事,引人寻思。
(6-2)以“不想上班”为主题写一段Rap,要单押。
讯飞星火:Rap主歌、副歌和桥段等构造完全并且都有标注出来,歌词有趣,贴近“打工人”上班的真实状态。
通义千问:笔墨内容层层递进却又简洁明了,每一段押韵有节奏,歌词照料现实,能够引起上班族的共鸣。
文心一言:歌词内容简洁且对仗工致,由“不想上班”到“梦想与现实”,符合现在大部分Rap写实的风格。
天工大模型:Rap构造完全,歌词反响现实,能带来一些情绪共鸣,整体来看较为押韵。
豆包:歌词简洁且流畅易懂,强调情绪的表达并且反响了大部分上班族真实的状态,让人感同身受。
紫东太初:歌词构造完全,反响现实,副歌部分采取重复的形式,整体较为押韵。
智谱清言:由“不想上班”到“努力面对生活”,通报了积极的生活态度,歌词比较有节奏,短小精悍,引起共鸣。
360智脑:天生了一段全英文的歌词,构造完全且对应主题,篇幅较长。
受篇幅影响,这次评测将分为两篇文章来推送,敬请关注!