大模型教诲领域单项能力人机共测项目,由EduTEP团队策划,利用大、中、小学实际利用的考试、测验考卷题目,对国内外紧张大模型进行测试,并约请对学生考卷批改打分的西席进行主不雅观题打分,比较大模型和真实学生在该次考试中的成绩表现。
通过“大模型人机共测”,我们将更清晰透彻、直不雅观地理解各种大模型在各单项领域不同难度层级的表现情形。
“大模型人机共测”之打算机专业《数据构造》机考——大模型“开挂” 程序员压力山大
本轮评测简介
“大模型人机共测”第三测,2023年11月24日,某985高校打算机专业本科二年级学生《数据构造》本学期第一次机考,我们选择GPT-3.5、GPT4、Claude2、讯飞星火大模型、百度文心一言、阿里通义千问、智谱清言共7个大模型与学生们同时参加了这场考试。《数据构造》机考共有5道编程题,在OJ系统编写代码提交,由系统根据通过的数据点进行自动打分,每道题满分100分,总分为500分,不限定提交次数,系统根据编译过程及样例测试结果来统计分数。这次共有104名打算机专业学生参加了考试,学生的均匀分为137.4分,大模型均匀分197.4,虽说会考试和会干活不是一回事,但大型模型在程序员事情中的潜在替代浸染已经成为一个令人焦虑的现实。
编辑点评
GPT4在这次测试中非常亮眼,第一题和第二题都是一次交互就得到满分,第三和第四题则通过大略的提示“Wrong Answer,please try again”后,第二次交互也得到了满分,不得不说这是真的“开挂”!大模型在第一题和第二题上碾压了学生,而后三题,学生的均匀分全部超越了大模型,因此大模型对付数据构造编程题的理解方面和学生还有一定差距。大部分大模型的代码都可以通过编译,这点较学生精良,由此也可以看出程序员今后的事情可以更多地放在算法思路层面,而不是在影象格式细节。
学生在这次测试中表现欠佳,紧张缘故原由是韶光较为紧张,90分钟5道题对学生的编程闇练度和debug能力哀求很高,而大模型在代码天生速率方面显然具有绝对上风。大模型首次考试测验《数据构造》机考,让大模型能完备读懂题目目前来说还存在一定难度,GPT4完备碾压其他大模型,而有一些大模型在编程能力上的差强人意也是让人意外。
大模型在代码天生速率和对编程措辞的语法、语义规则节制方面,比人类程序员具有更大的上风。然而,目前大模型在理解题意或实践中对需求的理解上仍存在一定的偏差。因此,如何充分利用大模型的代码上风,同时结合人类更高层次的创新和剖析能力,对人类程序员的事情办法和技能哀求提出了越来越多的寻衅。
本轮Editor's Choice
GPT-4
EduTEP大模型教诲领域单项能力人机共测评测报告
评测报告编号:202311b(003)
评测报告发布日期:2023-11-26
评测内容:某985高校打算机专业学生《数据构造》学期第一次机考
单科科目
打算机
年级
大学本科二年级
学生稽核日期
2023年11月
考卷题型解释
题目内容描述:这次考试的难度分布均匀,覆盖了链表、行列步队、栈和二叉树等基本数据构造的操作,对数据构造的理解和运用能力有较高的哀求。考试旨在评估学生对这些基本数据构造的闇练程度和运用能力。
题目数量5题,每题100分,总分500分。
题目难度:中等(☆☆★★★)。
#
题目类型
难度
内容
知识点
A
单链表的颠倒
★★
实现一个函数来颠倒单链表。
单链表的操作,特殊是指针操作。
B
单链表的重排
★★★★
调度链表的顺序,使其按特定办法重排。
单链表的操作,快慢指针。
C
行列步队的仿照
★★★
仿照医院排队过程,打算每个病人的等待韶光。
行列步队的基本操作和掩护。
D
出栈序列的所有可能
★★★
给定入栈序列,输出所有可能的出栈序列。
栈的运用,递归或迭代办理。
E
二叉树与森林的转换
★★★
给定由森林转换成的二叉树,输出森林中每棵树的括号表示。
二叉树的遍历。
学生稽核情形
参加考试学生:104人,全部为打算机专业学生。
学天生就分布
满分500分
400-499
300-399
200-299
100-199
1-99
总计
2
1
8
16
40
37
104
超过大模型最佳成绩人数:3
低于大模型均匀成绩人数:77
学平生均分为137.4分。
评测大模型清单
#
大模型
版本
测试日期
测试方法
1
gpt3.5
/
2023-11-24
web
2
gpt4
/
2023-11-24
web
3
Claude2
/
2023-11-24
web
4
讯飞星火大模型
V3.0
2023-11-24
web
5
百度文心一言
V2.5.0
2023-11-24
web
6
阿里通义千问
V2.0.0
2023-11-24
web
7
智谱清言
ChatGLM2
2023-11-24
web
注:本次评测为实时同步评测,测试组与学生同时开始OJ平台机考,考试时长为90分钟。
评测结果
大模型测试结果系统截图
总分及每一题的人机均匀分比拟如下:
均匀分
总分
A
B
C
D
E
大模型
197.4
87.7
63.1
15.1
27.1
1.4
学生
137.4
68.1
40.1
47.7
30.0
21.8
大模型得分与学生均分比较
结论
本轮评测通过测试职员在OJ系统与大模型之间交互完成,统一把题目转换为prompt后在大模型web端输入,再把大模型web真个输出复制到OJ系统内提交,如果OJ系统报错,则把干系报错信息复制到大模型,再由大模型更新代码后复制到OJ系统。我们规定每道题大模型最多3次提交机会,以此来评定大模型的能力。下面是测试的一些故意思的结论:
GPT4在这次测试中非常亮眼,第一题和第二题都是一次交互就得到满分,第三和第四题则通过大略的提示“Wrong Answer,please try again”后,第二次交互也得到了满分,不得不说这是真的“开挂”!大模型在第一题和第二题上碾压了学生,而后三题,学生的均匀分全部超越了大模型,因此大模型对付数据构造编程题的理解方面和学生还有一定差距。智谱清言的C/C++代码,采取了如<int>逼迫转换格式等操作,与OJ平台的编译环境不匹配,因此涌现了很多编译缺点。编译出错有时候可以改对,但是大部分时候改不对。大部分大模型的代码都可以通过编译,这点较学生精良,由此也可以看出程序员今后的事情可以更多地放在算法思路层面,而不是在影象格式细节。通过编译的大模型程序,若测试用例全部Runtime error(运行时候缺点),或发生Time limit exceeded(超时),反馈给大模型,大模型均能根据反馈见地进行代码修正,使之不再超时,但运行结果仍有很大概率为Wrong answer(运行结果缺点),且无法再改正。通过阅读代码可知,发生Wrong answer的代码段,均为编程思路缺点,能够有部分测试用例通过,纯属“瞎猫碰上去世耗子”。不愿定是测试职员账号问题,还是设置问题,讯飞星火大模型在编程题目中,无法进行多轮交互,在测试职员反馈诸如“您上面的代码,通过了2个测试用例,8个测试用例输出结果缺点。是否重新编写一下?”这样的prompt,星火大模型会回答“由于您没有供应详细的代码,我无法为您重新编写。请您供应干系的代码,我将尽力帮助您办理问题。”第五题题面中有二叉树的图例,由于大模型的Web接口不能很好的识别图,我们考试测验把图改成了由字符排版的二叉树形式,但大模型彷佛依然无法理解,因此这道题大模型基本没有得分。
学生在这次测试中表现欠佳,紧张缘故原由是韶光较为紧张,90分钟5道题对学生的编程闇练度和debug能力哀求很高,而大模型在代码天生速率方面显然具有绝对上风。大模型首次考试测验《数据构造》机考,让大模型能完备读懂题目目前来说还是有一些难度,GPT4完备碾压其他大模型,而有一些大模型在编程能力上的差强人意也是让人意外。
大模型在代码天生速率和对编程措辞的语法、语义规则节制方面,比人类程序员具有更大的上风。然而,目前大模型在理解题意或实践中对需求的理解上仍存在一定的偏差。因此,如何充分利用大模型的代码上风,同时结合人类更高层次的创新和剖析能力,对人类程序员的事情办法和技能哀求提出了越来越多的寻衅。
目前评测模型仅包括评测组已获取账号的大模型,欢迎更多大模型申请加入评测行列步队。也欢迎乐意考试测验的全国各年级各学科老师联系我们(zyying@cs.ecnu.edu.cn),让我们共同剖析您所教授的学生与大模型的考试测验差距。
EduTEP平台(智能教诲可信测评平台)由华东师范大学上海智能教诲研究院的赵佳宝、王一雷、应振宇、何峻、贺樑五位老师发起,旨在为智能教诲的快速发展保驾护航,从知识、技能、能力、机器社会认知、伦理维度,通过人机同测、社会实验、虚拟实验的办法全方位地测评智能教诲系统的性能,探索智能教诲产品对人的短期、中期、长期的影响。
5月推出的EduTEP和4月推出的EduChat同属华东师范大学打算机科学与技能学院 ICALK团队与上海智能教诲研究院孵化和支持的产品。
EduTEP团队先容
EduTEP发起人:赵佳宝、王一雷、应振宇、何峻、贺樑
知识维度测评
王一雷、赵佳宝、白艳红
技能维度测评
赵佳宝、谢镇涛、胡姣、戴岭
社会认知维度测评
林欣、吴雯、倪琴、王一雷、纪雨、李泽
伦理维度测评
刘志、白艳红、朱建才、魏旨航
人机同测
应振宇、何峻
社会实验
倪琴、胡文心、应振宇、郭少阳、王英英、魏廷江
虚拟实验
赵佳宝、王一雷、石金鑫
教诲技能顾问
祝智庭、吴永和
支持单位
国家智能社会管理实验特色基地(教诲)-华东师范大学
后续预报
高档院校的课程可能太专业了,那么小学生的考卷,大模型答起题来是否成竹在胸?理工科的题目由于逻辑表达问题,大模型可能绕不过弯,人文社科方面是不是会表现更好?请持续关注我们的“大模型人机共测”,小学语数外的日常测验评测正在策划中。
关于ICALK
ICALK (Language cognition and Knowledge computing at the Institute of Computer Applications)是华东师大打算机学院“措辞认知与知识打算”团队,紧张聚焦认知理论和方法,打破措辞理解、知识天生与因果推理干系理论,研究类人阅读、思考与对话天生干系的NLP技能和知识库构建等关键技能,通过“知识理解力的增强”来提升运用智能,干系研究成果已成功在教诲、康健、科技、JS、金融、城市管理等领域中成功落地。
团队调集人:贺樑教授,目前担当国家科技创新2030“新一代人工智能”重大项目管理专家组成员,中国工程科技发展计策上海研究院人工智能创新发展研究室主任。
各方向调集人:
知识打算:林欣教授
措辞认知:兰曼教授
数据智能与运用:王晓玲教授
智能内容天生:董道国专任副研究员
传授教化团队:窦亮副教授
审核 | 陈琴、周杰
责编 | 周友根
供稿 | 应振宇