本报 陈 曦
开学季,美国一款号称做事两万所学校的AI阅卷系统遭到质疑,学生们只要借助系统漏洞,输入相应关键词,纵然关键词之间并无关联,也能轻易得到高分。
随着人工智能的发展,不少教诲App都运用了智能评分系统,评分系统阅卷迅速,及时出分,受到不少师生的欢迎。但同时,也有不少家长吐槽智能评分系统,像英语跟读App的评分系统,有时候纵然拥有英语专业八级水平的人,测试得分也只有80分。
除了运用于英语口语的智能评分系统,人工智能还被运用于判卷上。不过这种智能阅卷系统也时有“翻车”征象。据宣布,在开学季,一款号称做事于美国两万所学校的AI阅卷系统就受到了质疑,学生们借助它的漏洞,“裸考”就能轻松及格。之以是被学生们钻了空子,是由于该系统只是通过关键词进行评分,学生们只要输入相应关键词,纵然几个关键词之间没有关系,也能顺利过关乃至得到高分。
阅卷前需先设定评判标准
“自动测评打分系统一样平常须要先设定评测的标准,而后根据设定的标准去设计得当的评测算法与模型。”天津大学智能与打算学部教授、博士生导师熊德意先容,比如像口语测评打分,就须要机器去评判人的发音是否标准,所读句子的重音是否精确,读出的语句是否连贯流畅,连读部分是否准确等。
AI阅卷系统则涉及到对措辞笔墨的评判,涵盖很多方面,如语法、语义等,会大量利用到自然措辞处理技能。
“自然措辞处理技能是人工智能的一个主要分支,研究利用打算机对自然措辞进行智能化处理,根本的自然措辞处理技能紧张环绕措辞的不同层级展开,包括音位(措辞的发音模式)、形态(字、字母如何构成单词、单词的形态变革)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(措辞表述对应的意思)、语用(不同语境中的语义阐明)、篇章(句子如何组合成段落)7个层级。”熊德意强调,这些基本的自然措辞处理技能常常被利用到下贱的多种自然措辞处理任务(如机器翻译、对话、问答、文档择要等)中,自动阅卷中的措辞笔墨评测常日涉及这7个层级的多少层。
设计自动评测指标的方法有多种,常日会根据不同的评判类型去选择适宜的方法。“比如阅卷系统若要进行翻译题的自动评判,可以让老师事先写好多个参考译文答案,然后把学生的答案和参考答案进行类比,打算它们的相似度作为学生答案好坏的评测指标。”熊德意举例说,机器翻译常用的评测指标BLEU,便是基于参考译文和机器译文之间的N-grams(N元)匹配度打算相似度的。
一个单词是一元,两个相连的单词是二元,还有三元、四元,如果答案中有一个单词与参考答案中的单词同等,那么就会给出一个一元评分,类似的可以打算二元、三元、四元的评分。研究职员为不同元设置不同权重,然后把得分统筹起来变成一个客不雅观值,得分越高就解释两者之间的相似性越高。
不同AI评分系统结果相差甚远
这次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数,而她对儿子的答案进行评测后,以为孩子的回答基本没有问题。
同样的答案,人工评价和机器评价为何有如此大的出入?
“这便是基于AI算法的自动评测面临的最大寻衅:如何与人工评价保持同等。应对这个寻衅须要办理的问题很多。比如如何制订得当的评测标准,主不雅观题进行自动评测必须要有得当的评测标准和规范;比如如何应对措辞的千变万化,措辞的多样性是自然措辞处理技能的紧张寻衅之一,措辞的自动测评和自动处理都要面对多样性的寻衅;比如如何设计一个综合性的评测指标,虽然目前有各种各样的指标,但是很少有指标综合考虑措辞笔墨的方方面面,例如作文自动阅卷,可能要考虑用词是否合理(词汇)、句子是否流畅(句法)、段落组织是否有条理(篇章)、内容是否扣题(语义、语用)等。”熊德意说,上面提到的BLEU便是只考虑了单词形式的严格匹配,没有考虑单词的形态变革、语义相似性、译文的句法合理性等成分。
“遵照的评测规则、评判的出发点不同,相应的算法模型都不一样,因此末了的结果也会相差甚远。”熊德意说。
因此仅仅利用一种评测方法显然是不全面的,这也就阐明了当孩子的母亲考试测验在答案里加入“财富、商队、中国、印度”等题目中的关键词时,纵然这些关键词之间没有任何串联,她也得了满分。“可能这个AI阅卷系统只利用了大略的关键词匹配,因此会涌现‘关键词沙拉’也能蒙混过关的情形。”熊德意阐明。
此外,口语的人工测评与机器测评也存在较大出入。“近年来,语音识别性能虽然在深度学习技能的推动下取得了显著的提升,但是在开放环境、噪音环境下,这种识别率就会低落很多。”熊德意阐明,如果机器“听”错了一个单词,而后机器进行测评,就会形成一个缺点传播,也便是上游系统的缺点会导致下一系统缺点,错上加错,越错越离谱,测评结果也会大相径庭。
“目前有很多设计评测指标的方法,还有很多改进的方法,如在打算准确率的同时也打算召回率等。其余,还有对评测指标进行评测的,即评测的评测,看看哪个评测指标更完善,更和人的评价同等。”熊德意感叹,很多时候,自动评测的难度和对应的自然措辞处理任务的难度,从技能层面来说是一样的,比如用机器评价一个译文的好坏与用机器天生一个译文的难度类似,用机器评判一个文档择要的好坏与用机器天生一个择要的难度也差不多。
可结合人工评测让系统更智能
“传统的自动评测指标常日是基于符号进行打算的,现在深度学习等AI技能也越来越多地运用于测评工具中。”熊德意先容,利用深度学习,可以把措辞符号映射到实数稠密向量的语义空间,利用语义向量打算相似度。哪怕说的词语和打算机原来学习的不一样,但只要语义是同等的,机器就可以进行精准的评价。因此,基于深度学习的自动评测某种程度上可以应对措辞的多样性寻衅。不过深度学习也有一个问题,便是须要大量的数据让机器进行学习。
基于自监督学习的预演习措辞模型,近几年,在措辞表示学习中,取得了打破性的进展。“OpenAI的预演习措辞模型GPT-3,在5000亿单词的海量语料上演习了一个带有1750亿个参数的神经网络,通过大量学习网络上各种措辞的文本,GPT-3形成了强大的措辞表示能力,可以进行多种任务,比如自动翻译、故事天生、知识推理、问答等,乃至可以进行加减法运算,比如其两位数加减法精确率达到100%,五位数加减法精确率靠近10%。”熊德意先容,不过,这么弘大的神经网络,如果用单精度浮点数存储,须要700G的存储空间,其余模型演习一次就花费了460万美元。因此,纵然GPT-3具有较好的零样本、小样本学习能力,其高昂的本钱使其离普遍可用还有很远的间隔。
但是AI作为阅卷评测“老师”,其又有人工不可比拟的上风。比如AI自动批阅卷系统比较人工批阅速率更快,老师不可能一次记住所有的多项选择题答案,须要不断检讨标准答案,这是很费时的,自动批阅系统帮助老师大大提高了效率;其余,自动批阅系统更加理性,不受外界条件滋扰,不会因疲倦等缘故原由导致误判。纵然在繁芜的滋扰环境中,仍旧可以得到精确的结果;AI阅卷系统还可以在评分后直接做好学情剖析,统计出考试数据、错题数据等传授教化材料,帮助老师减负增效,帮助学生提高学习效率。
“将主不雅观题合理地客不雅观化,可以降落自动阅卷的难度。”熊德意表示,对无法客不雅观化的主不雅观题,虽然设定全面的评测标准比较难,但是设定某一方面的评测标准还是可行的,比如针对单词词法、句子语法的评判,目前准确率还是挺高的,这类技能可以从实验室走向产品运用。
也可以引入人工评测,对AI阅卷系统打分进行复核与改动,通过这种反复的改动,累历年夜量的评测演习数据,让机器评分变得更加智能。
“利用自然措辞处理等人工智能技能,进一步完善主不雅观智能评分系统,将是未来教诲领域的一个非常主要的课题。”熊德意说,往后的AI自动批阅系统肯定会越来越“聪明”,人工智能与教诲的结合也会越来越紧密。
声明:转载此文是出于通报更多信息之目的。若有来源标注缺点或陵犯了您的合法权柄,请作者持权属证明与本网联系,我们将及时更正、删除,感激。
来源: 科技日报