而且,月圆的不仅仅只有国外,我国的「机器评卷员」也早已经投入到考场中。
早在 2016 年,我国教诲考试中央就和科大讯飞成立告终合实验室,共同开展人工智能技能在阅卷、命题、考试评价剖析等方面的研究。而且在 2017 年,湖北襄阳就已经正式在中考评卷事情中引入了该机器评分系统作为评分赞助手段。
这些机器评卷员的背后,有海量的资料作为参考,纵然一天阅卷无数,也并不会由于疲倦以及不愉悦的感情影响阅卷的效率和公道。
但事实真的是这样吗?最近,VICE 的一份宣布显示,这些 AI 评卷员实际上并没有大家想象中的公道。
▲ 图片来自:VICE
无可避免的算法偏见
AI 评卷,实在也没有大家想象中的那么公道。而首先第一个问题,便是算法偏见。
实际上,教诲行业一贯以来都在尽力肃清对不同措辞背景的学生所产生的潜意识偏见,但这个问题则在人工智能评卷系统上相称严重。
ETS(美国非营利性考试做事中央)所供应的 E-rater 机器评分系统,目前正在为 GRE、TOEFL 等考试供应评分参考。而 ETS 也是浩瀚机器评分系统供应商中,极少数会供应偏差研究报告的。
ETS 新产品开拓副总裁 David Williamson 表示:
实在评分系统存在算法偏见是一个普遍存在的问题,只不过大多数供应商都不会像我们这样对外公开。在多年的研究里,ETS 创造机器评分系统会「偏爱」来自中国大陆的学生,所给的分数整体会比人类评卷员要更高。与此同时,像非裔美国人、阿拉伯语学生、西班牙留学生等群体则更随意马虎受到来自机器的偏见,所能得到的分数会更低一些。
▲图片来自:VICE
为此,ETS 在 2018 年对算法进行了深入的研究,终极创造了缘故原由。
以 GRE(美国研究生入学考试)为例,来自中国大陆的学生由于篇幅更长,且会在论文中利用大量繁芜的词汇,使得机器误认为论文的水平会高于均匀水准,从而给出更多的分数。纵然这些繁芜的句型在人类评卷员看来和论文的主旨并无太多关联,乃至明显能看出是套用了预先背好的范文。
相反,由于非裔美国人、阿拉伯语留学生的措辞风格会更倾向于大略和直接,导致在机器评分系统中很难得到较高的分数。
这些偏见实际上也直接反应在分数上,在测试时,一群水平相称的学生当中,E-rater 机器评分系统为中国大陆的学生给出的均匀分达 1.31 分,而非洲裔美国人则只有 0.81 分。
当然,如果有参与 GRE 的读者也不用担心,由于该系统目前也只是给人类评分员「打一下赞助」而已,终极的论文成绩依旧是由人类来决定。
而除了 ETS 以外,新泽西理工学院也创造了自家所利用的一项机器评分系统存在着算法偏见。
新泽西理工学院此前通过一个名为 ACCUPLACER 的评分系统来判断一年级学生是否须要额外的辅导,但是后来经由技能委员会的研究创造,该系统对亚裔、西班牙裔学生所写的论文会存在偏见,并不能很公道地给出判断。
乃至「狗屁不通」的论文也能得到高分
如果说算法偏见只是影响分数高低,对考试公道影响还不算特殊大的话,那么机器评分系统还有一个更严重的毛病。
便是连胡编乱造也识别不出来。
在几年前,麻省理工学院的预科主任 Les Perelman 和一群学生利用论文措辞天生器 BABEL 生拼硬凑出了数篇论文。
这几篇论文与正常的论文不太一样,虽然利用了很多高等词汇,繁芜句型,但当中大部分内容都是序言不搭后语的,乃至可以用「狗屁不通」来形容。
他们将这几篇论文提交给了几个不同的机器评分系统进行评分,出乎猜想的是,这几篇论文都得到了不错的成绩。
更让人想不到的是,几年后 VICE 也复制了该实验,结果也和之前惊人地相似。新泽西理工大学教授 Elliot 对此表示:
目前的论文评分系统更加强调语法的准确性、书面措辞的标准性。但是对付学生敏锐的不雅观点和特殊的洞察却很难创造出来。然而这两点在人类评卷员看来,都是一篇论文最宝贵的地方。目前,已经有不少教诲领域的干系人士对这些机器改卷员提出质疑,而澳大利亚也已经宣告暂时搁置在标准考试当中引入机器评分系统。
来自 AI Now 研究所的 Sarah Myers West 表示,与在更广泛的人工智能运用领域中一样,想把算法偏见在评分系统中肃清同样是一场持久战。
不过只管如此,无论是来悛改泽西理工大学教授的 Elliot 还是来自 AI Now 研究所的 Sarah Myers West,他们都还是发展机器评分系统的支持者。由于这确实是未来的一个发展方向,正如犹他州的考试发展评估员 Cydnee Carter 所说,通过机器对论文进行评估,不仅能为国家的教诲系统省下大量的人力和物力,这项技能未来还能给学生和西席供应及时的学术反馈,极大地提高教诲效率。
只不过在完备能做到公正公道之前,这些机器评卷员,还是只充当一个赞助的角色为妙。