最近,美国一家知名教育平台登上了 Reddit 热搜。

原因是有家长爆料,该公司旗下的 AI 阅卷系统存在重大漏洞,学生只要在答题区写上零散的 “关键词”就能轻松拿高分。

在事后采访中,一位匿名学生称,

如果不是阅卷系统的的漏洞,我不会通过代数 2 考试,我只是把与问题相关的关键词填了上去,我相信老师们已经发现,但他们没有做任何处理。

据了解,这款 AI 阅卷系统搭载于虚拟学习平台 Edgenuity,目前已服务了 2 万所美国院校。

而这位爆料者名为达娜 · 西蒙斯(Dana Simmons),是加州大学河滨分校的历史系副教授。

她之所以发现 AI 评分系统漏洞是因为他的学霸儿子在历史测评中只拿到了 50% 的成绩。

随便写写就能拿高分

拉扎尔(Lazare)是一名高中生,他刚刚在 Edgenuity 平台完成了历史考试测评,满分 100,他只拿到了 50 分,这显然与平时成绩相差很多,他很伤心。

一开始,Simmons 还试图安慰他,也许这次的阅卷的老师比较严格。不过,Lazare 称,老师并没有看他的答案,提交试卷不到一分钟,成绩就出现了。

Simmons 知道,这应该是系统算法自动评分,随后他看了儿子的考试试卷,似乎并没有什么大的问题。于是,她决定用一道历史题测试一下系统的评分规则,结果让她大跌眼镜。

题目是这样的:君士坦丁堡的地理位置如何帮助拜占庭帝国变得富有和繁荣?

它位于爱琴海和黑海之间,是商船和乘客的集散地。它也正处于欧洲和小亚细亚之间,这使它成为一个巨大的贸易中心,而且在当时的许多贸易路线。利润、多样化、西班牙、中国、印度、非洲。

Simmons 称,她只是写了两个相关的长句,然后又往上堆叠了一些不连贯的关键词,比如财富、印度、中国、中东。但这种拼凑的 “单词沙拉(Word Salad)”形式,系统却给了她满分。

原来根据该公司官网显示,系统的的评分规则是,如果某些问题的答案不包括关键字,系统会判定为 0 分,如果至少包含一个关键字,则为 100 分。而其他的问题根据包含的关键字数量获得一定的百分比。

按关键词评分不失为一种好的方式,但只是按照关键词,显然会出现明显失误。

随后,Simmons 在社交平台 Twitter 上,公开指责 Edgenuity 公司,称其 AI 算法漏洞不利于教育公平,引起很多网友的关注和支持。

对此,Edgenuity 公司做出回应称,AI 系统评分只是作为参考,老师有权对其进行修改。

Edgenuity 不会使用算法代替老师评分,只是为老师提供评分指导。老师有能力接受或否决建议的分数,AI 不会决定学生的课程成绩。

不过,这一回应也是分分钟打脸。

在事后采访中,Lazare 的一位同学表示,老师确实可以重新查看学生的试卷,并给出最终的得分。但他认识的大多数同学都表示,从未见过老师更改 Edgenuity 分配的成绩,尽管听说有同学使用 “单词沙拉”的方法获取高分。

“如果老师在看答案,他们根本不在乎”。

“我整个学期都靠它”

重要的是,Simmons 并不是最早发现 Edgenuity 存在评分漏洞的的人。

一位已经毕业的高中生奥斯丁 · 帕拉迪索(Austin Paradiso)表示,他在高中期间曾多次使用 Edgenuity 平台进行考试,虽然不喜欢 “关键词沙拉”,但这种方式确实有助于得高分,而且 100% 有效。

据了解,Edgenuity 是美国知名在线虚拟教育机构,已成立二十多年,其提供的 K12 教育服务已广泛用于 2 万多所院校,而这一服务就包括 Edgenuity 平台内置的 AI 评分系统。

另外,由于今年受疫情影响,大多数美国学校都转向了线上授课模式,其教学和评分服务业也选择外包给虚拟教育平台,Edgenuity 是其中收到合同最多的一个。

据统计,Edgenuity 公司为初中生和高中生提供了 300 多个在线课程,涉及从数学到社会研究的各个领域。这些课程由教学视频、虚拟作业,以及在线考试组成。Edgenuity 在其中负责课程提供和作业评分。

而经过多次考试,很多学生都已经摸透了系统的评估方法。

一位学生说,当他不会做的时候,会尝试提交与问题相关的成批关键词,这种方法通常都会奏效。

还有另外一位同学表示,他们会截取原文中的关键词粘贴到答题区,在整个上学期都使用了这个技巧。并且每次都能获得不低的分数。

另外,在 4 个月前,还有学生公然在 Reddit 上发布帖子,询问如何利用 Edgenuity 作弊。

在老师不知情的情况下,如何成功欺骗 Edgenuity?

我发现你们可以轻松地找到所有答案,我想知道是如何做到的,是否会花时间回答每个问题?

帖子下方聚集了很多同学评论,分享在线作弊技巧。其中一位学生表示,几乎每一次 Edgenuity 平台考试都会作弊。

此次 Simmons 的揭发对 Edgenuity 造成了不小影响,已家长公开反对学校使用该虚拟平台,并表示不希望技术影响孩子成绩。

AI 阅卷,你怎么看?

AI 技术参与到考试测评系统中似乎是一种必然的趋势。在国内已经有很多相关研究,而且一些技术已经开始逐步走向落地阶段。

阿里巴巴于近日发起的百万奖金数学挑战赛,便声称由其自主研发的 AI 担任辅助阅卷老师。

不过,关于 AI 阅卷的标准性和公平性一直备受争议。

对于有标准答案的客观题来说,AI 的评分能力毋庸置疑,而且对于一些基础的识别错字能力,AI 也有不错的表现,比如在 2017 年阿里举办的 AI 作文评分测试中,AI 仅用十几秒,就在一篇 200 字的作文中的找出了 8 个错别字。

显然,AI 在提高阅卷效率,减少老师压力方面发挥了不少作用。但对于一些开放式试题,比如作文,AI 阅卷则产生了不同的争议。

有人认为,AI 阅卷可以避免主观偏见,在文本结构、语言表达方面形成统一的标准,而且其海量的文章储备,也会高于人类老师的评分水平。

但也有人表示,AI 判分过于刻板,如上文中的 Edgenuity 平台,开放式题目表达是考生的核心思想,人类的情感表达是 AI 无法按照对错来评判的。

对此你怎么看呢?

关键词: