“AI阅卷靠谱吗？提高了效率还是助长了作弊”-中华热线网

本篇文章1622字，读完约4分钟

科学技术日报记者陈曦

随着人工智能的迅速发展，许多app应用了智能评价系统。但是，背英语读app分数的父母也不少，英语专业8级水平的分数也只有80分。

除了适用于口语语音智能得分外，人工智能还适用于判决书。但是，最近，据说为美国2万所学校服务的ai教育平台被推翻，“打脸”的是平台搭载的ai阅卷功能，学生们可以通过那个漏洞“裸考”轻松过关。之所以被学生们钻了“空子”，是因为这个系统只是用关键词评分，学生们只需要借用标题中的“关键词沙拉”，就能顺利通过或者取得高分。

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

必须在阅卷之前设定评分标准

“自动评分、评分引擎通常需要设定评分标准，然后根据设定的标准设计合适的评分算法和模型。 ”。天津大学智能计算系教授、博士生导师熊德意介绍说，例如口语评价评分等，需要机器评价人的发音是否标准、所读句子的重音是否正确、所读部分是否准确等。这些可能都是评价的标准。

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

ai阅卷功能与语言复制的评价相关，涵盖了语法、意义等多个方面，多用于自然语言解决技术中。

“自然语言解决是人工智能的重要分支，研究利用计算机智能化解决自然语言，基础自然语言解决技术围绕语言的不同层面展开，包括音位(语言的发音模式)、形态(字、字母如何构成单词，单词的包括句法(单词如何形成句子)、语义(语言表达对应的含义)、语用(不同语境下的语义解释)、章节(句子如何组合成段落) 7个阶段”熊德意强调，这些基本语言自然会得到解决

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

虽然有多种设计自动评价指标的方法，但一般根据评价类型选择适当的方法。 “例如，阅卷功能为了进行翻译问题的自动评价，可以让老师预先写多个参考译文的回答，并将学生的回答和参考回答进行类比。计算它们的相似度作为学生解答好坏的评价指标。 ”。在熊德意的例子中，机器翻译常用的评价指标bleu是根据参考翻译和机器翻译之间的n元( n元)拟合度计算相似度的。

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

如果一个单词一元，两个相连的单词2元、3元、4元，答案中有一个单词与参考答案中的单词一致，则给出1元的分数，同样可以计算2元、3元、4元的分数。我们对不同的要素设定不同的权重，将得分统一为客观值，得分越高证明两者的相似性越高。

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

为什么ai得分相差很大

这次ai阅卷翻盘的导火索是历史系教授学霸儿子在历史考试中只获得了50%的分数，但她在评价了儿子的答案后，认为孩子的答案基本没有问题。

同样的答案，人工评价和机器评价为什么差别这么大？

“这是基于ai算法的自动评估面临的最大挑战。以及如何与人工评价相匹配。应对这个挑战需要处理的问题很多。例如，如何制定适当的评价标准，以主观主题进行自动评价，需要适当的评价标准和规范。例如，如何应对语言的千变万化，语言多样化是自然语言解决的首要挑战之一，语言的自动评价和自动解决必须面对多样化的挑战。例如，如何设计综合评价指标，目前有多种指标，但综合考虑语言文案各个方面的指标很少。例如作文自动阅卷功能包括术语是否合理(词汇)、句子是否流畅(句法)、段落组织是否整齐(文章)、文案是否被扣分(含义、语用)等”熊德意说，上述bleu仅是单词形式，

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

“遵循的评价规则、评价的出发点不同，对应的算法模型也不同。因为这最后的结果也大不相同。 ”。

这仅仅利用一种评价方法显然是不完整的，这说明孩子的母亲在答案中试图添加“财富、商队、中国、印度”等主题的关键字时，这些关键字之间即使没有任何联系也获得了满分。 “这个ai阅卷功能可能只采用了简单的关键词匹配。这是因为“关键词沙拉”也可以蒙混过关。 ”。熊德诠释。

“AI阅卷靠谱吗？提高了效率还是助长了作弊”

此外，口语人工评价和机器评价也有很大差异。 “近年来，语音识别性能通过深入的学习技术得到了显着的提高，但在开放域、噪声环境下，这种识别率下降了很多。 ”熊德意解。如果机器“听”了一个单词，错误评价的话，机器进行评价，就会形成一个错误传递。也就是说，上游系统的错误会引起以下系统的错误，给错误加错误，错误越大，评价结果就越不同。

标题：“AI阅卷靠谱吗？提高了效率还是助长了作弊”

地址：http://www.5e8e.com/hlw/20019.html