人与AI合作保障笔试质量自动评分，东北大学搭建框架

　由东北大学研究生院研究员（博士课程）Hiroaki Funayama 领导的一个研究小组开发了一种通过将人工评分员和 AI 之间的工作分开来确保评分质量的做法，以通过人工智能对书面答案进行自动评分(AI). 明确了分级质量可以通过系统的框架进行适当控制。

　随着使用深度学习的机器学习方法的出现，人工智能对描述性答案的自动评分的准确性显着提高。特别是，针对几个交叉的书面答案的简答简答题的自动评分，在某些问题上达到了与人类评分员相同水平的评分质量。然而，AI评分很难对包含学习数据中不存在的未知表达的答案进行适当评分，这是AI自动评分实际应用的主要障碍。

　因此，课题组构建了一个自动评分系统与人工合作评分的评分框架。该框架利用置信度，这是衡量 AI 评分结果的可靠性的指标。检查每个答案的自动评分结果的置信度，如果置信度低，则由人工评分员重新评分。

　首先，基于少量评分答案数据，我们估计达到预期成绩质量的置信度下限。当在实际自动评分过程中确定性因子低于下限时，人工进行重新评分以达到期望的评分质量。

　这次，我们使用日本和英语世界的描述性问题数据集，进行了模拟以确认预期效果，并阐明了其可行性。此外，还发现人工评分者之间评分结果的匹配率越高，能够以较低的成本实现评分质量越高。基于这些发现，预计自动评分的实际应用将在未来取得进展。

人类和AI合作保证描述性答案自动评分的质量，东北大学构建框架