由东北大学研究生院研究员(博士课程)Hiroaki Funayama 领导的一个研究小组开发了一种通过将人工评分员和 AI 之间的工作分开来确保评分质量的做法,以通过人工智能对书面答案进行自动评分(AI). 明确了分级质量可以通过系统的框架进行适当控制。
随着使用深度学习的机器学习方法的出现,人工智能对描述性答案的自动评分的准确性显着提高。特别是,针对几个交叉的书面答案的简答简答题的自动评分,在某些问题上达到了与人类评分员相同水平的评分质量。然而,AI评分很难对包含学习数据中不存在的未知表达的答案进行适当评分,这是AI自动评分实际应用的主要障碍。
因此,课题组构建了一个自动评分系统与人工合作评分的评分框架。该框架利用置信度,这是衡量 AI 评分结果的可靠性的指标。检查每个答案的自动评分结果的置信度,如果置信度低,则由人工评分员重新评分。
首先,基于少量评分答案数据,我们估计达到预期成绩质量的置信度下限。当在实际自动评分过程中确定性因子低于下限时,人工进行重新评分以达到期望的评分质量。
这次,我们使用日本和英语世界的描述性问题数据集,进行了模拟以确认预期效果,并阐明了其可行性。此外,还发现人工评分者之间评分结果的匹配率越高,能够以较低的成本实现评分质量越高。基于这些发现,预计自动评分的实际应用将在未来取得进展。