东北大学研究生院助理教授 Soh Yibun 领导的研究小组将以往研究中取得优异成绩的深度学习模型的关注领域与基于医生诊断的重要领域进行了比较,结果发现 30% 的关注领域大约 80% 与医学上重要的领域无关,而且很明显,两者之间存在很大差异。
深度学习等人工智能(AI)取得了显着进展,其在医学图像诊断中的应用正在取得进展。然而,深度学习模型的有效性验证不足,例如医学图像的特征与医学检查结果的匹配程度等不足,在临床实践中,有可能导致与诊断的不一致。医生的结果令人担忧。
研究小组以使用法医尸检图像进行溺水诊断为例,检验了在之前的研究中取得了高性能的深度学习模型的医学有效性。使用可视化技术识别深度学习模型关注的图像特征,并将其定义为“感兴趣区域”,并将诊断放射科医生根据图像发现注释的图像区域定义为医学“重要区域”。
因此,模型的感兴趣区域仅在 30% 的情况下与医学上重要的区域相匹配。此外,即使达成了大约 80% 的共识,该地区内的重要地位也不同。考虑到之前的研究报道所测试的深度学习模型能够对溺水进行分类,准确率高达90%以上,但该模型与临床医学发现之间存在出乎意料的巨大差异,可以说是存在的。
研究表明,人们对人工智能医学图像诊断的医学有效性存在担忧,预计通过开展新的训练方法开发等验证和应对措施,实现高度安全的人工智能的临床应用。它将完成。