本文约5454字,建议阅读11分钟。本文介绍来自维也纳医科大学人工智能与决策支持研究所的研究人员通过调查3867篇AI论文,得出了“用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能”。“用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能”,来自维也纳医科大学人工智能与决策支持研究所的研究人员通过调查3867篇AI论文,得出了这个结论。基准测试是AI研究进展的重要推动力。任务和与之相关的度量可以被视为科学界旨在解决的问题的抽象。基准数据集被概念化为模型要解决的固定代表样本。这些论文来自基于开放源代码的Papers with Code平台(PWC)。尽管科学家们已经建立了涵盖机器翻译、目标检测或问答等一系列任务的基准,但维也纳医科大学的研究者表示,有些指标例如准确率,会强调模型表现的某些方面,而忽视其他方面。这些论文的基准测试中很少使用其他更合适的指标,仅使用那些常用的有问题的指标。例如准确率、BLEU分数等指标的使用频率高的惊人,而它们都存在评估片面性缺陷,而那些被证明更有用的指标,例如MCC、FM等,基本没有出现在分析的论文中。并且这些论文对指标的描述经常出现不一致且不明确的地方,导致对结果的优越性判断模棱两可,尤其是指标名称可能被过度简化,例如把不同的AUC统一表述为AUC。Papers with Code最近20年论文调查研究人员调查了2000年至2020年6月之间发表的3,867篇论文中2,298份数据集中的32,209个基准结果。从统计数据中,我们也可以大致了解AI二十年来的发展概况。 表1:分析数据集的统计概况(表中3,883应为失误,编者注)。值得一提的是,对Papers with Code的论文调查也反映出,自2012年来,AI论文数量呈指数增长趋势。图1:Papers with Code每年发表论文数量,y轴对数缩放。在这些论文中,研究对象集中于图像、语言和一些更基础的流程(包括迁移和元学习等)。图2显示了每个AI子流程的基准数据集数量。 其中,“视觉流程”、“自然语言处理”和“基础AI流程”是关联基准数据集数量最多的三个子流程。图2:每个AI子流程的基准数据集数量,x轴按对数比例缩放。在这些论文中,总共使用了187个不同的top-level(最常用)指标。图3展示了选定的指标的层次结构。图3:指标层次结构。图左显示了top-level指标列表部分;图右显示了“准确率”的子指标列表部分。到目前为止,分类指标是关联基准数据集数量最多的类型。在下图中,top-level指标根据其通常应用于的任务类型进行分类,例如 “准确率”被归类为”分类”,“均方误差”被归类为“回归”,“BLEU”被归类为“自然语言处理”。图4:每种top-level指标的数量(蓝色条)以及使用至少一个相应top-level指标的不同基准数据集的数量(灰色条),x轴按对数比例缩放。