数据高效的机器学习(DEML)对AF/DoD(美空军/美国防部)的运作至关重要,原因如下:首先,训练机器学习算法通常需要一个大型的、完全标记的训练数据集。人类对原始数据的标注是一个昂贵而耗时的过程,尤其是在专家分析师队伍有限的情况下。因此,机器学习算法必须从有限的标记的训练数据中产生准确的预测模型。此外,任务环境和目标可能是多样的、快速变化的,因此,机器学习模型必须能够快速适应手头的情况。机器学习系统(和人类分析员)可用的原始数据的质量也往往是不可预测的。可能经常发生的情况是,并非所有用于预测和决策的理想特征都可用。因此,机器学习算法必须对缺失或部分未观察到的数据具有鲁棒性。
这项工作的范围是在以下关键领域为DEML创造新工具:1)为涉及丰富的高维特征空间的分类和搜索问题开发数据效率高的主动学习算法;2)开发新的交互式工具,使人类分析者能够快速和准确地标记大型数据集;3)开发一个新的框架,用于丰富的人类注释,除标签外还提供解释和特征相关性反馈;4)在软件中建立算法原型。这些目标将需要对DEML问题进行基本的数学研究和分析、算法开发和原型设计,以及用真实和合成数据集进行测试和实验。