机器学习和人工智能领域在过去十年中取得了显著进展。得益于计算和算法的进步,以及大数据集的可获取性,它已经从纯粹的学术研究发展到以工业为主导的领域。随着企业开始在其专有数据集上训练模型,数据质量的重要性作为一个关键因素浮现出来,与传统的模型架构改进并行。因此,数据驱动的人工智能(Data-Centric AI,简称DCAI)开发方法应运而生,侧重于通过系统的数据管理(数据收集、标注和策划)来提升模型性能,而非单纯改善模型本身。
本论文旨在通过全面的文献综述,探讨数据驱动的人工智能(DCAI)这一新兴范式,涵盖DCAI所涉及的广泛主题。此外,论文展示了三个关键子主题的三篇发表论文:第一篇论文提出了一种新的主动学习方法,适用于高度不平衡的数据集,帮助解决工业应用中常见的类别不平衡问题。第二篇论文介绍了MC层归一化(MC Layer Normalization),这是一种替代常规层归一化的方法,通过在特征子采样过程中引入随机性,能够在神经网络中进行不确定性估计。最后,第三篇论文提出了一个名为Softmatcher的视觉提示框架,用于交互式图像分割。该框架将基础模型与高效的概率特征匹配过程结合,使得通过视觉提示实现快速、无训练的图像分割成为可能。 这三种方法成功集成到多个IBM产品中,为研究在工业环境中的适用性和影响力提供了有力的证据。本论文展示了数据驱动方法的潜力,表明通过持续关注数据质量,可以在较低成本和更短时间内开发出显著改进的机器学习模型。