构建高性能的端到端机器学习系统主要包括开发机器学习模型和为感兴趣的应用程序收集高质量的训练数据(假设一个人可以访问正确的硬件)。尽管在过去几年里,随着开源平台的兴起,机器学习模型变得越来越商品化,但管理高质量的标记训练数据集对许多现实世界的应用来说仍然是昂贵的或不可行的。因此,我们在本文中主要关注数据,特别是如何** (1)通过注入领域特定的先验知识或利用已为不同任务创建的现有软件系统和数据集,使用数据高效的机器学习方法减少对标记数据的依赖,(2)有效管理训练数据并构建相关工具,以最大化数据的效用,(3)通过将数据的结构与嵌入空间的几何形状进行匹配,提高嵌入所实现的数据表示的质量**。
我们首先描述了我们在构建数据高效的机器学习方法方面的工作,通过物理驱动的一致性训练增强、尺度等变展开神经网络和使用未经训练的神经网络弱监督来加速磁共振成像(MRI)重建。然后,我们描述了我们在构建用于自然语言理解的数据高效机器学习方法方面的工作。特别地,我们讨论了一种监督对比学习方法用于预训练的语言模型微调和一种大规模数据增强方法来检索领域数据。与有效管理训练数据相关,我们讨论了我们提出的用于类表单文档gather的信息提取系统,并重点讨论了训练数据管理和相关工具中经常被忽略的方面。我们强调了有效管理训练数据的重要性,表明它至少与机器学习模型在真实数据集的下游提取性能方面的进展一样关键。最后,为了改进各种类型数据的嵌入表示,我们研究了具有异质曲率的空间。我们展示了混合曲率表示为图和词嵌入提供了更高质量的表示。此外,我们还研究了如何将Wikidata知识图谱中的实体嵌入到一个抽象的文本摘要模型中,以增强其真实性。