构建高性能的端到端机器学习系统主要包括开发机器学习模型和为感兴趣的应用程序收集高质量的训练数据(假设一个人可以访问正确的硬件)。尽管在过去几年里,随着开源平台的兴起,机器学习模型变得越来越商品化,但管理高质量的标记训练数据集对许多现实世界的应用来说仍然是昂贵的或不可行的。因此,我们在本文中主要关注数据,特别是如何** (1)通过注入领域特定的先验知识或利用已为不同任务创建的现有软件系统和数据集,使用数据高效的机器学习方法减少对标记数据的依赖,(2)有效管理训练数据并构建相关工具,以最大化数据的效用,(3)通过将数据的结构与嵌入空间的几何形状进行匹配,提高嵌入所实现的数据表示的质量**。

我们首先描述了我们在构建数据高效的机器学习方法方面的工作,通过物理驱动的一致性训练增强、尺度等变展开神经网络和使用未经训练的神经网络弱监督来加速磁共振成像(MRI)重建。然后,我们描述了我们在构建用于自然语言理解的数据高效机器学习方法方面的工作。特别地,我们讨论了一种监督对比学习方法用于预训练的语言模型微调和一种大规模数据增强方法来检索领域数据。与有效管理训练数据相关,我们讨论了我们提出的用于类表单文档gather的信息提取系统,并重点讨论了训练数据管理和相关工具中经常被忽略的方面。我们强调了有效管理训练数据的重要性,表明它至少与机器学习模型在真实数据集的下游提取性能方面的进展一样关键。最后,为了改进各种类型数据的嵌入表示,我们研究了具有异质曲率的空间。我们展示了混合曲率表示为图和词嵌入提供了更高质量的表示。此外,我们还研究了如何将Wikidata知识图谱中的实体嵌入到一个抽象的文本摘要模型中,以增强其真实性。

成为VIP会员查看完整内容
83

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
45+阅读 · 7月11日
专知会员服务
63+阅读 · 2021年9月4日
专知会员服务
76+阅读 · 2021年7月17日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
72+阅读 · 2020年6月19日
斯坦福AI实验室机器学习编程新范式:弱监督
机器之心
11+阅读 · 2019年3月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
15+阅读 · 3月26日
Meta-Learning to Cluster
Arxiv
15+阅读 · 2019年10月30日
Arxiv
14+阅读 · 2018年6月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员