在大型标注数据集上训练的强大机器学习(ML)模型,推动了自然语言处理和计算机视觉等领域的令人印象深刻的进步。反过来,这些发展导致了ML在医疗健康、电子商务和预测性维护等领域的有效应用。然而,获得训练高容量机器学习模型所需的标注数据集,往往是机器学习有前途应用的瓶颈。本文研究了获取领域知识的替代途径,并开发了从弱监督中学习的方法,即不完美的和间接的监督形式。我将介绍三种形式的弱监督:成对联动反馈、程序化弱监督和成对多模态数据。这些形式的信息通常很容易大规模获取,我开发的方法减少了——在某些情况下消除了——对点真实感注释的需要。我首先研究了成对监督的效用。我介绍了一种新的约束聚类方法,它使用少量的成对约束来同时学习核和聚类数据。该方法在大量多样的公开数据集上优于相关方法。接下来,将不完全成对监督引入程序化弱监督标签模型。我根据经验表明,仅一个弱成对反馈源就可以显著提高下游性能。通过引入与弱标签相协调的输入分布建模方法,进一步研究了程序化数据标记方法。本文首先介绍了一个框架,在观察到的弱标签的基础上联合学习标签和端模型,显示了端模型在下游测试集上的性能比之前的工作有所改进。接下来,介绍一种融合生成式对抗网络和程序化弱监督标签模型的方法,以使两者都受益,由标签模型性能和数据生成质量衡量。在本文的最后一部分,我解决了程序性弱监督的一个核心挑战:专家需要提供标签规则。首先,介绍了一个交互式学习框架,帮助用户发现弱监督源,以高效的方式捕获应用领域领域专家的知识。然后,我通过直接从非结构化自然语言描述中学习来研究完全省去标记功能的机会。特别是,我研究了如何将生物医学文本与图像配对用于自监督视觉-语言处理,产生数据高效的表示并实现零样本分类,而不需要专家定义文本或图像的规则。这些工作提供了新的方法和框架,以在机器学习模型中更有效地编码和使用专家领域知识,减少了因需要手工真实注释而产生的瓶颈。

https://www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/

成为VIP会员查看完整内容
28

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】高效自然语言生成,203页pdf
专知会员服务
31+阅读 · 2023年2月17日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
34+阅读 · 2022年12月14日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
134+阅读 · 2022年10月4日
专知会员服务
86+阅读 · 2021年9月4日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
178+阅读 · 2020年5月29日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
斯坦福AI实验室机器学习编程新范式:弱监督
机器之心
12+阅读 · 2019年3月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年4月26日
Arxiv
18+阅读 · 2021年6月10日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
【CMU博士论文】高效自然语言生成,203页pdf
专知会员服务
31+阅读 · 2023年2月17日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
34+阅读 · 2022年12月14日
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
134+阅读 · 2022年10月4日
专知会员服务
86+阅读 · 2021年9月4日
【哥伦比亚大学博士论文】深度概率图建模147页pdf
专知会员服务
88+阅读 · 2021年4月27日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
82+阅读 · 2020年11月5日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
178+阅读 · 2020年5月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员