【CMU博士论文】不同形式的不完全和间接监督的机器学习，220页pdf

在大型标注数据集上训练的强大机器学习(ML)模型，推动了自然语言处理和计算机视觉等领域的令人印象深刻的进步。反过来，这些发展导致了ML在医疗健康、电子商务和预测性维护等领域的有效应用。然而，获得训练高容量机器学习模型所需的标注数据集，往往是机器学习有前途应用的瓶颈。本文研究了获取领域知识的替代途径，并开发了从弱监督中学习的方法，即不完美的和间接的监督形式。我将介绍三种形式的弱监督:成对联动反馈、程序化弱监督和成对多模态数据。这些形式的信息通常很容易大规模获取，我开发的方法减少了——在某些情况下消除了——对点真实感注释的需要。我首先研究了成对监督的效用。我介绍了一种新的约束聚类方法，它使用少量的成对约束来同时学习核和聚类数据。该方法在大量多样的公开数据集上优于相关方法。接下来，将不完全成对监督引入程序化弱监督标签模型。我根据经验表明，仅一个弱成对反馈源就可以显著提高下游性能。通过引入与弱标签相协调的输入分布建模方法，进一步研究了程序化数据标记方法。本文首先介绍了一个框架，在观察到的弱标签的基础上联合学习标签和端模型，显示了端模型在下游测试集上的性能比之前的工作有所改进。接下来，介绍一种融合生成式对抗网络和程序化弱监督标签模型的方法，以使两者都受益，由标签模型性能和数据生成质量衡量。在本文的最后一部分，我解决了程序性弱监督的一个核心挑战:专家需要提供标签规则。首先，介绍了一个交互式学习框架，帮助用户发现弱监督源，以高效的方式捕获应用领域领域专家的知识。然后，我通过直接从非结构化自然语言描述中学习来研究完全省去标记功能的机会。特别是，我研究了如何将生物医学文本与图像配对用于自监督视觉-语言处理，产生数据高效的表示并实现零样本分类，而不需要专家定义文本或图像的规则。这些工作提供了新的方法和框架，以在机器学习模型中更有效地编码和使用专家领域知识，减少了因需要手工真实注释而产生的瓶颈。

https://www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】高效自然语言生成，203页pdf

专知会员服务

34+阅读 · 2023年2月17日

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【牛津大学博士论文】学习和解释来自多模态数据的深度表示，267页pdf

专知会员服务

84+阅读 · 2022年10月30日

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日