在大型标注数据集上训练的强大机器学习(ML)模型,推动了自然语言处理和计算机视觉等领域的令人印象深刻的进步。反过来,这些发展导致了ML在医疗健康、电子商务和预测性维护等领域的有效应用。然而,获得训练高容量机器学习模型所需的标注数据集,往往是机器学习有前途应用的瓶颈。本文研究了获取领域知识的替代途径,并开发了从弱监督中学习的方法,即不完美的和间接的监督形式。我将介绍三种形式的弱监督:成对联动反馈、程序化弱监督和成对多模态数据。这些形式的信息通常很容易大规模获取,我开发的方法减少了——在某些情况下消除了——对点真实感注释的需要。我首先研究了成对监督的效用。我介绍了一种新的约束聚类方法,它使用少量的成对约束来同时学习核和聚类数据。该方法在大量多样的公开数据集上优于相关方法。接下来,将不完全成对监督引入程序化弱监督标签模型。我根据经验表明,仅一个弱成对反馈源就可以显著提高下游性能。通过引入与弱标签相协调的输入分布建模方法,进一步研究了程序化数据标记方法。本文首先介绍了一个框架,在观察到的弱标签的基础上联合学习标签和端模型,显示了端模型在下游测试集上的性能比之前的工作有所改进。接下来,介绍一种融合生成式对抗网络和程序化弱监督标签模型的方法,以使两者都受益,由标签模型性能和数据生成质量衡量。在本文的最后一部分,我解决了程序性弱监督的一个核心挑战:专家需要提供标签规则。首先,介绍了一个交互式学习框架,帮助用户发现弱监督源,以高效的方式捕获应用领域领域专家的知识。然后,我通过直接从非结构化自然语言描述中学习来研究完全省去标记功能的机会。特别是,我研究了如何将生物医学文本与图像配对用于自监督视觉-语言处理,产生数据高效的表示并实现零样本分类,而不需要专家定义文本或图像的规则。这些工作提供了新的方法和框架,以在机器学习模型中更有效地编码和使用专家领域知识,减少了因需要手工真实注释而产生的瓶颈。