在自然语言处理(NLP)中,许多任务都涉及到结构化预测:预测由一组相互依赖的变量组成的结构化输出。这允许从非结构化的原始文本中提取有用的信息,这对下游任务和人类与机器的分析都是有益的。为了获得自动模型,主要范式是采用数据驱动的监督学习方式。在这种范式中,主要的瓶颈是手工标注数据的可用性,这通常是昂贵且耗时的。此外,我们通常希望将模型扩展到各种新的场景,例如在不同的领域或语言中。如果训练实例不足以覆盖目标场景,模型的性能可能会大幅下降,而在所有这些新情境中标注大量的数据实例又是昂贵且低效的。

为了缓解这个问题并减少结构化预测模型对大量标注的依赖,我们需要考虑模型和数据的两个方面,这些是数据驱动机器学习的主要动力。关于这两个核心方面,我们研究了三个方向。首先,我们研究了模型设计中的结构化建模,这涉及到如何对复杂的结构化输出进行建模和预测。这对于通常具有大输出空间的结构化预测任务尤为重要。此外,在模型和数据的交互上,我们研究了迁移学习,其中相关数据被用来帮助低资源目标任务。 在这种情况下,如何设计对源数据和目标数据资源之间的差异更不敏感的模型对于转移的成功也是至关重要的。最后,我们探索了有关数据本身的主动学习。当资源有限时,很难获得大量的标注实例,但标注一小部分是可行的。通过选择一个有信息量的实例集,可能需要更少的手工标注就能达到令人满意的性能。这篇论文包括三部分,对应这三个方向。在第一部分,我们研究了深度神经模型中结构化输出建模的影响。我们发现,结构化建模在句子级完全匹配上带来了好处,并有更高效的模型。我们进一步扩展了对低资源场景的分析,并研究了结构约束和训练数据大小的交互。在第二部分,我们研究了一系列相关的结构化任务,发现从相关数据(例如来自同一任务但在不同语言中的数据(跨语言学习)和来自相关任务的数据(多任务学习))得到的监督可以是有益的,特别是如果使用那些对源和目标差异关心较少的模型。最后,在第三部分,我们对NLP中的结构化预测的主动学习进行了系统性的调查。特别地,我们分析了使用部分结构进行标注和学习的有效性,这可以提高主动学习的数据效率。此外,我们展示了将主动学习与自学习结合,使用来自主动学习数据池的未标注实例可以带来进一步的改进。

成为VIP会员查看完整内容
24

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETH博士论文】基于离散优化的学习,193页pdf
专知会员服务
43+阅读 · 2023年9月17日
【MIT博士论文】量子计算中的人工智能前景, 253页pdf
专知会员服务
42+阅读 · 2023年8月23日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【CMU博士论文】神经序列建模与应用,102页pdf
专知会员服务
55+阅读 · 2022年8月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
VIP会员
相关VIP内容
【ETH博士论文】基于离散优化的学习,193页pdf
专知会员服务
43+阅读 · 2023年9月17日
【MIT博士论文】量子计算中的人工智能前景, 253页pdf
专知会员服务
42+阅读 · 2023年8月23日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【CMU博士论文】神经序列建模与应用,102页pdf
专知会员服务
55+阅读 · 2022年8月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员