标题
一个全面的主动学习方法的实体匹配基准框架,A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching
关键字
实体匹配,自然语言处理,主动学习,人工智能
简介
实体匹配(EM)是一项核心的数据清理任务,旨在识别同一真实世界实体的不同提及。主动学习是在实践中解决稀缺标签数据挑战的一种方法,方法是动态收集要由Oracle标记的必要示例并在其上完善学习的模型(分类器)。 在本文中,我们为EM建立了统一的主动学习基准框架,使用户可以轻松地将不同的学习算法与适用的示例选择算法结合起来。 该框架的目标是为从业人员制定具体的指导方针,以说明哪些主动学习组合将对EM有效。 为此,我们使用包括EM质量,#labels和示例选择等待时间在内的各种指标,对来自产品和出版领域的公开可用EM数据集进行了全面的实验,以评估主动学习方法。 我们最令人惊讶的结果发现,标签较少的主动学习可以学习质量与监督学习相当的分类器。 实际上,对于其中的一些数据集,我们表明有一种主动的学习组合可以击败最新的监督学习结果。 我们的框架还包括新颖的优化功能,这些功能可将学习模型的F1分数提高大约9%,并将示例选择延迟降低10倍,而不会影响模型的质量。
作者
Vamsi Meduri,Lucian Popa,Prithviraj Sen,Mohamed Sarwat,来自Arizona State University,IBM Research, Almaden