多模态信息抽取,Multi-modal Information Extraction from Text, Semi-structured, and Tabular Data on the Web
Organizers: Xin Luna Dong, Hannaneh Hajishirzi, Colin Lockard and Prashant Shiralkar
万维网以多种形式包含大量的文本信息:非结构化文本、基于模板的半结构化网页(以键-值对和列表的形式呈现数据)和表格。从这些资源中提取信息并将其转换为结构化形式的方法一直是自然语言处理(NLP)、数据挖掘和数据库社区研究的目标。虽然这些研究人员已经很大程度上根据数据的模态将web数据的提取分离到不同的问题中,但他们也面临着类似的问题,比如使用有限的标记数据进行学习,定义(或避免定义)本体,利用先验知识,以及针对web规模的缩放解决方案。在本教程中,我们将从整体的角度来看待信息抽取,探索挑战中的共性,以及为解决这些不同形式的文本而开发的解决方案。
地址: