信息抽取(Information Extraction, IE)是自然语言处理的核心领域之一,专注于从普通文本中识别结构化信息,例如命名实体和关系。它在下游应用中至关重要,包括问答系统、知识图谱构建、推理以及信息检索。然而,传统的信息抽取框架通常是在独立同分布(i.i.d.)数据假设下进行训练,在现实场景中由于领域差异(例如文本类型和实体类别的变化)导致性能显著下降。此外,在所有领域收集数据既昂贵又不切实际,从而导致数据稀缺问题。本文旨在通过探索以下三个主题来解决这些挑战,从而构建可泛化的信息抽取框架:(i) 将信息抽取模型从数据丰富的领域迁移到标注稀疏的领域;(ii) 将信息抽取模型适配到新的、未见过的领域;(iii) 在完全零样本的情况下实现信息抽取模型的泛化。 具体而言,我们首先开发了适用于真实场景跨领域迁移的可适应信息抽取框架,并设计了一项实用任务,即在法律元素抽取中实现跨领域迁移。为了缓解领域间数据稀缺和标注不一致问题,我们提出了一种基于图增强的提示学习框架。接下来,针对标注数据有限的情况,我们研究了小样本跨领域命名实体识别,设计了一种融合类型相关特征的提示学习框架。最后,我们探讨了信息抽取模型能否在完全未标注的语料库中实现泛化,为此提出了一种协作式多代理系统,用于零样本信息抽取任务,通过基于大型语言模型的代理的集体智能和专业能力实现任务目标。 https://hdl.handle.net/11245.1/73c07f45-d2d5-4f36-ac85-f23a55159dcb