信息抽取(Information Extraction, IE)是自然语言处理的核心领域之一,专注于从普通文本中识别结构化信息,例如命名实体和关系。它在下游应用中至关重要,包括问答系统、知识图谱构建、推理以及信息检索。然而,传统的信息抽取框架通常是在独立同分布(i.i.d.)数据假设下进行训练,在现实场景中由于领域差异(例如文本类型和实体类别的变化)导致性能显著下降。此外,在所有领域收集数据既昂贵又不切实际,从而导致数据稀缺问题。本文旨在通过探索以下三个主题来解决这些挑战,从而构建可泛化的信息抽取框架:(i) 将信息抽取模型从数据丰富的领域迁移到标注稀疏的领域;(ii) 将信息抽取模型适配到新的、未见过的领域;(iii) 在完全零样本的情况下实现信息抽取模型的泛化。 具体而言,我们首先开发了适用于真实场景跨领域迁移的可适应信息抽取框架,并设计了一项实用任务,即在法律元素抽取中实现跨领域迁移。为了缓解领域间数据稀缺和标注不一致问题,我们提出了一种基于图增强的提示学习框架。接下来,针对标注数据有限的情况,我们研究了小样本跨领域命名实体识别,设计了一种融合类型相关特征的提示学习框架。最后,我们探讨了信息抽取模型能否在完全未标注的语料库中实现泛化,为此提出了一种协作式多代理系统,用于零样本信息抽取任务,通过基于大型语言模型的代理的集体智能和专业能力实现任务目标。 https://hdl.handle.net/11245.1/73c07f45-d2d5-4f36-ac85-f23a55159dcb

成为VIP会员查看完整内容
0

相关内容

荷兰最大城市,位于荷兰西部。阿姆斯特丹是繁(kai)华(fang)知(zi)名(you)的国际大都市
【CMU博士论文】混合知识架构问答系统,150页pdf
专知会员服务
40+阅读 · 2023年12月14日
【博士论文】最优传输图表示学习,204页pdf
专知会员服务
44+阅读 · 2023年10月25日
【硬核书】数据科学,282页pdf
专知
23+阅读 · 2022年11月29日
【MIT博士论文】数据高效强化学习,176页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
404+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员