随着深度学习和自然语言处理技术的发展,预训练语言模型已广泛用于解决信息检索(IR)问题。得益于预训练和微调的范式,这些模型实现了最先进的性能。在以前的工作中,维基百科中的纯文本在预训练阶段被广泛使用。然而,维基百科中的丰富结构化信息,如标题、摘要、层次化标题(多级标题)结构、文章之间的关系、参考文献、超链接结构和写作组织,并未被充分探索。在本文中,我们根据维基百科的结构化知识,设计了四个针对IR任务的预训练目标。与现有的预训练方法相比,我们的方法通过利用维基百科中由人类编辑的结构化数据,可以更好地捕获训练语料库中的语义知识。在多个IR基准数据集上的实验结果显示,与现有强大的检索基线相比,我们的模型在零样本和微调设置中均表现出色。此外,在生物医学和法律领域的实验结果表明,与以前的模型相比,我们的方法在垂直领域中实现了更好的性能,尤其是在需要长文本相似性匹配的场景中。代码可在 https://github.com/oneal2000/Wikiformer 获取。

成为VIP会员查看完整内容
18

相关内容

【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
26+阅读 · 1月17日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
39+阅读 · 2023年12月14日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
专知会员服务
43+阅读 · 2021年7月6日
【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
105+阅读 · 2021年6月12日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
专知会员服务
21+阅读 · 2021年2月6日
深度学习图像检索(CBIR): 十年之大综述
专知
65+阅读 · 2020年12月5日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
148+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【WSDM2024】DiffKG:面向推荐的知识图谱扩散模型
专知会员服务
26+阅读 · 1月17日
【AAAI2024】LAMM: 多模态提示学习的标签对齐
专知会员服务
39+阅读 · 2023年12月14日
【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
专知会员服务
43+阅读 · 2021年7月6日
【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
105+阅读 · 2021年6月12日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
专知会员服务
21+阅读 · 2021年2月6日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员