在许多实际情况中(例如,学术网络、社交平台),不同类型的实体不仅与文本关联,而且还通过各种关系相互连接,这可以被抽象为文本属性异构图(TAHGs)。当前的语言模型(LMs)预训练任务主要集中在分开学习每个实体的文本信息,并忽视了捕捉TAHGs中实体之间的拓扑关系的重要方面。在这篇论文中,我们提出了一个新的针对LMs的预训练框架,明确地考虑TAHGs中的拓扑和异构信息。首先,我们定义了一个上下文图为特定顺序内的目标节点的邻域,并提议一个拓扑意识的预训练任务,通过联合优化LM和一个辅助的异构图神经网络来预测参与上下文图的节点。其次,基于观察到一些节点文本丰富,而其他节点文本很少的现象,我们设计了一种文本增强策略,通过其邻居的文本来丰富没有文本的节点,以处理不平衡问题。我们在三个来自不同领域的数据集上进行链接预测和节点分类任务。实验结果证明了我们的方法相对于现有方法的优越性和每种设计的合理性。我们的代码可在以下链接找到:https://github.com/Hope-Rita/THLM。

成为VIP会员查看完整内容
20

相关内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
34+阅读 · 2020年11月29日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
72+阅读 · 2020年9月25日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
67+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
34+阅读 · 2020年11月29日
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
72+阅读 · 2020年9月25日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员