ACL 2022 | KGTuner: 针对知识图谱学习的高效超参数搜索算法

6 月 2 日 PaperWeekly


©PaperWeekly 原创 ·  作者 |  张永祺
单位 | 第四范式
研究方向 |  知识图谱表示与推理



论文标题:

KGTuner: Efficient Hyper-parameter Search for Knowledge Graph Learning

收录会议:

ACL 2022

论文地址:

https://aclanthology.org/2022.acl-long.194.pdf

代码链接:

https://github.com/AutoML-Research/KGTuner




内容概要

超参数搜索,是机器学习模型获得良好性能的关键。对于知识图谱的学习来说,同样是一个重要问题,一方面超参数的好坏会严重影响模型性能,另一方面模型训练时间长,现有的超参数搜索算法在这一问题上一个个尝试不同超参数配置,往往效率低下。为解决这一问题,我们详细地分析了知识图谱学习中不同超参数的性质,及子图到全图的迁移能力。


基于分析,我们提出两阶段的超参数搜索算法 KGTuner,如图 1 所示,我们在第一阶段利用子图高效地探索大量超参数,并将性能最好的几组超参数配置迁移到全图上,在第二阶段进行微调。实验表明,两阶段搜索算法大大提升了超参数搜索效率,在不同的大规模知识图谱链接预测任务上,均获得了性能的提升。

▲ 图1. KGTuner: 两阶段超参数搜索算法



问题定义

首先,我们将知识图谱学习问题,抽象成图1所示的框架,共包括五个重要组成部分:打分函数(scoring function),负采样(negative sampling),损失函数(loss function),正则化(regularization)和优化方式(optimization)。给定打分函数,即模型后,对其他四个成分进行配置,即为知识图谱学习中的超参数配置过程。


▲ 图2. 知识图谱学习整体框架
 
表 3 列出了知识图谱学习问题中常见的超参数和其取值范围,不同超参数的取值,构成了一个个不同的超参数配置。

▲ 图3. 知识图谱学习中常见的超参数

整体的优化目标,可以定义为图4中的二阶段优化问题。从超参数搜索空间 中获取一个超参数配置 之后,我们训练模型参数 ,拿到验证集上的性能反馈 ,目标在有限的时间内,从表 3 的范围中,尽可能搜索到性能更好的超参数配置。

▲ 图4. 搜索问题定义



理解知识图谱学习中的超参数

超参数搜索过程中,最关键的问题是效率,影响图4中搜索问题效率的主要有三个方面:(1)超参数搜索空间 的大小,决定了搜索范围;(2)反馈指标 的曲面分布,决定了哪种模型可以更好地模拟超参数空间;(3)模型训练 的开销,决定了评估单个超参数配置的效率。


为减小超参数搜索空间 ,我们首先通过控制变量法,得到表 3 中的不同超参数各自的性能表现分布,并依据分布图将超参数分为四类。(1)选项缩减,如图 5 第一排所示,有的超参数选项恒定最优或恒定最差,我们可以将最优的固定,或者将最差的剔除。(2)范围裁剪,如图 5 第二排所示,一些连续型超参的范围可以被缩减到性能更优的区域。(3)单调变化,对于批大小和表示维度这样的超参数,通常更大的取值效果更好。(4)无明显规律。


▲ 图5. 不同组超参数表现分布图。蓝色小提琴图度量排名分布,越低越好。橙色箱线图度量性能分布,越高越好


同时,我们对不同超参的变化一致性进行了评估,即改变一个超参数,其他超参数的排序的变化大小。对于一致性高的超参数,我们可以先搜索其他超参,最后再对其进行微调。如图 6 所示,批大小和表示维度的一致性较高,其搜索可以与其他超参数解耦开。

▲ 图6. 超参数一致性
 
我们在图 7 中绘制了性能表现的曲面,和三个近似模型,即随机森林(RF)、高斯过程(GP)、多层感知器(MLP)的近似曲面。可以看出,随机森林模型的近似程度明显更好,更适合当前问题这样复杂的超参数空间。


▲ 图7. 性能曲面分布及近似模型曲面分布
 
最后我们研究了一些典型超参数的训练评估开销,及子图到全图的迁移能力。如图 8 所示,大的批量和大的表示维度会明显增大训练评估开销,而其他超参数对开销的影响不大。考虑到批大小和维度大小具有较高的一致性,我们可以先利用小的批量和参数维度去搜索其他超参,最后再增大二者的取值。


▲ 图8. 典型超参数的训练评估开销
 
我们通过相同一组超参数配置,在子图和全图上评估的一致性,来度量子图的迁移能力。首先,对于不同子图采样方法,如图 9 左下所示 multi-start random walk 的子图采样方式是更优的选择。对于采样子图大小的比例,如图 9 右下所示 20%~30% 的节点数目能更好的平衡迁移能力和评估效率。因此,我们选择通过 multi-start random walk 的方式来采 20% 的结点,加快超参数配置的评估。


▲ 图9. 全图到子图评估的迁移能力
 
完整算法如图 10 所示,在第一阶段,我们利用采样好的子图、小的批大小和参数维度,并以随机森林为预测模型来探索大量的超参数配置。第一阶段中前十的样本将被放入第二阶段,将其批大小和参数维度增大,恢复到全图上,进行最后的微调。最终全图上效果最好的超参数配置,即为最终搜索到的超参数。


▲ 图10. KGTuner完整算法

 

实验

实验效果,KGTuner 在知识图谱链接预测任务上进行了测试,包括样本内的数据(即超参理解实验所用的数据)WN18RR、FB15k-237,及样本外的大规模图谱 ogbl-biokg、ogbl-wikikg2。可以看到,大多数模型的效果,在 KGTuner 调参之后,性能均获得了提升。


▲ 图11. KGTuner对不同知识图谱链接预测模型调参结果对比

搜索效率方面,KGTuner 与传统超参搜索算法,如 Random search、Hyperopt、Ax、SMAC、RF+BORE,和图网络超参搜索算法 AutoNE,进行了对比,如图 12 所示,KGTuner 在第二阶段一开始,就能找到比其他搜索算法更好的模型,因为 KGTuner 的算法设计同时考虑到了搜索空间、预测器和评估代价。


▲ 图12. 不同超参搜索算法对比,左图越大越好,右图越小越好
 



未来工作方向

由于 KGTuner 目前局限于单个三元组的模型,如 TransE、ComplEx 等,扩展到更多类型模型,如 CompGCN 等,利用图结构的模型,会是一个重要方向。除了超参数搜索之外,可以结合 AutoSF,实现超参数和模型的全自动化搜索。此外,整个算法目前缺少理论层面的理解,加强了理论分析,将更有利于算法的优化和完善。

招聘启事


清华大学电子系机器学习课题组招聘博士后,合作导师为姚权铭助理教授。


课题组主页:

https://lars-group.github.io/


招聘详情:

清华大学电子系姚权铭教授招聘机器学习方向博士后



相关文献

[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications. TNNLS 2022.

[2] You CAN Teach an Old Dog New Tricks! On Training Knowledge Graph Embeddings. ICLR 2020.

[3] Bilinear Scoring Function Search for Knowledge Graph Learning. TPAMI 2022

[4] Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013

[5] Convolutional 2D Knowledge Graph Embeddings. AAAI 2018

[6] Complex Embeddings for Simple Link Prediction. ICML 2017

[7] Algorithms for Hyper-Parameter Optimization. NeurIPS 2011

[8] BORE: Bayesian Optimization by Density-Ratio Estimation. ICML 2021

 

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
9+阅读 · 2021年11月28日
专知会员服务
10+阅读 · 2021年6月26日
专知会员服务
27+阅读 · 2020年11月29日
【IJCAI2020】图神经网络预测结构化实体交互
专知会员服务
38+阅读 · 2020年5月13日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
15+阅读 · 2019年10月18日
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
0+阅读 · 6月28日
NeurIPS'21 | 面向开放世界特征的图学习
图与推荐
1+阅读 · 2021年12月18日
[SIGIR'21] DMTL:召回场景基于蒸馏的多目标学习方案
面向Transformer模型的高效预训练方法
哈工大SCIR
0+阅读 · 2021年6月5日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
干货 | 让算法解放算法工程师——NAS 综述
极市平台
15+阅读 · 2019年6月20日
深度学习超参数搜索实用指南
云栖社区
24+阅读 · 2018年10月14日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
How to Fine-Tune BERT for Text Classification?
Arxiv
12+阅读 · 2019年5月14日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
Top
微信扫码咨询专知VIP会员