ACL 2022 | KGTuner: 针对知识图谱学习的高效超参数搜索算法

会员服务 ·

ACL 2022 | KGTuner: 针对知识图谱学习的高效超参数搜索算法

2022 年 6 月 2 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 张永祺

单位 | 第四范式

研究方向 | 知识图谱表示与推理

论文标题：

KGTuner: Efficient Hyper-parameter Search for Knowledge Graph Learning

收录会议：

ACL 2022

论文地址：

https://aclanthology.org/2022.acl-long.194.pdf

代码链接：

https://github.com/AutoML-Research/KGTuner

内容概要

超参数搜索，是机器学习模型获得良好性能的关键。对于知识图谱的学习来说，同样是一个重要问题，一方面超参数的好坏会严重影响模型性能，另一方面模型训练时间长，现有的超参数搜索算法在这一问题上一个个尝试不同超参数配置，往往效率低下。为解决这一问题，我们详细地分析了知识图谱学习中不同超参数的性质，及子图到全图的迁移能力。

基于分析，我们提出两阶段的超参数搜索算法 KGTuner，如图 1 所示，我们在第一阶段利用子图高效地探索大量超参数，并将性能最好的几组超参数配置迁移到全图上，在第二阶段进行微调。实验表明，两阶段搜索算法大大提升了超参数搜索效率，在不同的大规模知识图谱链接预测任务上，均获得了性能的提升。

▲ 图1. KGTuner: 两阶段超参数搜索算法

问题定义

首先，我们将知识图谱学习问题，抽象成图1所示的框架，共包括五个重要组成部分：打分函数（scoring function），负采样（negative sampling），损失函数（loss function），正则化（regularization）和优化方式（optimization）。给定打分函数，即模型后，对其他四个成分进行配置，即为知识图谱学习中的超参数配置过程。

▲ 图2. 知识图谱学习整体框架

表 3 列出了知识图谱学习问题中常见的超参数和其取值范围，不同超参数的取值，构成了一个个不同的超参数配置。

▲ 图3. 知识图谱学习中常见的超参数

整体的优化目标，可以定义为图4中的二阶段优化问题。从超参数搜索空间中获取一个超参数配置之后，我们训练模型参数，拿到验证集上的性能反馈，目标在有限的时间内，从表 3 的范围中，尽可能搜索到性能更好的超参数配置。

▲ 图4. 搜索问题定义

理解知识图谱学习中的超参数

超参数搜索过程中，最关键的问题是效率，影响图4中搜索问题效率的主要有三个方面：（1）超参数搜索空间的大小，决定了搜索范围；（2）反馈指标的曲面分布，决定了哪种模型可以更好地模拟超参数空间；（3）模型训练的开销，决定了评估单个超参数配置的效率。

为减小超参数搜索空间，我们首先通过控制变量法，得到表 3 中的不同超参数各自的性能表现分布，并依据分布图将超参数分为四类。（1）选项缩减，如图 5 第一排所示，有的超参数选项恒定最优或恒定最差，我们可以将最优的固定，或者将最差的剔除。（2）范围裁剪，如图 5 第二排所示，一些连续型超参的范围可以被缩减到性能更优的区域。（3）单调变化，对于批大小和表示维度这样的超参数，通常更大的取值效果更好。（4）无明显规律。

▲ 图5. 不同组超参数表现分布图。蓝色小提琴图度量排名分布，越低越好。橙色箱线图度量性能分布，越高越好

同时，我们对不同超参的变化一致性进行了评估，即改变一个超参数，其他超参数的排序的变化大小。对于一致性高的超参数，我们可以先搜索其他超参，最后再对其进行微调。如图 6 所示，批大小和表示维度的一致性较高，其搜索可以与其他超参数解耦开。

▲ 图6. 超参数一致性

我们在图 7 中绘制了性能表现的曲面，和三个近似模型，即随机森林（RF）、高斯过程（GP）、多层感知器（MLP）的近似曲面。可以看出，随机森林模型的近似程度明显更好，更适合当前问题这样复杂的超参数空间。

▲ 图7. 性能曲面分布及近似模型曲面分布

最后我们研究了一些典型超参数的训练评估开销，及子图到全图的迁移能力。如图 8 所示，大的批量和大的表示维度会明显增大训练评估开销，而其他超参数对开销的影响不大。考虑到批大小和维度大小具有较高的一致性，我们可以先利用小的批量和参数维度去搜索其他超参，最后再增大二者的取值。

▲ 图8. 典型超参数的训练评估开销

我们通过相同一组超参数配置，在子图和全图上评估的一致性，来度量子图的迁移能力。首先，对于不同子图采样方法，如图 9 左下所示 multi-start random walk 的子图采样方式是更优的选择。对于采样子图大小的比例，如图 9 右下所示 20%~30% 的节点数目能更好的平衡迁移能力和评估效率。因此，我们选择通过 multi-start random walk 的方式来采 20% 的结点，加快超参数配置的评估。

▲ 图9. 全图到子图评估的迁移能力

完整算法如图 10 所示，在第一阶段，我们利用采样好的子图、小的批大小和参数维度，并以随机森林为预测模型来探索大量的超参数配置。第一阶段中前十的样本将被放入第二阶段，将其批大小和参数维度增大，恢复到全图上，进行最后的微调。最终全图上效果最好的超参数配置，即为最终搜索到的超参数。

▲ 图10. KGTuner完整算法

实验

实验效果，KGTuner 在知识图谱链接预测任务上进行了测试，包括样本内的数据（即超参理解实验所用的数据）WN18RR、FB15k-237，及样本外的大规模图谱 ogbl-biokg、ogbl-wikikg2。可以看到，大多数模型的效果，在 KGTuner 调参之后，性能均获得了提升。

▲ 图11. KGTuner对不同知识图谱链接预测模型调参结果对比

搜索效率方面，KGTuner 与传统超参搜索算法，如 Random search、Hyperopt、Ax、SMAC、RF+BORE，和图网络超参搜索算法 AutoNE，进行了对比，如图 12 所示，KGTuner 在第二阶段一开始，就能找到比其他搜索算法更好的模型，因为 KGTuner 的算法设计同时考虑到了搜索空间、预测器和评估代价。

▲ 图12. 不同超参搜索算法对比，左图越大越好，右图越小越好

未来工作方向

由于 KGTuner 目前局限于单个三元组的模型，如 TransE、ComplEx 等，扩展到更多类型模型，如 CompGCN 等，利用图结构的模型，会是一个重要方向。除了超参数搜索之外，可以结合 AutoSF，实现超参数和模型的全自动化搜索。此外，整个算法目前缺少理论层面的理解，加强了理论分析，将更有利于算法的优化和完善。

招聘启事

清华大学电子系机器学习课题组招聘博士后，合作导师为姚权铭助理教授。

课题组主页：

https://lars-group.github.io/

招聘详情：

清华大学电子系姚权铭教授招聘机器学习方向博士后

相关文献

[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications. TNNLS 2022.

[2] You CAN Teach an Old Dog New Tricks! On Training Knowledge Graph Embeddings. ICLR 2020.

[3] Bilinear Scoring Function Search for Knowledge Graph Learning. TPAMI 2022

[4] Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013

[5] Convolutional 2D Knowledge Graph Embeddings. AAAI 2018

[6] Complex Embeddings for Simple Link Prediction. ICML 2017

[7] Algorithms for Hyper-Parameter Optimization. NeurIPS 2011

[8] BORE: Bayesian Optimization by Density-Ratio Estimation. ICML 2021

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

超参数搜索

关注 0

【清华第四范式港科大TPAMI2022】知识图谱学习的双线性评分函数搜索

专知会员服务

15+阅读 · 2022年4月25日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

【微信@CIKM2021 】强化学习推荐模型的知识蒸馏探索之路

专知会员服务

28+阅读 · 2021年12月4日

【NeurIPS 2021】实例依赖的偏标记学习

专知会员服务

11+阅读 · 2021年11月28日

【KDD2021】高效数据特定模型搜索的协同过滤

专知会员服务

15+阅读 · 2021年6月26日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【EMNLP2020】开放领域对话的数据增广的方法：“对话蒸馏”

专知会员服务

30+阅读 · 2020年9月29日

【ICML2020】基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略

专知会员服务

13+阅读 · 2020年7月9日

【IJCAI2020】图神经网络预测结构化实体交互

专知会员服务

43+阅读 · 2020年5月13日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

33+阅读 · 2019年10月18日

SIGIR 2022 | 面向长代码序列的Transformer模型优化方法，提升长代码场景性能

PaperWeekly

0+阅读 · 2022年7月13日

NAACL 2022 | 机器翻译SOTA模型的蒸馏

PaperWeekly

1+阅读 · 2022年6月28日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知

1+阅读 · 2022年3月27日

NeurIPS'21 | 面向开放世界特征的图学习

图与推荐

2+阅读 · 2021年12月18日

微信@CIKM | 强化学习推荐模型的知识蒸馏探索之路

图与推荐

1+阅读 · 2021年12月3日

[SIGIR'21] DMTL：召回场景基于蒸馏的多目标学习方案

图与推荐

0+阅读 · 2021年11月28日

面向Transformer模型的高效预训练方法

哈工大SCIR

1+阅读 · 2021年6月5日

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

干货 | 让算法解放算法工程师——NAS 综述

极市平台

16+阅读 · 2019年6月20日

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于增强邻域搜索策略的联合型生产调度问题算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

目标实体轮廓跟踪中动态高阶能量最小化问题的研究

国家自然科学基金

0+阅读 · 2013年12月31日

无线自组织网络中动态业务流的机会网络编码优化

国家自然科学基金

0+阅读 · 2013年12月31日

参数复杂性、SAT求解器和树宽度

国家自然科学基金

0+阅读 · 2012年12月31日

间歇过程控制系统的动态性能评估与优化理论及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

演化和蚁群算法的近似性能分析

国家自然科学基金

0+阅读 · 2011年12月31日

多核系统下调控模式识别的MapReduce模型及算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于体域分解的六面体网格生成

国家自然科学基金

0+阅读 · 2011年12月31日

面向大规模复杂三角网格的模具CAD算法

国家自然科学基金

0+阅读 · 2010年12月31日

AlphaVC: High-Performance and Efficient Learned Video Compression

Arxiv

0+阅读 · 2022年7月29日

A Graph Theoretic Exploration of Coronary Vascular Trees

Arxiv

0+阅读 · 2022年7月29日

Sample-efficient Safe Learning for Online Nonlinear Control with Control Barrier Functions

Arxiv

0+阅读 · 2022年7月29日

Combining human parsing with analytical feature extraction and ranking schemes for high-generalization person reidentification

Arxiv

0+阅读 · 2022年7月28日

Fine-grained Private Knowledge Distillation

Arxiv

0+阅读 · 2022年7月27日

Branch Ranking for Efficient Mixed-Integer Programming via Offline Ranking-based Policy Learning

Arxiv

0+阅读 · 2022年7月26日

A Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling

Arxiv

0+阅读 · 2022年7月23日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员