Network embedding is a method to learn low-dimensional representation vectors for nodes in complex networks. In real networks, nodes may have multiple tags but existing methods ignore the abundant semantic and hierarchical information of tags. This information is useful to many network applications and usually very stable. In this paper, we propose a tag representation learning model, Tag2Vec, which mixes nodes and tags into a hybrid network. Firstly, for tag networks, we define semantic distance as the proximity between tags and design a novel strategy, parameterized random walk, to generate context with semantic and hierarchical information of tags adaptively. Then, we propose hyperbolic Skip-gram model to express the complex hierarchical structure better with lower output dimensions. We evaluate our model on the NBER U.S. patent dataset and WordNet dataset. The results show that our model can learn tag representations with rich semantic information and it outperforms other baselines.
翻译:网络嵌入是一种在复杂网络中为节点学习低维代表矢量的方法。 在真实的网络中, 节点可能有多个标签, 但现有的方法忽略了标签中大量的语义和等级信息。 此信息对许多网络应用程序有用, 并且通常非常稳定 。 在本文中, 我们提出一个标记代表学习模型, Tag2Vec, 将节点和标记混入混合网络。 首先, 对于标签网络, 我们定义语义距离为标签之间的近距离, 并设计一个新颖策略, 参数化随机行走, 以生成带有适应性标签的语义和等级信息的上下文。 然后, 我们提出双曲跳格模型, 以更清晰的方式表达复杂的等级结构, 并且低输出维度。 我们评估了 NBER U. S. 专利数据集和 WordNet 数据集的模型。 结果显示, 我们的模型可以学习带有丰富的语义信息的标签表达方式, 并且超越其他基线 。