WWWJ | 基于多视图表示学习的专利分类

2021 年 9 月 15 日 图与推荐

1. 引言

在当今社会，专利是企业保护自身核心知识产权的重要工具。根据世界知识产权与专利局所发布的数据，2020 年全年的专利申请量已经超过 300 万个，相比于 2019 年增加 5%。并且这一数字在持续增加中。在通常情况下，专利审查员会根据其具有的领域知识手工将每个专利手动分为多个类别。然而，随着专利申请迅速增长，传统的手动操作费力费时，几乎无法满足需求。因此，迫切需要自动专利分类工具来支持相关服务。专利的自动分类对于提高大规模专利管理和服务的效率具有重要意义。

目前关于专利自动分类的相关研究大致可以分为两个方面：挖掘有效的特征与设计专用的分类器。专利文档中含有大量的元特征以及文本信息，通过从中挖掘有效的特征对专利进行分类。另一方面，特定的分类器如SVM，CNN，GRU，BERT等方法也被引入来解决专利自动分类问题。例如，DeepPatent建立了深度卷积神经网络模型，并结合词嵌入对专利文件进行分类， PatentBert利用了功能强大的预训练语言模型 Bert，然后对其进行微调以处理多标签专利分类问题。目前与深度学习相关的研究很少有从多视图的角度来关注此任务，同时现有方法缺乏可解释性，即将其分类为特定类别的原因解释。

图1 专利多视图网络示例

为此，我们基于很少人关注的元数据信息，包括发明人和受让人公司，通过多视图专利网络分析的方法构建了名为 Patent2vec 的新颖框架。具体来说，我们首先根据专利数据的特性，将专利网络划分为三个视图，分别是语义视图、合作视图、受让人视图，如图1所示。进而，我们在单视图网络上根据其网络结构使用了不同的图表示学习方法来获得单视图的专利表示。之后，我们设计了一个包含多视图增强与多视图融合的多视图学习模块，其可以将多种视图的表示融合成单独的专利表示并且可以利用不同视图的相关性来增强专利的表示。最后，我们使用专利的表示来预测专利的类别。

相关成果已被中国计算机学会推荐B类国际期刊World Wide Web录用，论文信息如下：

论文标题：

Patent2Vec: Multi-view representation learning on patent-graphs for patent classification

论文作者：

Lintao Fang，Le Zhang，Han Wu，Tong Xu，Ding Zhou，Enhong Chen

2. 技术细节

2.1 问题描述

对于给定多视图专利网络 $\mathcal G=\{G^s,G^a,G^c\}$ ， $\{G^s,G^a,G^c\}$ 分别表示语义、受让人和合作视图网络。本文的问题是为每个专利学习潜在的低维向量表示 $P_i\in R^d\ (d\ll\vert V^p\vert)$ ，然后利用生成的表示来预测专利类别。

2.2 模型整体框架

图2 模型整体框架

其中，模型输入是多视图网络的网络结构信息，输出的是每个专利节点的低维向量表示。考虑到专利数据的独特特性，我们首先构建了多视图专利图, 并进一步设计了一个多视图学习模块。我们的模型可以同时生成专利表征并针对特定的下游任务进行优化，以下内容将详细介绍技术方案的每个部分的细节。

2.3 单视图网络表征

针对不同的视图，我们采用不同的方法来得到单视图的表征。首先，对于语义视图表征，我们在构建的语义视图网络上使用GraphSAGE模型来学习节点的嵌入表示：

其次，对于受让人视图，我们使用了基于元路径的随机游走来学习节点嵌入，我们定义了一个元路径模式 $\mathcal P:c_i \xrightarrow{assign}p_j\xrightarrow{cite}p_k\xrightarrow{assign}c_l$ ，然后根据随机游走的序列和skipgram模型来学习每个节点的表示，目标函数为：

最后，对于合作视图，我们同样采用基于元路径随机游走的网络嵌入方法学习节点表示，类似地，其目标函数为：

2.4 多视图学习模块

图3 表示增强模块的示意图

考虑到不同视图之间的相关性的知识，我们设计了一个视图增强模块，它通过从其他视图的表示来增强单视图表示，可以获得更好的单视图表示。其计算流程如上图3所示。

具体而言，我们使用基于注意力机制的多视图融合模块，将来自多个视图的表示融合提炼为单个表示：

考虑到不同的视图表示处于不同的向量空间中，融合后的表征可能会引入额外的噪声，我们受到多模态表示学习的启发，提出了一个多视图对齐模块。其通过将不同视图的表示投影到一个共同的表示空间中，然后使得不同视图之间表示相近，其损失函数为：

2.5 使用专利表示进行专利分类

在表示层之后，可以根据不同的任务接入不同的损失函数。在这里，我们的任务是专利分类，因此我们将融合的专利表示输入至两层全连接层预测专利的分类预测概率：

因为专利分类是多标签分类，在此使用BCE损失函数

最终损失函数为分类损失和对齐约束损失的联合：

3. 实验

3.1 数据集

在数据方面，我们使用美国专利商标局(USPTO)的专利数据库，其中包含约600万条专利数据。不失一般性，我们从中抽取了约60万条专利数据。并据此构建了专利网络，关于该数据的具体信息见下表：

3.2 实验结果

我们根据专利的预测结果正确与否来评估模型性能，采用了Precision@K，Recall@K以及NDCG@K指标进行对比。实验基准模型采用了基于文本分类的FastXML，Bi-LSTM，DeepPatent等模型和基于图的Deepwalk，node2vec，GCN等。整体的实验结果如下表所示：

3.3 消融实验

为了进一步验证提出的多视图表示学习模块对于学习专利表示的有效性，我们移除相应的模块，实现了几种变体Paten2vec-Fuse，Patent2vec-Enhance，Patent2vec-Alig等，实验结果如下表所示：

为了验证不同视图的重要性，在不改变其他模块的情况下，我们使用不同的视图信息组合进行实验，得到的结果如下：

整体而言，实验结果证实了语义信息、受让人和合作信息对于专利分类的价值，并验证了我们所提出的多视图表示学习模块的有效性。

3.4 可视化

我们选取了若干类别，并使用TSNE将专利的表示可视化，其结果如下图所示，可以看到，我们学习得到的表征是有较好的区分性的。

同时，我们选取将不同公司的专利的表示进行了可视化，我们从信息技术和汽车等领域选择了几家公司并对它们进行可视化，我们可以发现具有相似经营业务的公司具有较大的覆盖而不同行业的具有较大的距离。从这两幅可视化的图中可以看出我们提出的多视图表示学习模型是有效的。

登录查看更多

相关内容

图表示

关注 3

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

【NeurIPS 2021】多视角对比图聚类

专知会员服务

36+阅读 · 2021年10月31日

近期必读的5篇顶会WWW 2021【图神经网络+推荐】相关论文和代码

专知会员服务

49+阅读 · 2021年6月5日

图表示学习在药物发现中的应用，48页ppt

专知会员服务

101+阅读 · 2021年4月30日

【AAAI2021】数据增强图神经网络

专知会员服务

108+阅读 · 2020年12月21日

太原理工最新《图神经网络:分类,进展,趋势》综述论文，50页pdf400篇文献

专知会员服务

119+阅读 · 2020年12月19日

【NeurIPS2020 】数据扩充的图对比学习

专知会员服务

49+阅读 · 2020年11月9日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日

基于知识图谱的推荐系统研究综述

专知会员服务

332+阅读 · 2020年8月10日

【NeurIPS'21】从典型相关分析到自监督图表示学习

图与推荐

0+阅读 · 2022年2月15日

东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率

PaperWeekly

4+阅读 · 2021年12月14日

清华团队综述全面解读图神经网络理论方法与应用

THU数据派

1+阅读 · 2021年11月17日

35页最新《图表示学习》综述：预处理，特征提取与节点嵌入

图与推荐

2+阅读 · 2021年10月19日

KDD'21 | 图神经网络如何建模长尾节点?

图与推荐

6+阅读 · 2021年10月18日

综述 | 基于GNN的异常检测

图与推荐

1+阅读 · 2021年9月27日

【论文笔记】韩家炜团队无监督主题分类构建法

专知

11+阅读 · 2019年10月19日

【综述】短文本主题建模最新综述（附17页全文下载）

专知

33+阅读 · 2019年4月17日

图神经网络概述第三弹：来自IEEE Fellow的GNN综述

数盟

62+阅读 · 2019年1月7日

图神经网络综述：模型与应用

PaperWeekly

198+阅读 · 2018年12月26日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

文本分类中的文本图表示模型和结构化稀疏模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多核表示和模糊近似的混合数据分类方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于高维特征和稀疏子空间聚类的图像分割方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的隐写分析新方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

科研网络社区中社会化的知识推荐方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

指纹特征的统计模型及其在潜指纹和重叠指纹处理中的应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

结构化判别字典学习方法及其应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

多义性对象学习建模中若干问题的研究

国家自然科学基金

0+阅读 · 2011年12月31日

A Brief Survey on Deep Learning Based Data Hiding

Arxiv

0+阅读 · 2022年4月19日

Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation

Arxiv

0+阅读 · 2022年4月15日

A Survey on Data Augmentation for Text Classification

Arxiv

16+阅读 · 2021年7月7日

A Survey on Multi-Task Learning

Arxiv

31+阅读 · 2021年3月29日

A Survey on Knowledge Graphs: Representation, Acquisition and Applications

Arxiv

32+阅读 · 2021年1月17日

Text Classification Algorithms: A Survey

Arxiv

16+阅读 · 2020年5月20日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi-Supervised Methods

Arxiv

88+阅读 · 2019年3月27日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

VIP会员