Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.


翻译:数值交互导致用户共享其他用户发布的文本内容,在自然上可用网络表示,其中个人与节点相关联,交换的文本与边相关。为了理解这些异构和复杂的数据结构,将节点聚类为同质群体,并呈现可理解的数据可视化是必要的。为了解决这两个问题,我们引入了Deep-LPTM,一种基于变分图自动编码器方法的模型聚类策略,以及一种用于描述讨论主题的概率模型。 Deep-LPTM允许在两个嵌入空间中构建节点和边的联合表示。使用变分推断算法推断参数。我们还引入了IC2L,这是一种特别设计用于选择具有相关聚类和可视化属性的模型的模型选择准则。提供了大量关于合成数据的基准研究。特别是,我们发现Deep-LPTM比最先进的ETSBM和STBM更好地恢复了节点的分区。最终,对恩隆公司的电子邮件进行了分析,并呈现了结果的可视化,其中突出显示了图形结构的有意义的亮点。

0
下载
关闭预览

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
SIGIR2022|基于注意力超图网络的交互协同聚类
专知会员服务
24+阅读 · 2022年5月14日
专知会员服务
42+阅读 · 2020年12月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
16+阅读 · 2022年11月21日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
35+阅读 · 2020年1月2日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关论文
Arxiv
0+阅读 · 2023年6月1日
Arxiv
0+阅读 · 2023年6月1日
Arxiv
16+阅读 · 2022年11月21日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
32+阅读 · 2021年3月8日
Arxiv
35+阅读 · 2020年1月2日
Arxiv
27+阅读 · 2018年4月12日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员