Temporal data (such as news articles or Twitter feeds) often consists of a mixture of long-lasting trends and popular but short-lasting topics of interest. A truly successful topic modeling strategy should be able to detect both types of topics and clearly locate them in time. In this paper, we compare the variability of topic lengths discovered by several well-known topic modeling methods including latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), as well as its tensor counterparts based on the nonnegative CANDECOMP/PARAFAC tensor decomposition (NCPD and Online NCPD). We demonstrate that only tensor-based methods with the dedicated mode for tracking time evolution successfully detect short-lasting topics. Furthermore, these methods are considerably more accurate in discovering the points in time when topics appeared and disappeared compared to the matrix-based methods such as LDA and NMF. We propose quantitative ways to measure the topic length and demonstrate the ability of NCPD (as well as its online variant), to discover short and long-lasting temporal topics in semi-synthetic and real-world data including news headlines and COVID-19 related tweets.


翻译:时间数据(如新闻文章或Twitter种子)往往由长期趋势与受欢迎但短期感兴趣的专题混合组成。一个真正成功的专题示范战略应该能够探测出两种类型的专题并及时明确定位。在本文中,我们比较了几个众所周知的专题模型方法发现的专题长度的变异性,包括潜在的diriclet分配(LDA)、非负矩阵因子化(NMF),以及基于非负性的CANDECOMP/PARAFAC 高频分解(NCPD和在线NPD)的对口方。我们表明,只有以专门跟踪时间演变模式为主的以虫为基础的方法才能成功发现短期专题。此外,与基于矩阵的方法(例如LDA和NMF)相比,这些方法在发现专题出现和消失的时间点方面相当准确。我们提出了衡量专题长度的量化方法,并展示NCDDD(及其在线变式)在半合成和现实世界数据(包括新闻头条和COVI-D-19相关TRV)中发现短期和长期专题的能力。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月16日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
37+阅读 · 2019年11月13日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月16日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
37+阅读 · 2019年11月13日
相关资讯
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员