【导读】短文本主题建模方法,在实际场景中有着广泛的应用,本文为大家带来了这一领域的最新综述。
介绍:
针对短文本的主题分析以及推断理解,在现实世界中具有重要的应用价值。传统的基于词共现的长文本主题建模算法(如PLSA、LDA)在短文本问题上,由于其长度的限制,词共现特征所提供的信息价值过低,所以难以解决主题建模问题。
因而,短文本主题建模问题在近些年来,吸引了大量的研究人员投入其中。在这篇综述中,我们对短文本主题建模方法进行了综合的调研,提出了以下分类方法:based on Dirichlet multinomial mixture、全局词共现、以及自聚合,进而对不同类别中的方法进行了案例研究,并提供了多种任务下的性能对比;同时提供一份开源工具包——STTM,其中基于JAVA提供了本综述中的全部代码实现;最终,我们评估了在多个现实数据集中的最优方法,并将它们的性能与长文本主题建模方法进行了对比。
原文链接
https://arxiv.org/pdf/1904.07695.pdf
请关注专知公众号(点击上方蓝色专知关注)
后台回复“STTM” 就可以获取本文论文下载
现在一些新闻聚合网站中,经常会提供新闻聚合功能,如下表中的新闻内容,将被聚合为一条新闻头条。
这一功能中就使用到了短文本主题建模技术,通过这个例子可以发现,这些短文本中具有以下几点特征:
1、每条短文本中缺少足够的共现信息
2、由于某些常见词,会使得不同类别的新闻被聚合到同一条目
3、统计信息很难捕获那些具有语义关联,但并不经常共现的词汇
4、对于某些文本中,单主题假设可能过于严格
为解决以上问题,科研人员提出了多种方法,在这里我们将短文本主题建模算法归类为以下三个类别:
1、Dirichlet multinomial mixture (DMM) based methods
2、Global word co-occurrences based methods
3、Self-aggregation based methods
算法汇总:
另外,本文提供了以上算法的JAVA实现工具包——STTM:
代码链接
https://github.com/qiang2100/STTM
性能分析:
附论文全文下载:
-END-
专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!
请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~
专知《深度学习:算法到实战》课程全部完成!530+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!
点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程