Topic model evaluation, like evaluation of other unsupervised methods, can be contentious. However, the field has coalesced around automated estimates of topic coherence, which rely on the frequency of word co-occurrences in a reference corpus. Contemporary neural topic models surpass classical ones according to these metrics. At the same time, topic model evaluation suffers from a validation gap: automated coherence, developed for classical models, has not been validated using human experimentation for neural models. In addition, a meta-analysis of topic modeling literature reveals a substantial standardization gap in automated topic modeling benchmarks. To address the validation gap, we compare automated coherence with the two most widely accepted human judgment tasks: topic rating and word intrusion. To address the standardization gap, we systematically evaluate a dominant classical model and two state-of-the-art neural models on two commonly used datasets. Automated evaluations declare a winning model when corresponding human evaluations do not, calling into question the validity of fully automatic evaluations independent of human judgments.


翻译:专题模型评价与其他未受监督的方法一样,可能会引起争议。然而,实地围绕专题一致性的自动估计,依靠参考材料中共同出现字数的频率,对专题一致性进行自动估计,这取决于在参考材料中共同出现字数的频率。当代神经专题模型比根据这些指标的经典模型要强。同时,专题模型评价也存在验证差距:为古典模型开发的自动化一致性,尚未在神经模型中使用人类实验进行验证。此外,对专题模型文献的元分析显示,在自动专题模型基准方面存在着巨大的标准化差距。为了解决验证差距,我们将自动一致性与两种最广泛接受的人类判断任务(专题评级和侵入字数)进行比较。为了解决标准化差距,我们系统地评价了两种常用数据集的主要经典模型和两种最先进的神经模型。一个自动评价在相应的人类评价不成功时宣布一个成功模型,从而质疑完全自动评价是否有效,而独立于人类判断。

0
下载
关闭预览

相关内容

Automator是苹果公司为他们的Mac OS X系统开发的一款软件。 只要通过点击拖拽鼠标等操作就可以将一系列动作组合成一个工作流,从而帮助你自动的(可重复的)完成一些复杂的工作。Automator还能横跨很多不同种类的程序,包括:查找器、Safari网络浏览器、iCal、地址簿或者其他的一些程序。它还能和一些第三方的程序一起工作,如微软的Office、Adobe公司的Photoshop或者Pixelmator等。
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
4+阅读 · 2018年4月26日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
相关资讯
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员