Authorial clustering involves the grouping of documents written by the same author or team of authors without any prior positive examples of an author's writing style or thematic preferences. For authorial clustering on shorter texts (paragraph-length texts that are typically shorter than conventional documents), the document representation is particularly important: very high-dimensional feature spaces lead to data sparsity and suffer from serious consequences like the curse of dimensionality, while feature selection may lead to information loss. We propose a high-level framework which utilizes a compact data representation in a latent feature space derived with non-parametric topic modeling. Authorial clusters are identified thereafter in two scenarios: (a) fully unsupervised and (b) semi-supervised where a small number of shorter texts are known to belong to the same author (must-link constraints) or not (cannot-link constraints). We report on experiments with 120 collections in three languages and two genres and show that the topic-based latent feature space provides a promising level of performance while reducing the dimensionality by a factor of 1500 compared to state-of-the-arts. We also demonstrate that, while prior knowledge on the precise number of authors (i.e. authorial clusters) does not contribute much to additional quality, little knowledge on constraints in authorial clusters memberships leads to clear performance improvements in front of this difficult task. Thorough experimentation with standard metrics indicates that there still remains an ample room for improvement for authorial clustering, especially with shorter texts


翻译:文献群集涉及将同一作者或作者小组编写的文件分组,而没有事先任何作者书面风格或主题偏好的任何正面实例。对于文件群集的较短文本(篇幅通常比常规文件短的段落文本),文件代表特别重要:非常高的地表空间导致数据宽度,并遭受诸如维度诅咒等严重后果,而特征选择可能导致信息损失。我们提议了一个高级别框架,在非参数主题模型生成的潜在特征空间中利用紧凑的数据代表,随后在两种情景下确定作者群:(a) 完全不受监督,(b) 半监督,因为已知少量较短文本属于同一作者(链接限制)或不是(链接限制),因此,非常高的特征群集导致数据宽广。我们报告以三种语言和两种类型收集的120种文献的实验情况,并表明基于专题的潜在特征空间提供了有希望的绩效水平,同时将维度降低为1500项,而相比之下,在两种情景群集中,我们还表明,虽然事先掌握了大量质量限制,但对于精确的作者群集仍难掌握更多的研究,因此,对于精确的作者的群集仍缺乏更多的研究。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
专知会员服务
44+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
107+阅读 · 2020年10月5日
专知会员服务
40+阅读 · 2020年9月6日
专知会员服务
174+阅读 · 2020年6月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
12+阅读 · 2018年6月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年1月15日
Arxiv
0+阅读 · 2021年1月14日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
12+阅读 · 2018年6月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员