We present a method for the classification of multi-labelled text documents explicitly designed for data stream applications that require to process a virtually infinite sequence of data using constant memory and constant processing time. Our method is composed of an online procedure used to efficiently map text into a low-dimensional feature space and a partition of this space into a set of regions for which the system extracts and keeps statistics used to predict multi-label text annotations. Documents are fed into the system as a sequence of words, mapped to a region of the partition, and annotated using the statistics computed from the labelled instances colliding in the same region. This approach is referred to as clashing. We illustrate the method in real-world text data, comparing the results with those obtained using other text classifiers. In addition, we provide an analysis about the effect of the representation space dimensionality on the predictive performance of the system. Our results show that the online embedding indeed approximates the geometry of the full corpus-wise TF and TF-IDF space. The model obtains competitive F measures with respect to the most accurate methods, using significantly fewer computational resources. In addition, the method achieves a higher macro-averaged F measure than methods with similar running time. Furthermore, the system is able to learn faster than the other methods from partially labelled streams.


翻译:为数据流应用专门设计了多标签文本文件的分类方法,这需要使用恒定的内存和不断的处理时间处理几乎无限的数据序列。我们的方法包括一种在线程序,用于将文本有效映射成低维特征空间,并将这一空间分成一系列区域,系统提取并保存用于预测多标签文本说明的统计数据。文件以文字顺序输入系统,绘制到分区区域,并使用从同一区域标记的相撞实例中计算出来的统计数据附加说明。这个方法被称为冲突。我们用真实世界文本数据来说明方法,将结果与其他文本分类器比较。此外,我们分析显示系统预测性能的表示空间维度对一系列区域的影响。我们的结果显示,在线嵌入的确实接近于全物理智能TF和TF-IDF空间的几何测量方法。模型在最精确的方法方面获得了竞争性的F度量度,使用的计算资源要少得多。我们用真实世界文本数据来说明方法来比较。我们用实际世界文本数据中的方法,将结果与其他文本分类方法进行比较。此外,我们还提供了关于系统显示空间的表示空间维度对系统预测性效果的影响的分析,比其它的宏观测量方法要快。此外,方法从更接近于能测量法流,比其他的流学方法。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
AI掘金志
7+阅读 · 2019年7月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
5+阅读 · 2019年4月25日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
31+阅读 · 2018年11月13日
VIP会员
相关VIP内容
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
已删除
AI掘金志
7+阅读 · 2019年7月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员