Tabular data is considered the last unconquered castle of deep learning, yet the task of data stream classification is stated to be an equally important and demanding research area. Due to the temporal constraints, it is assumed that deep learning methods are not the optimal solution for application in this field. However, excluding the entire -- and prevalent -- group of methods seems rather rash given the progress that has been made in recent years in its development. For this reason, the following paper is the first to present an approach to natural language data stream classification using the sentence space method, which allows for encoding text into the form of a discrete digital signal. This allows the use of convolutional deep networks dedicated to image classification to solve the task of recognizing fake news based on text data. Based on the real-life Fakeddit dataset, the proposed approach was compared with state-of-the-art algorithms for data stream classification based on generalization ability and time complexity.


翻译:表格数据被视为深度学习的最后一座未被攻克的堡垒,而数据流分类任务同样被认为是一个重要且具有挑战性的研究领域。由于时间约束的限制,人们通常认为深度学习方法并非该领域应用的最佳解决方案。然而,考虑到近年来深度学习方法的显著进展,完全排除这一主流方法体系显得过于草率。因此,本文首次提出了一种基于句子空间方法的自然语言数据流分类方法,该方法能够将文本编码为离散数字信号形式。这使得我们可以利用专为图像分类设计的卷积深度网络来解决基于文本数据的假新闻识别任务。基于真实场景下的Fakeddit数据集,本文所提出的方法在泛化能力和时间复杂度方面与当前最先进的数据流分类算法进行了比较。

0
下载
关闭预览

相关内容

专知会员服务
112+阅读 · 2020年6月26日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员