摘要:随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行分析,介绍卷积神经网络、循环神经网络、注意力机制等方法在文本分类中的应用和发展,分析多种典型分类方法的特点和性能,从准确率和运行时间方面对基础网络结构进行比较,表明深度神经网络较传统机器学习方法在用于文本分类时更具优势,其中卷积神经网络具有优秀的分类性能和泛化能力。在此基础上,指出当前深度文本分类模型存在的不足,并对未来的研究方向进行展望。
http://www.ecice06.com/article/2021/1000-3428/2121.htm
文本分类技术经历了从专家系统到机器学习再到深度学习的发展过程。在20世纪80年代以前,基于规则系统的文本分类方法需要领域专家定义一系列分类规则,通过规则匹配判断文本类别。基于规则的分类方法容易理解,但该方法依赖专家知识,系统构建成本高且可移植性差。20世纪90年代,机器学习技术逐渐走向成熟,出现了许多经典的文本分类算法,如决策树[1]、朴素贝叶斯[2]、支持向量机[3]、最大熵[4]、最近邻[5]等,这些方法部分克服了上述缺点,一定程度上实现了分类器的自动生成,被广泛应用于各个领域。然而,机器学习方法在构建分类器之前通常需要繁杂的人工特征工程,这限制了其进一步发展。
2012年之后,深度学习算法引起了研究者的广泛关注。深度学习为机器学习建模提供了一种直接端到端的解决方案,可避免复杂的特征工程。GolVe[6]和word2vec[7]等词向量模型的提出,使深度学习算法成功地应用到文本处理领域,随后出现了各种基于深度神经网络(Deep Neural Network,DNN)的文本分类方法。这些方法主要采用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和注意力机制等深度学习技术,并且取得了比传统方法更为出色的性能。近年来,图卷积网络(Graph Convolutional Network,GCN)、区域嵌入和元学习等一些新的深度学习方法也被应用于文本分类领域。
本文对基于深度神经网络的文本分类技术进行介绍和分析,阐述卷积神经网络、循环神经网络和注意力机制等方法在文本分类中的应用和发展情况,总结各类方法的特点及区别,并对不同方法的性能表现和适用场景进行比较,讨论在应用深度学习方法处理文本分类任务时应当注意的问题。在此基础上,指出针对该技术未来的研究方向。