要 随着大数据时代的到来,互联网中的文本信息迎来了井喷式的增长.文本分类作为自然语言处理中最重 要的技术之一,其广泛应用于多个领域,如情感分析、新闻分类、自然语言推理、主题标记、抽取式问答、虚假内容检 测等.从传统机器学习分类方法理论的深入到深度学习分类方法探索的兴起,相关研究模型与思路也在不断演变, 各类新的方法、数据集和评价指标层出不穷,丰富了文本分类领域的研究,取得了卓越的理论成就和应用效果.尽 管如此,新技术不断发展和业务应用场景不断丰富,同时,也为文本分类研究带来了许多新的问题与挑战,如数据 约束场景中不均衡数据的文本表征学习、小样本场景下的文本分类等.针对当前研究难题与挑战,本文对文本分类 方法进行了系统性调研,并对当前方法在实际应用场景中面临的技术挑战和未来的研究方向进行了综合探讨.具 体而言,本文主要综述了七部分内容,分别是:(1)对文本分类技术的相关基础知识进行了全面介绍,包括文本分类 的常见符号定义、计算范式和文本预处理技术;(2)对基于传统机器学习的文本分类方法进行了详细总结;同时,为 了方便读者针对不同的应用场景选择合适的分类模型,本文对不同分类器擅长处理的文本分类难题及方法优劣进 行了总结;(3)对基于新兴深度学习的文本分类方法进行了周详梳理,根据领域内代表性技术的核心思想进行分 类,在此基础上对不同类别下的主要方法进行描述,同时对其技术的优劣进行了总结;(4)为了方便读者对文本分 类模型的有效性进行验证,针对文本分类技术应用最为广泛的七大场景,本文对相关数据集进行了系统性的总结; (5)本文对不同任务目标下的常用的模型评价方法进行详尽介绍,以便对模型性能进行合理的定量评估;(6)基于 上述内容,本文对典型应用场景中不同种类文本分类算法进行了性能总结对比;(7)本文分别从数据约束与模型计 算两个层面对当前文本分类技术所面临的挑战和未来的重要研究方向进行了总结.本文通过梳理文本分类研究发 展脉络,对涉及的代表性技术进行了详细总结和对比分析,有效填补了文本分类领域前沿技术的应用综述。

成为VIP会员查看完整内容
18

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
文本分类算法及其应用场景研究综述
专知会员服务
28+阅读 · 6月18日
大语言模型视角下的智能规划方法综述
专知会员服务
115+阅读 · 4月20日
基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
22+阅读 · 2022年12月13日
基于图学习的推荐系统研究综述
专知会员服务
88+阅读 · 2022年9月17日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
45+阅读 · 2022年6月27日
基于文档的对话技术研究
专知会员服务
19+阅读 · 2022年2月20日
机器学习中原型学习研究进展
专知会员服务
46+阅读 · 2022年1月18日
专知会员服务
31+阅读 · 2020年9月2日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
深度学习批归一化及其相关算法研究进展
专知会员服务
51+阅读 · 2020年7月17日
基于模型的强化学习综述
专知
28+阅读 · 2022年7月13日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
【中科院计算所】图卷积神经网络及其应用
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
文本分类算法及其应用场景研究综述
专知会员服务
28+阅读 · 6月18日
大语言模型视角下的智能规划方法综述
专知会员服务
115+阅读 · 4月20日
基于预训练语言模型的可控文本生成的研究与应用
专知会员服务
22+阅读 · 2022年12月13日
基于图学习的推荐系统研究综述
专知会员服务
88+阅读 · 2022年9月17日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
45+阅读 · 2022年6月27日
基于文档的对话技术研究
专知会员服务
19+阅读 · 2022年2月20日
机器学习中原型学习研究进展
专知会员服务
46+阅读 · 2022年1月18日
专知会员服务
31+阅读 · 2020年9月2日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
103+阅读 · 2020年8月11日
深度学习批归一化及其相关算法研究进展
专知会员服务
51+阅读 · 2020年7月17日
相关资讯
基于模型的强化学习综述
专知
28+阅读 · 2022年7月13日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
【中科院计算所】图卷积神经网络及其应用
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员