要 随着大数据时代的到来,互联网中的文本信息迎来了井喷式的增长.文本分类作为自然语言处理中最重 要的技术之一,其广泛应用于多个领域,如情感分析、新闻分类、自然语言推理、主题标记、抽取式问答、虚假内容检 测等.从传统机器学习分类方法理论的深入到深度学习分类方法探索的兴起,相关研究模型与思路也在不断演变, 各类新的方法、数据集和评价指标层出不穷,丰富了文本分类领域的研究,取得了卓越的理论成就和应用效果.尽 管如此,新技术不断发展和业务应用场景不断丰富,同时,也为文本分类研究带来了许多新的问题与挑战,如数据 约束场景中不均衡数据的文本表征学习、小样本场景下的文本分类等.针对当前研究难题与挑战,本文对文本分类 方法进行了系统性调研,并对当前方法在实际应用场景中面临的技术挑战和未来的研究方向进行了综合探讨.具 体而言,本文主要综述了七部分内容,分别是:(1)对文本分类技术的相关基础知识进行了全面介绍,包括文本分类 的常见符号定义、计算范式和文本预处理技术;(2)对基于传统机器学习的文本分类方法进行了详细总结;同时,为 了方便读者针对不同的应用场景选择合适的分类模型,本文对不同分类器擅长处理的文本分类难题及方法优劣进 行了总结;(3)对基于新兴深度学习的文本分类方法进行了周详梳理,根据领域内代表性技术的核心思想进行分 类,在此基础上对不同类别下的主要方法进行描述,同时对其技术的优劣进行了总结;(4)为了方便读者对文本分 类模型的有效性进行验证,针对文本分类技术应用最为广泛的七大场景,本文对相关数据集进行了系统性的总结; (5)本文对不同任务目标下的常用的模型评价方法进行详尽介绍,以便对模型性能进行合理的定量评估;(6)基于 上述内容,本文对典型应用场景中不同种类文本分类算法进行了性能总结对比;(7)本文分别从数据约束与模型计 算两个层面对当前文本分类技术所面临的挑战和未来的重要研究方向进行了总结.本文通过梳理文本分类研究发 展脉络,对涉及的代表性技术进行了详细总结和对比分析,有效填补了文本分类领域前沿技术的应用综述空白。

成为VIP会员查看完整内容
24

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
大语言模型视角下的智能规划方法综述
专知会员服务
108+阅读 · 4月20日
《基于深度学习的视觉文档信息抽取》研究综述
逆强化学习算法、理论与应用研究综述
专知会员服务
59+阅读 · 2023年8月2日
面向算法选择的元学习研究综述
专知会员服务
40+阅读 · 2023年2月11日
基于神经网络的偏微分方程求解方法研究综述
专知会员服务
61+阅读 · 2022年12月7日
基于图学习的推荐系统研究综述
专知会员服务
87+阅读 · 2022年9月17日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
43+阅读 · 2022年6月27日
基于深度学习的图异常检测技术综述
专知会员服务
81+阅读 · 2021年7月28日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
101+阅读 · 2020年8月11日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
23+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习人体姿态估计算法综述
AI前线
22+阅读 · 2019年5月19日
贝叶斯机器学习前沿进展
机器学习研究会
20+阅读 · 2018年1月21日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
145+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
362+阅读 · 2023年3月31日
Arxiv
60+阅读 · 2023年3月26日
Arxiv
128+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型视角下的智能规划方法综述
专知会员服务
108+阅读 · 4月20日
《基于深度学习的视觉文档信息抽取》研究综述
逆强化学习算法、理论与应用研究综述
专知会员服务
59+阅读 · 2023年8月2日
面向算法选择的元学习研究综述
专知会员服务
40+阅读 · 2023年2月11日
基于神经网络的偏微分方程求解方法研究综述
专知会员服务
61+阅读 · 2022年12月7日
基于图学习的推荐系统研究综述
专知会员服务
87+阅读 · 2022年9月17日
面向图像数据的对抗样本检测与防御技术综述
专知会员服务
43+阅读 · 2022年6月27日
基于深度学习的图异常检测技术综述
专知会员服务
81+阅读 · 2021年7月28日
面向大数据领域的事理认知图谱构建与推断分析
专知会员服务
101+阅读 · 2020年8月11日
实体关系抽取方法研究综述
专知会员服务
174+阅读 · 2020年7月19日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
23+阅读 · 2022年7月13日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
深度学习人体姿态估计算法综述
AI前线
22+阅读 · 2019年5月19日
贝叶斯机器学习前沿进展
机器学习研究会
20+阅读 · 2018年1月21日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员