For large-scale IT corpora with hundreds of classes organized in a hierarchy, the task of accurate classification of classes at the higher level in the hierarchies is crucial to avoid errors propagating to the lower levels. In the business world, an efficient and explainable ML model is preferred over an expensive black-box model, especially if the performance increase is marginal. A current trend in the Natural Language Processing (NLP) community is towards employing huge pre-trained language models (PLMs) or what is known as self-attention models (e.g., BERT) for almost any kind of NLP task (e.g., question-answering, sentiment analysis, text classification). Despite the widespread use of PLMs and the impressive performance in a broad range of NLP tasks, there is a lack of a clear and well-justified need to as why these models are being employed for domain-specific text classification (TC) tasks, given the monosemic nature of specialized words (i.e., jargon) found in domain-specific text which renders the purpose of contextualized embeddings (e.g., PLMs) futile. In this paper, we compare the accuracies of some state-of-the-art (SOTA) models reported in the literature against a Linear SVM classifier and TFIDF vectorization model on three TC datasets. Results show a comparable performance for the LinearSVM. The findings of this study show that for domain-specific TC tasks, a linear model can provide a comparable, cheap, reproducible, and interpretable alternative to attention-based models.


翻译:对于包含数百个类别的分层大规模 IT 语料库,准确分类分层较高的类别是至关重要的,以避免错误传播到较低的级别。在商业领域,与性能提升微不足道的昂贵的黑盒模型相比,更喜欢高效且可解释的机器学习模型。自我关注模型(例如 BERT)或称为预训练语言模型(PLMs)在自然语言处理(NLP)社区中的当前趋势是,几乎可以用于任何类型的 NLP 任务(例如问答、情感分析、文本分类)。尽管 PLMs 的广泛使用和在各种 NLP 任务中令人印象深刻的表现,但由于领域特定文本中专用单义词(即行话)的性质,使用 PLMs 进行领域特定文本分类(TC)任务缺乏明确和充分的理由,这使得 PLMs 的上下文嵌入的目的变得毫无意义。在本文中,我们在三个 TC 数据集上比较了一些文献中报告的最先进模型(SOTA)以及线性 SVM 分类器和 TFIDF 向量化模型的准确性。结果显示 LinearSVM 可提供可比较的性能。本研究的发现表明,对于领域特定的 TC 任务,线性模型可以提供一种可比较、廉价、可复现和可解释的替代方案。

0
下载
关闭预览

相关内容

TC:IEEE Transactions on Computers。 Explanation:电气电子工程师学会计算机期刊。 Publisher:IEEE。 SIT:http://dblp.uni-trier.de/db/journals/tc/index.html
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
65+阅读 · 2022年3月17日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
31+阅读 · 2018年11月13日
VIP会员
相关VIP内容
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
65+阅读 · 2022年3月17日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员