Active learning is a state-of-art machine learning approach to deal with an abundance of unlabeled data. In the field of Natural Language Processing, typically it is costly and time-consuming to have all the data annotated. This inefficiency inspires out our application of active learning in text classification. Traditional unsupervised k-means clustering is first modified into a semi-supervised version in this research. Then, a novel attempt is applied to further extend the algorithm into active learning scenario with Penalized Min-Max-selection, so as to make limited queries that yield more stable initial centroids. This method utilizes both the interactive query results from users and the underlying distance representation. After tested on a Chinese news dataset, it shows a consistent increase in accuracy while lowering the cost in training.


翻译:积极学习是一种最先进的机器学习方法,用来处理大量未标数据。在自然语言处理领域,通常要求所有数据附加说明费用昂贵且耗时。这种效率低下促使我们在文本分类中应用积极学习。传统的不受监督的 k 手段组合首先被修改为本研究中半监督的版本。然后,采用了一种新颖的尝试,将算法进一步扩展为惩罚性Min-Max-sselective的积极学习方案,以便进行有限的查询,从而产生更稳定的初始小行星。这种方法既利用用户的互动查询结果,又利用基本的远程代表。在中国新闻数据集测试后,它显示在降低培训成本的同时,其准确性持续提高。

0
下载
关闭预览

相关内容

主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。 主动学习是“一种学习方法,在这种方法中,学生会主动或体验性地参与学习过程,并且根据学生的参与程度,有不同程度的主动学习。” (Bonwell&Eison 1991)Bonwell&Eison(1991) 指出:“学生除了被动地听课以外,还从事其他活动。” 在高等教育研究协会(ASHE)的一份报告中,作者讨论了各种促进主动学习的方法。他们引用了一些文献,这些文献表明学生不仅要做听,还必须做更多的事情才能学习。他们必须阅读,写作,讨论并参与解决问题。此过程涉及三个学习领域,即知识,技能和态度(KSA)。这种学习行为分类法可以被认为是“学习过程的目标”。特别是,学生必须从事诸如分析,综合和评估之类的高级思维任务。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月17日
One-Class Classification: A Survey
Arxiv
7+阅读 · 2021年1月8日
Arxiv
4+阅读 · 2019年4月17日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年9月17日
One-Class Classification: A Survey
Arxiv
7+阅读 · 2021年1月8日
Arxiv
4+阅读 · 2019年4月17日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
12+阅读 · 2019年3月14日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员