学界 | 473个模型试验告诉你文本分类中的最好编码方式

2017 年 8 月 17 日 机器之心

选自arXiv

机器之心编译

参与:蒋思源


在不同层面上使用不同编码方式和语言模型在文本分类任务中到底效果怎样?Yann LeCun 和 Xiang Zhang 在四种语言、14 个数据集上测试了 473 个模型,并希望能找到最好的编码方法。机器之心简单介绍了该论文,详细内容请查看原论文。



论文地址:https://arxiv.org/pdf/1708.02657.pdf


本论文实证研究了在文本分类模型中汉语、日语、韩语(CJK)和英语的不同编码方式。该研究讨论了不同层面的编码,包括 UTF-8 bytes、字符级和词汇级。对于所有的编码层面,我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。对于卷积网络,我们使用字符字形(character glyph)图像、one-hot(或 one-of-n)编码和嵌入方法比较了不同的编码机制。总的来说,该实验涉及 473 个模型,并使用了四种语言(汉语、英语、日语和韩语)的 14 个大规模文本分类数据集。该研究所得出来的一些结论:基于 UTF-8 字节层面的 one-hot 编码在卷积网络中始终生成优秀结果;词层面的 N 元线性模型即使不能完美地分词,它也有强大的性能;fastText 使用字符层面的 N 元模型进行编码取得了最好的性能,但当特征太多时容易过拟合。


2. 卷积网络的编码机制


为了进行客观地对比,所有的卷积网络除了最先几层外都共享相同的设计。我们称相同的部分为分类器,前面不同的几层称为编码器。


2.1 字符字形(Character Glyph


字形(Glyph)指的是以书写为目的的可读字符。CJK 就是由各种拓扑字形组成的语言,它的笔画和部首代表不同的语义,因此字符字形是一种可行的编码解决方案。


2.2 One-hot 编码


在最简单的 One-hot 编码中,每一个实体必须使用维数等于所有可能实体数的向量表达,并且除了该实体在词汇表中的索引为 1 以外,其它元素都为 0。


2.3 嵌入


我们使用术语「嵌入」表达关联每一个实体的固定长度向量。这些向量一般经过随机初始化,并且通过无监督学习或在当前任务联合学习。嵌入模型的优势在于不必要构建 One-hot 向量,因此嵌入模型的内存占用要显著地比 OnehotNet 少。最后,嵌入方法基本上可以应用于任意编码层面。


图 2:不同模型测试误差的箱线图



图 3:Joint binary 数据集的泛化差距(Generalization gap)



图 4:不同模型泛化差距的箱线图



表 12:在 Joint binary 数据集上遍历一百万样本的估计训练时间,第四列时间估计以秒为单位。这些估计只供参考,训练时间还相当依赖于真实的计算环境。



图 5:不同模型遍历 1 百万样本所需要的时间,时间轴为对数尺度。



表 13:GlyphNet 和 OnehotNet 的训练误差



表 14:EmbedNet 的训练误差 




本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
2

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
44+阅读 · 2020年6月18日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
EMNLP 2018 | 为什么使用自注意力机制?
机器之心
8+阅读 · 2018年9月17日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
473个模型试验告诉你文本分类中的最好编码方式
炼数成金订阅号
7+阅读 · 2017年8月17日
Arxiv
5+阅读 · 2019年4月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
6+阅读 · 2018年6月18日
VIP会员
相关VIP内容
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
44+阅读 · 2020年6月18日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
注意力机制模型最新综述
专知会员服务
266+阅读 · 2019年10月20日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
相关资讯
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
EMNLP 2018 | 为什么使用自注意力机制?
机器之心
8+阅读 · 2018年9月17日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
473个模型试验告诉你文本分类中的最好编码方式
炼数成金订阅号
7+阅读 · 2017年8月17日
Top
微信扫码咨询专知VIP会员