We propose a novel framework to understand the text by converting sentences or articles into video-like 3-dimensional tensors. Each frame, corresponding to a slice of the tensor, is a word image that is rendered by the word's shape. The length of the tensor equals to the number of words in the sentence or article. The proposed transformation from the text to a 3-dimensional tensor makes it very convenient to implement an $n$-gram model with convolutional neural networks for text analysis. Concretely, we impose a 3-dimensional convolutional kernel on the 3-dimensional text tensor. The first two dimensions of the convolutional kernel size equal the size of the word image and the last dimension of the kernel size is $n$. That is, every time when we slide the 3-dimensional kernel over a word sequence, the convolution covers $n$ word images and outputs a scalar. By iterating this process continuously for each $n$-gram along with the sentence or article with multiple kernels, we obtain a 2-dimensional feature map. A subsequent 1-dimensional max-over-time pooling is applied to this feature map, and three fully-connected layers are used for conducting text classification finally. Experiments of several text classification datasets demonstrate surprisingly superior performances using the proposed model in comparison with existing methods.


翻译:我们建议了一个理解文本的新框架, 将句子或文章转换成像像视频的三维 Excors 。 每个框架, 对应于一个粒子的片段, 是一个由单词形状提供的单词图像。 抗拉的长度等于句子或文章中的字数。 提议的从文本转换为三维 Exorsor, 使得在文本分析的动态神经网络中执行一个以美元为单位的字形图案模型非常方便。 具体地说, 我们在三维文本 Excor 上设置了一个三维共变内核内核。 革命内核大小的前两个维度相当于单词图像的大小和内核内核的最后一个维维。 也就是说, 每次我们将三维内核的图像滑动成一个字序列, 共解包含一美元字形图像和输出一个缩略图。 通过对每张一美元和多内核的句或文章不断插入这个模型, 我们得到了一个二维的地格特征图。 一个后一维的内核化内核的图像比较方法, 将用来演示数级的高级的高级文本分类 。 。 。

0
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Word Embedding List|ACL 2020 词嵌入长文汇总及分类
PaperWeekly
3+阅读 · 2020年5月30日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
5+阅读 · 2019年6月5日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
12+阅读 · 2018年9月15日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
VIP会员
相关资讯
Word Embedding List|ACL 2020 词嵌入长文汇总及分类
PaperWeekly
3+阅读 · 2020年5月30日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员