Popular approaches to natural language processing create word embeddings based on textual co-occurrence patterns, but often ignore embodied, sensory aspects of language. Here, we introduce the Python package comp-syn, which provides grounded word embeddings based on the perceptually uniform color distributions of Google Image search results. We demonstrate that comp-syn significantly enriches models of distributional semantics. In particular, we show that (1) comp-syn predicts human judgments of word concreteness with greater accuracy and in a more interpretable fashion than word2vec using low-dimensional word-color embeddings, and (2) comp-syn performs comparably to word2vec on a metaphorical vs. literal word-pair classification task. comp-syn is open-source on PyPi and is compatible with mainstream machine-learning Python packages. Our package release includes word-color embeddings for over 40,000 English words, each associated with crowd-sourced word concreteness judgments.


翻译:自然语言处理的流行方法创造了基于文本共发模式的字嵌入, 但通常忽略了语言的感官方面。 在这里, 我们引入 Python 软件包 com- syn, 它基于Google 图像搜索结果的视觉统一色彩分布提供基于基础的字嵌入。 我们显示, Comp- syn 极大地丰富了分布式语义的模型。 特别是, 我们显示 (1) Comp- syn 以比 word2vec 更精确和更可解释的方式预测单词具体性, 并且使用低维度的字色嵌入; (2) Comp- syn 在隐喻式与 literal word- pair 分类任务上, comp- syn 是 PyPi 的开源, 并且与主流机器学习 Python 软件包兼容。 我们的软件发布包括40,000 以上英文词的字色嵌入方式, 每个都与众源词具体性判断有关。

0
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
Python图像处理,366页pdf,Image Operators Image Processing in Python
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
相关资讯
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员