In contrast to their word- or sentence-level counterparts, character embeddings are still poorly understood. We aim at closing this gap with an in-depth study of English character embeddings. For this, we use resources from research on grapheme-color synesthesia -- a neuropsychological phenomenon where letters are associated with colors, which give us insight into which characters are similar for synesthetes and how characters are organized in color space. Comparing 10 different character embeddings, we ask: How similar are character embeddings to a synesthete's perception of characters? And how similar are character embeddings extracted from different models? We find that LSTMs agree with humans more than transformers. Comparing across tasks, grapheme-to-phoneme conversion results in the most human-like character embeddings. Finally, ELMo embeddings differ from both humans and other models.


翻译:与文字或句级的对应方相比, 字符嵌入仍不甚清楚。 我们的目标是通过深入研究英语字符嵌入来缩小这一差距。 为此, 我们使用关于石墨色合成研究的资源, 这是一种神经心理现象, 字母与颜色相关, 使我们能洞察到哪些字符与协同相近, 以及字符在颜色空间中如何组织。 比较了10个不同的字符嵌入, 我们问 : 字符嵌入与同步的字符嵌入如何相似? 和从不同模型中提取的字符嵌入有多相似? 我们发现 LSTMs 同意人比变异器更多。 比较任务, 石墨对语音转换导致最像人类的字符嵌入。 最后, ELM 嵌入与人类和其他模型不同 。

0
下载
关闭预览

相关内容

【DeepMind】无归一化的高性能大规模图像识别
专知会员服务
9+阅读 · 2021年2月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
11+阅读 · 2019年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Arxiv
0+阅读 · 2021年3月18日
VIP会员
Top
微信扫码咨询专知VIP会员