Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect is its length bias: models give high scores to short, inadequate hypotheses and often make the empty string the argmax -- the so-called cat got your tongue problem. Recently proposed entmax-based sparse sequence-to-sequence models present a possible solution, since they can shrink the search space by assigning zero probability to bad hypotheses, but their ability to handle word-level tasks with transformers has never been tested. In this work, we show that entmax-based models effectively solve the cat got your tongue problem, removing a major source of model error for neural machine translation. In addition, we generalize label smoothing, a critical regularization technique, to the broader family of Fenchel-Young losses, which includes both cross-entropy and the entmax losses. Our resulting label-smoothed entmax loss models set a new state of the art on multilingual grapheme-to-phoneme conversion and deliver improvements and better calibration properties on cross-lingual morphological inflection and machine translation for 6 language pairs.


翻译:当前序列到序列模型经过培训,以最大限度地减少交叉随机性,并使用软式模型来计算目标序列的本地标准化概率。 虽然这一设置导致在各种任务中取得显著结果, 但一个不满意的方面是其长度偏差: 模型给短短的、不充分的假设留下很高分数, 并经常使空字符串成为神经元变速器 -- 所谓的猫让你的舌头问题。 最近提出的基于元素的稀有序列到序列模型提供了一个可能的解决办法, 因为它们可以通过给坏假设分配零概率来缩小搜索空间, 但是它们处理变异器字级任务的能力从未被测试过。 在这项工作中, 我们显示基于元素的模型有效地解决了猫舌头问题, 消除了神经机翻译的主要模型错误源。 此外, 我们把标签平滑化、 一种关键的正规化技术, 推广到Fenchel- Young损失的大家庭, 其中包括跨式和进式语言损失, 包括跨式和进式语言语言损失。 我们由此而制作的标签- 移动式变形的变形变形变形模型, 交付了一个更好的变形变形的变形变形变形变形变形变形变形变形变形变形变形变形变形变形的变形变形变形变形变形变形变形变形变形的变形变形变形变形的节式的动的动式的动式的动动动式节压式。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
预训练语言模型fine-tuning近期进展概述
专知会员服务
39+阅读 · 2021年4月9日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
预训练语言模型fine-tuning近期进展概述
专知会员服务
39+阅读 · 2021年4月9日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员