Decoding for many NLP tasks requires an effective heuristic algorithm for approximating exact search since the problem of searching the full output space is often intractable, or impractical in many settings. The default algorithm for this job is beam search -- a pruned version of breadth-first search. Quite surprisingly, beam search often returns better results than exact inference due to beneficial search bias for NLP tasks. In this work, we show that the standard implementation of beam search can be made up to 10x faster in practice. Our method assumes that the scoring function is monotonic in the sequence length, which allows us to safely prune hypotheses that cannot be in the final set of hypotheses early on. We devise effective monotonic approximations to popular nonmonontic scoring functions, including length normalization and mutual information decoding. Lastly, we propose a memory-reduced variant of Best-First Beam Search, which has a similar beneficial search bias in terms of downstream performance, but runs in a fraction of the time.


翻译:解码许多 NLP 任务时, 需要一种有效的超值算法, 以接近精确搜索, 因为搜索全部输出空间的问题往往难以解决, 或者在许多设置中不切实际。 这项工作的默认算法是波束搜索 -- -- 宽度第一搜索的原始版本。 相当令人惊讶的是, 光束搜索的结果往往比对 NLP 任务进行有益的搜索偏差而得出的精确推理结果要好。 在这项工作中, 我们显示, 光束搜索的标准实施速度在实际操作中可以达到10x。 我们的方法假设, 分数函数在序列长度中是单数, 从而使我们能够安全地提取无法在早期最后一组假设中出现的假设。 我们设计出有效的单调近似非单调评分函数, 包括长度正常化和相互解码。 最后, 我们建议采用最佳第一 Beam 搜索 的记忆调整变体, 它在下游操作中具有类似的有益搜索偏差, 但会在时间的一小部分 。

0
下载
关闭预览

相关内容

小米在预训练模型的探索与优化
专知会员服务
19+阅读 · 2020年12月31日
专知会员服务
124+阅读 · 2020年9月8日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
小米在预训练模型的探索与优化
专知会员服务
19+阅读 · 2020年12月31日
专知会员服务
124+阅读 · 2020年9月8日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Top
微信扫码咨询专知VIP会员