Beam Search还能更快？结合优先队列的最佳优先化Beam Search

会员服务 ·

Beam Search还能更快？结合优先队列的最佳优先化Beam Search

2020 年 8 月 24 日 PaperWeekly

论文标题：Best-First Beam Search

论文作者：Clara Meister, Tim Vieira, Ryan Cotterell

论文链接 ： https://arxiv.org/pdf/2007.03909.pdf

Beam Search是当前各类文本生成任务的标配解码方式，作为一种受限的宽度优先搜索，它可以极大降低搜索复杂度。但是，Beam Search依旧还有提高的空间！

本文提出一种结合优先队列和A*经验式搜索的Beam Search，可以显著减少调用打分函数（如负对数似然）的次数，从而能够使整个Beam Search速度大大加快，还能得到和Beam Search一样的结果。

Beam Search 概述

在文本生成中，Beam Search已经被作为一种普遍的解码方式运用在各种任务中。假设当前输入是，要生成的句子是，最大长度是，字典是，那么，所有可能的句子就是。Beam Search就是在每一步通过打分函数只保留个候选句子。打分函数一般是对数似然：

-最大堆，在每一步，对这个句子中的每一个，如果它已经结束了（第5行），那么就不处理它，否则加上当前步的得分（每个句子都有次计算得分），再把新得到的句子加入堆中，等到所有句子处理完之后，再从中取个得分最大的。

因为Beam Search是主要的比较对象，因此我们把由Beam Search返回的个句子叫做 -最佳集，其中的任何一个句子都称为 -最佳句子。

Beam Search 的问题

从上面的介绍讲，乍一看，Beam Search的效率很高，然而，Beam Search也隐藏着一些细节上的问题。举个例子，假设，词典是，现在保留的句子是，它们当前的得分分别是，且下一步可能的句子的得分是：

	句子	得分	句子	得分	句子	得分
acb	acba	0.30	acbb	0.31	acbc	0.25
abb	abba	0.29	abbb	0.28	abbc	0.24

看，在下一步的Beam Search中，我们当前得到的第二个句子根本不重要，因为下一步得分最高的两个句子都来自于，因此，我们完全可以不去计算由得到的三个句子。

那么，这里的关键是什么呢？是最佳优先，即让当前得分最大的句子先计算下一步，这就很像A*搜索。

A * Beam Search

A*是一种启发式搜索，即通过预定义的得分函数，每次都首先探索得分最高的那一条路径。显然，只要得分函数定义得好，就能比DFS和BFS更快地找到正确答案。

那么在这里，所谓的正确答案就是BS得到的 -最佳结果。我们的目标是设计一种启发式的搜索算法，既能得到 -最佳结果，又比BS更快。

下面的算法就描述了一种通用的搜索算法框架。

注意观察，和BS相比，该算法引入了4个关键的成分：（1）比较符；（2）停止策略；（3）；（4）经验函数。其中除了（3）是BS原有的之外，其他的都是新增的。有了这几个成分，就可以使用该算法实现BS，和即将要介绍的A* Beam Search。

来看一下这个算法做了什么。首先用定义了一个优先队列；然后在搜索的每一步，直接看得分最大的那个句子，如果这个句子结束了，那么就继续放入优先队列中。

否则像BS一样考虑字典中的每个字，在原来的得分（如对数似然）上再加上经验函数得分，然后再把它送到优先队列中。

注意到图中绿色的部分，它的意思是，对同一个句子长度，如果之前已经遇到了个同样长度的句子，那么后面的同样长度的句子就不再考虑了，这是因为最先考虑的一定是得分最大的，后面打分的得分过小再考虑就没有意义。

那么这个算法怎么恢复到BS呢？其实很简单，只需要让（4）经验函数恒为0，让比较运算符（1）为：

这个式子的意思是，让那些要么长度更短要么长度相同且得分更大的句子优先被计算，这其实和BS是一致的。因为BS在每一步要么优先考虑已经结束的句子，要么长度相同但得分更大。

同时让终止条件（2）为：

也就是说要让所有句子都搜索完。

那么，怎么用这个算法实现最佳优先的A* Beam Search呢？回想一下，A*是优先探索得分较大的路径，但是它并不限制路径的长度，也就是说，如果已经探索了条长度为的路径，如果后面需要，它还会继续探索长度为的其他路径。

所以它在最坏情况下仍然是的。将A*和BS结合起来，就是要在A*算法上限制可探索的路径数，这就是上述算法的思想。

所以，最佳优先搜索就可以定义为：

（1）比较运算符：
（2）终止条件：
（4）经验函数：根据得分函数的设置（对数似然设置为0）

正如上面所述，这个算法的优势在于，对于对数似然而言，一旦已经计算了长度为的个句子，那么后面任何长度小于的句子都不需要再考虑了，因为它们的得分在该长度上一定更低。

本文有一节专门证明了该结论，并证明了该算法的时间复杂度，由于内容较为复杂，有兴趣的读者可以参考原文Section 4。

下图是从本算法可以导出的主要搜索算法，包括BS，最佳优先BS，A* 等算法。可以看到，通过定义4个关键因子，我们可以实现各种典型的搜索算法，当然运用在文本生成上，BS、最佳BS和A* BS是我们最关心的。

实验

空口无凭，且看实验效果。本文在多个数据集上测量各搜索算法具体调用了多少次得分函数。注意到这里没直接比较运行时间，原文认为运行时间和硬件关系很大。

下图是在本文实验的机器上，运行时间和得分函数调用次数的关系。可以看到，二者有很强的线性相关性，所以直接比较得分函数是合理的。

下表是主要实验结果。Beam Search (ES)是指使用了提前终止的BS。

从结果可以看到，相比BS和BS(ES)，BFBS调用得分函数的次数显著降低，这在很大的时候尤其明显。这也就意味着，模型花在解码上的时候大大缩短。

下面一个问题是，BFBS真的可以取得BS的最后得到的句子吗？如下表所见，shrinking和ES都不能完全得到BS的结果（），反而效果也会变差。

相反，BFBS始终能得到BS一样的结果，只要BS能够取得好效果，BFBS也就能取得同样的效果。

上面的实验都是基于对数似然这个得分函数而言，对于其他得分函数，如互信息、长度归一化等，本文也都做了实验，限于篇幅，在此不再展开，有兴趣的读者可以参考原文。

小结

这是一篇偏算法理论的应用文，提出了一种通用的Beam Search算法框架，采用不同的比较运算符、经验函数、终止策略或Beam Size，算法可以复原很多常见的搜索算法。

基于这个算法框架，本文提出了一种新的，基于最佳优先策略的Beam Search，和BS相比，能够显著减少得分函数的调用次数，从而提高解码速度。

当然，本文所提出的算法其实并不算简单，在理解上也有诸多障碍，尤其是很多细节，如是否可以并行化解码，优先队列又该怎么在并行条件下实现等，都需要仔细推敲。原文Section3.1给出了实现的概述，读者可以根据此自己尝试实现一个版本。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

束搜索

关注 0

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

基于Transformer嵌入模型的个性化产品搜索，A Transformer-based Embedding Model for Personalized Product Search

专知会员服务

31+阅读 · 2020年5月20日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

【SIGIR2020】高效查询自动补全，Efficient and Effective Query Auto-Completion

专知会员服务

10+阅读 · 2020年5月14日

【SIGIR2020】学习词项区分性，Learning Term Discrimination

专知会员服务

16+阅读 · 2020年4月28日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【BERT改进ElasticSearch的相关准确率80%以上】NBoost: Boost Elasticsearch Search Relevance by 80% with BERT

专知会员服务

13+阅读 · 2019年11月26日

专知会员服务

46+阅读 · 2019年11月24日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

何恺明团队神经结构搜索最新力作：设计随机连接网络，效果超ResNet

全球人工智能

8+阅读 · 2019年4月8日

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

手把手教你用OpenCV和Python实现图像和视频神经风格迁移（代码）

新智元

9+阅读 · 2018年9月2日

【QA论文笔记】问答对排序新方法，层次循环编码器与主题聚类结合

专知

9+阅读 · 2018年5月14日

TF-IDF与余弦相似性的应用（一）：自动提取关键词

数盟

4+阅读 · 2018年5月2日

专栏 | fastText原理及实践

机器之心

3+阅读 · 2018年1月26日

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

Embedding-based Retrieval in Facebook Search

Arxiv

12+阅读 · 2020年6月20日

BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction

Arxiv

6+阅读 · 2019年9月26日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

Knowledge-enriched Two-layered Attention Network for Sentiment Analysis

Arxiv

4+阅读 · 2018年6月16日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Diverse Few-Shot Text Classification with Multiple Metrics

Arxiv

6+阅读 · 2018年5月19日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

Textually Customized Video Summaries

Arxiv

4+阅读 · 2018年3月1日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

VIP会员