浅谈问题生成（Question Generation）

2021 年 12 月 11 日 PaperWeekly

©作者 | 刘璐

学校 | 北京邮电大学

研究方向 | 问题生成与QA

问题生成（Question Generation）是文本生成中的重要子任务，旨在根据输入数据（文本、知识库、图像等类型，本文仅聚焦文本类型）生成与输入相关且自然流畅的问题。由于机器阅读理解（Machine Reading Comprehension, MRC）和智能问答系统的蓬勃发展，问题生成受到了越来越广泛的关注。

本文将根据时间线对问题生成的相关研究进行梳理，并在文末介绍了一些个人认为有价值的研究方向。

传统的问题生成依赖于人工设计的规则和模版将陈述句转换为疑问句，这样的方法需耗费大量人力且依赖于深层的语法知识，泛化性能和可扩展能力较差。

使用深度学习方法进行问题生成最早在 2017 年被提出。 Learning to Ask: Neural Question Generation for Reading Comprehension （ACL 2017）将端到端训练的神经网络应用于问题生成，采用 seq2seq+attention 模型架构，摆脱了转换规则与模版的局限，取得了相比于传统方法更好的性能。另一篇将神经网络应用于 QG 的奠基工作 Neural question generation from text: A preliminary study（EMNLP 2017）在编码时额外考虑了答案位置与语法信息，取得了更好的性能。

之后到 2019 年，相关研究主要以 seq2seq 架构为基础，改变模型结构和或使用一些技巧来提升模型的性能，具体包括以下几个方面。

答案编码

将答案作为输入来指导模型生成问题时更关注答案以提升模型性能，常用方法包括将答案位置作为输入特征或使用额外的编码器对答案编码。

Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018
Improving Neural Question Generation Using Answer Separation.AAAI, 2019.
Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

语言特征

将额外的语言特征与词向量拼接作为输入来提升 QG，例如 word case、POS 和 NER 标签等。

Automatic Question Generation using Relative Pronouns and Adverbs.ACL, 2018.
Learning to Generate Questions by Learning What not to Generate.WWW, 2019.

问题类型建模

通过对问题类型或疑问词的显式建模来改善生成问题疑问词预测不准确的问题。

Question Generation for Question Answering.EMNLP,2017.
Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018.
Question-type Driven Question Generation.EMNLP, 2019.

段落级别上下文

利用输入文本周围的相关上下文增加输入信息来提升问题生成效果。

Harvesting paragraph-level question-answer pairs from wikipedia.ACL, 2018.
Leveraging Context Information for Natural Question Generation.ACL, 2018.
Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks.EMNLP, 2018.
Capturing Greater Context for Question Generation.AAAI, 2020.

内容选择

当答案信息不提供给模型时，给定输入段落，QG 系统需自动识别段落中值得提问的部分再生成问题。

Identifying Where to Focus in Reading Comprehension for Neural Question Generation.EMNLP, 2017.
Neural Models for Key Phrase Extraction and Question Generation.ACL Workshop, 2018.
A Multi-Agent Communication Framework for Question-Worthy Phrase Extraction and Question Generation.AAAI, 2019.

答案已知时，识别与答案相关的内容也有利于提升生成问题的效果。

Improving Question Generation With to the Point Context.EMNLP, 2019.

特定的训练目标

通过优化 ground truth 的对数似然来训练模型会对生成问题的多样性造成影响，一些工作通过结合强化学习使特定的奖励最大化来改善模型训练。

Teaching Machines to Ask Questions.IJCAI, 2018.
Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model.NeurIPS Workshop, 2019.
Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.
Exploring Question-Specific Rewards for Generating Deep Questions.COLING, 2020.
Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

多任务学习

通过一些辅助任务来提升 QG 的能力，如通过语言建模来提升句子表示；通过复述生成增加表达的多样性；通过语义匹配和答案位置预测来缓解生成的疑问词不合适和 copy 不相关词汇的问题。

Multi-Task Learning with Language Modeling for Question Generation.EMNLP, 2019.
How to Ask Good Questions? Try to Leverage Paraphrases.ACL, 2020.
Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring.AAAI, 2020.

多样性

对潜在空间（如 VAE）和生成空间（如随机采样）进行控制来提升生成问题的多样性。

Variational Attention for Sequence-to-Sequence Models. ICML, 2018.
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs.ACL, 2020.
On the Importance of Diversity in Question Generation for QA.ACL, 2020.

预训练语言模型提出后，大多方法通过微调预训练模型实现问题生成，进一步改善了生成效果，常用模型包括 UniLM、BART、T5 等。

Unified Language Model Pre-training for Natural Language Understanding and Generation.NeurIPS, 2019.
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training.arXiv, 2020.
ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation.IJCAI, 2020.（SOTA）

此后，相关研究工作大多聚焦于问题生成在其他任务上的应用，不再通过修改模型提升生成效果，而是把问题生成作为整个系统的一部分直接使用。

数据增强

问题生成最直接的应用就是为问答模型或检索模型提供更多的训练数据，降低人工标注成本，提升模型的性能。

Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.
Synthetic QA Corpora Generation with Roundtrip Consistency.ACL, 2019.
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering.ACL, 2020.
Training Question Answering Models From Synthetic Data.EMNLP, 2020.
Embedding-based Zero-shot Retrieval through Query Generation.arXiv, 2020.
Towards Robust Neural Retrieval Models with Synthetic Pre-Training.arXiv, 2021.

领域迁移

在目标领域生成问题/问答对来进一步训练问答模型可以提升模型的领域适应能力。由于问题生成模型学习到的是对知识点的提问方式，相比于问答模型扩展能力更强（不依赖于特定领域），因此将在源领域训练好的问题生成模型用于目标域生成问题的质量不会下降太多。

End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems.EMNLP, 2020.
Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation.ACL 2021.
Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval.arXiv, 2021.

OpenQA

开放域问答系统（OpenQA）通常使用检索-阅读架构实现，虽在精度方面已取得较好的效果，但阅读器的线上推理会非常耗时。利用问题生成模型将文档转换为常见问答对（FAQ）的形式，线上仅需通过问题间的匹配来实现问答，保证准确率的同时大大提高了效率，提升了开放域问答模型的实用性。

Open-domain question answering with pre-constructed question spaces.NAACL, 2021.
Accelerating real-time question answering via question generation.AAAI, 2021.
PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them.arXiv, 2021.

事实检查

通过问答对生成来构造一致性衡量指标或声明来进行事实检查。

Improving Factual Consistency of Abstractive Summarization via Question Answering.ACL, 2021.
Zero-shot Fact Verification by Claim Generation.ACL, 2021.

其他

近期还有一些其他的相关研究方向受到了广泛关注，如控制生成问题的难度、在问答式对话中生成问题、生成更深层次的问题（如多跳推理问题）、阐明性问题生成（Clarification Question Generation）等。

目前问题生成仍存在一些尚未解决却值得研究的问题。

评估

目前大多数模型使用 BLEU、ROUGE、METETOR 等自动评估指标对生成的问题进行评价，这些指标是对生成文本与参考文本重合程度的度量，最先用于机器翻译、摘要生成等任务，适用于相对确定的长文本生成的质量评估，对于问题这种多样且短小的文本并不是太合适。但是人工评估又耗时耗力。

目前也有一些针对评估的研究工作，主要思路是将主观的人工评估指标数学化，比如可回答性、语义、词汇多样性等。

Towards a Better Metric for Evaluating Question Generation Systems.EMNLP, 2018.
On the Importance of Diversity in Question Generation for QA.ACL, 2020.
Evaluating for Diversity in Question Generation over Text.arXiv, 2020.

为问题生成模型设计合适的评估指标可以进一步促进模型的性能提升。

一致性

模型生成的问答对不能保证抽取的答案可以作为生成问题的合适答案，存在事实错误、内容不相关等情况。目前做法是通过添加过滤模型（常用的为问答模型）过滤掉不一致的问答对。探索如何保证生成问答对的一致性是值得思考的问题。

多样性

我们希望模型可以根据输入文本从多个角度对不同的提问点进行提问。目前工作对多样性的研究主要针对问题的表达多样性，即同样语义的问题使用不同的问法。由于现有数据集标注不充分，针对多个提问点的生成模型的训练、对生成问题覆盖度和多样性的评估均是难以解决的问题。

非事实问题生成

目前研究主要集中于事实性问题生成，问题对应的答案通常为命名实体或简短的片段。然而在许多领域非事实问题或开放式问题占比很大，因此非事实问题生成十分值得研究。此类问题对应的答案为多个句子或片段，因此生成问题需更好地把握答案与文章的整体含义，更具有挑战性。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

EMNLP

关注 420

自然语言处理顶级会议

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

开放领域知识图谱问答研究综述

专知会员服务

64+阅读 · 2021年10月30日

基于预训练语言模型的文本生成研究综述

专知会员服务

82+阅读 · 2021年10月15日

多样性文本生成任务的研究进展

专知会员服务

43+阅读 · 2021年4月23日

知识增强的文本生成研究进展

专知会员服务

100+阅读 · 2021年3月6日

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知

0+阅读 · 2021年12月25日

赛尔原创@EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

哈工大SCIR

0+阅读 · 2021年12月21日

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

论文浅尝 | 通过文本到文本神经问题生成的机器理解

开放知识图谱

10+阅读 · 2019年6月30日

论文浅尝 | 基于知识库的神经网络问题生成方法

开放知识图谱

19+阅读 · 2019年6月21日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

KBQA: 基于开放域知识库上的QA系统 | 每周一起读

PaperWeekly

15+阅读 · 2017年7月2日

基于DBN的多状态时变系统可靠性建模与评估

国家自然科学基金

0+阅读 · 2013年12月31日

基于协同计算的社区问答意见型问题分析与答案生成研究

国家自然科学基金

0+阅读 · 2013年12月31日

文本情绪分析中的关键问题研究

国家自然科学基金

3+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

全局轨迹解析的通用框架和推理方法，以及在智能视频监控中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于在线百科和问答社区的中文文本蕴涵知识获取

国家自然科学基金

0+阅读 · 2011年12月31日

基于Web及知识获取的无指导汉语词义消歧技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于生成树库分析与生成一体化机器翻译模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向查询的XML文本自动文摘研究

国家自然科学基金

0+阅读 · 2008年12月31日

A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond

Arxiv

0+阅读 · 2022年4月20日

A Survey on Multi-hop Question Answering and Generation

Arxiv

0+阅读 · 2022年4月19日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

Evaluation Benchmarks for Spanish Sentence Representations

Arxiv

0+阅读 · 2022年4月15日

A Survey of Natural Language Generation

Arxiv

15+阅读 · 2021年12月22日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

VIP会员