Logical Natural Language Generation, i.e., generating textual descriptions that can be logically entailed by a structured table, has been a challenge due to the low fidelity of the generation. \citet{chen2020logic2text} have addressed this problem by annotating interim logical programs to control the generation contents and semantics, and presented the task of table-aware logical form to text (Logic2text) generation. However, although table instances are abundant in the real world, logical forms paired with textual descriptions require costly human annotation work, which limits the performance of neural models. To mitigate this, we propose topic-conditioned data augmentation (TopicDA), which utilizes GPT-2 to generate unpaired logical forms and textual descriptions directly from tables. We further introduce logical form generation (LG), a dual task of Logic2text that requires generating a valid logical form based on a text description of a table. We also propose a semi-supervised learning approach to jointly train a Logic2text and an LG model with both labeled and augmented data. The two models benefit from each other by providing extra supervision signals through back-translation. Experimental results on the Logic2text dataset and the LG task demonstrate that our approach can effectively utilize the augmented data and outperform supervised baselines by a substantial margin.


翻译:逻辑性自然语言生成,即产生逻辑性由结构化表格必然产生的文字描述,由于该生成的忠实度低,因此一直是一个挑战。\citet{chen2020logic2text}通过说明临时逻辑程序来控制生成内容和语义来解决这一问题,并将表性逻辑格式的任务介绍给文字生成(逻辑2text),然而,尽管表格中的例子很多,但逻辑形式与文字描述相配的逻辑形式需要昂贵的人类说明工作,这限制了神经模型的性能。为了减轻这一困难,我们提议采用有主题性的数据增强(TopicaDA),利用GPT-2直接生成无格式的逻辑格式和文字描述。我们进一步引入逻辑形式生成(LG),这是逻辑性格式生成的双重任务,需要根据表格的文字描述产生有效的逻辑格式。我们还建议采用半超超超超标准学习方法,共同培训日志文本模型和LG模型,同时使用标签和增强的数据模型。两个模型都利用G2号生成的实验性基准,从而有效地利用其他数据更新模型,从而有效地利用实验性基准,从而利用其他数据更新模型。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
专知会员服务
28+阅读 · 2021年8月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Bridging Knowledge Graphs to Generate Scene Graphs
Arxiv
5+阅读 · 2020年1月7日
Arxiv
4+阅读 · 2019年9月26日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员