深度学习的进步使自然语言生成(NLG)变得更加流畅和灵活。虽然这些神经生成系统在机器翻译方面取得了早期的成功,但当它们被应用到抽象总结、故事生成和闲谈对话等更开放的任务时,它们会遇到重复、不连贯和不可控等问题。此外,开放式神经生成模型往往由人工在精心控制的环境中进行评估;它们在现实环境中如何与现实用户互动,这一点还不太清楚。
本文分析和改进了执行开放性任务的神经生成系统; 在对话的情况下,系统是在其整个社会背景下评估的。首先,对于抽象摘要,我提出了一个指针生成器模型来提高复制的准确性,以及一个覆盖机制来减少生成摘要的重复。接下来,对于聊天对话,我提出了一个大规模的详细的人的评价,揭示了机器人行为(如重复、特异性、话题停留和提问)和人的质量判断之间的关系,并表明通过控制这些机器人行为,我们可以改善用户体验。第三,关于故事生成,我描述了大规模预训练和解码算法对生成文本的句法、语义、结构和文体方面的影响。最后,作为Alexa奖项的一部分,我展示了一个神经生成聊天模型的部署研究,与真实的、内在动机的用户交谈。通过分析机器人与用户的交互,我确定了机器人的主要错误类型,以及它们与用户不满的关系。
此外,我展示了一种半监督的方法,从不佳中学习,从而改善对话系统。