【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

如果让一个人描述一幅图片，他们可能会用一千种不同的方式来描述。每一种描述不仅取决于图片本身，还取决于围绕图片的丰富的情境线索和提示（包括描述者本人）。到目前为止，条件自然语言生成的研究几乎完全集中在任务的感知组成部分上：我们如何感知刺激物——无论是音频、视觉还是文本——并将其传达给用户？在这篇论文中，我们认为仅关注刺激物（而非相关情境）的模型在生成与人类对质量和内容判断一致的语言方面存在重大缺陷，同时减少了它们对下游任务的整体实用性。本论文聚焦于构建一个情境感知的条件自然语言生成（CNLG）模型的三个核心目标：（1）捕捉和理解在生成的条件文本中、之间及其之间的信息；（2）开发更好地整合情境信息的多模态模型；（3）设计与人类判断更加一致的CNLG评估方法。通过这些目标，我们展示了情境在自然语言生成中的力量，并帮助回答这个问题：“我们如何理解、构建和评估情境感知的条件自然语言生成模型？”

迄今为止，条件自然语言生成领域几乎完全专注于感知成分：我们如何感知刺激（无论是音频、视觉还是文本）并将其传达给用户？在图像描述的情况下，这意味着专注于理解图像内容，而大量忽略任何情境线索。在自动语音识别的情况下，这意味着专注于音频本身并忽略该音频发生的情境。然而，在许多情况下，这种情境不仅有帮助，而且对模型的输出是必需的。因此，为了应对这些挑战，我们必须转向对条件自然语言生成更细致的理解，认识到有效的沟通和信息交换不仅仅依赖于对刺激的字面解释，还依赖于错综复杂的情境线索和环境因素。

在这篇论文中，我们提出了一个总体问题：我们如何理解、构建和评估情境感知的条件自然语言生成模型？为了探索这个问题，我们深入研究了几个领域（见第1.1节），探索了文本周围的情境如何影响其生成，以及我们如何利用情境线索（来自一些意外的来源）来理解、评估和构建更强大的多模态模型。总体上，这篇论文主要分为三个核心部分，每个部分处理情境感知条件自然语言生成（CNLG）问题的某些方面：

理解生成样本内部、之间和之中的信息：首先，我们深入理解图像/视频和文本的联合分布，以及可以在生成文本中捕获的信息（即数据集中的语言分布）和生成文本之间/之中的信息（其中“之间”指的是单个图像的多个样本中存在的信息，“之中”指的是可以从样本集中推断出的更广泛的语言分布）。在第3章中，我们研究图像/文本联合分布的行为，并揭示了我们用于图像和视频的数据集是如何结构化的有趣细节；在第4章中，我们探索如何利用数据集中的这些隐含特性在训练期间选择一个小而高效的样本集。

构建CNLG的多模态模型：接下来，我们介绍了在几个领域构建CNLG模型的几种方法。在图像字幕领域，我们在第6章讨论了如何有效利用CNLG模型学习的完整分布来生成单个高质量的字幕。在自动语音识别领域，我们探讨了如何利用包括视频（第7章）、文本目录（第8章）和对话（第9章）在内的不同类型的情境来提高生成自然语言的质量。

评估CNLG模型：最后，我们介绍了两种新的评估CNLG能力模型的方法。第一种方法在第11章中介绍，通过查看学习的完整分布而不是仅仅模型的单个最佳样本来评估模型。第二种方法在第12章中介绍，利用大型语言模型学习的人类偏好隐式分布来改善生成文本的评估。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【普林斯顿博士论文】理解数据在模型决策中的作用

专知会员服务

40+阅读 · 2024年4月26日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

37+阅读 · 2024年3月15日

【阿姆斯特丹博士论文】语言使用的神经模型：语境中语言理解和产出的研究

专知会员服务

30+阅读 · 2023年12月12日

【CMU博士论文】以人为中心的机器学习:统计和算法视角

专知会员服务

40+阅读 · 2023年10月1日