【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

自神经网络首次应用于摘要生成任务以来，抽象摘要模型取得了快速进展。我们已经从模型难以生成语法正确的句子进步到大型语言模型（如ChatGPT）能够生成流利的摘要，有时这些摘要甚至比某些人类撰写的摘要更好。摘要模型的应用正在超越新闻文章和会议记录等传统热门领域，扩展到医疗报告、金融文章、社交媒体对话、产品评论等新的小众领域。

尽管取得了进展，摘要模型的可靠性仍因罕见但灾难性的失败模式而受到质疑。例如，模型已知会生成包含事实错误或不支持输入内容的陈述的摘要（称为幻觉）。在医疗保健和金融等高风险应用中，这些错误如果被采纳可能导致严重后果。当在真实环境中部署时，模型可能会遇到输入噪音，这会显著降低摘要的质量。最后，尽管预训练模型大大提高了输出质量，来自网络的预训练数据可能会引入负面影响。例如，输出可能有毒或存在偏见，并且可能会逐字复制受版权保护的内容，导致最近的多起诉讼。这些问题可能会阻止实体在现实世界中部署摘要模型。

在本文中，我们提供了解决上述摘要模型问题的方法和资源。在第一部分中，我们提出了为具有挑战性特征的输入（如长对话或噪声文档）生成高质量摘要的方法。我们引入了一种模块化摘要生成管道来处理长序列，生成更好且更符合事实的摘要。然后，我们描述了输入噪音对摘要模型的影响，并设计了轻量级探测器来检测和消除噪音。在第二部分中，我们介绍了无需使用任何上游预训练文本语料库的预训练方法，但仍能实现大部分预训练对大型网络语料库的性能提升。提出的方法包括人工创建预训练语料库，并重复利用下游训练样本中的未标注文本进行预训练。此部分揭示了预训练带来的大部分性能提升归因于某种未知机制，而不是来自大规模外部预训练语料库的知识转移。在第三部分，也是最后一部分中，我们设计了验证大型语言模型生成摘要并检测其中潜在事实错误的方法。我们创建了一个公共基准数据集，用于训练和评估对事实核查摘要有用的多任务模型。然后，我们设计了一个交互工具，帮助用户将大型语言模型生成的摘要与参考文档进行核对，并展示了其在突出显示多种大型语言模型对不同领域文档生成的错误方面的有效性。

成为VIP会员查看完整内容

相关内容

博士论文

关注 97

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

26+阅读 · 6月29日

【UIUC博士论文】迈向可信的大型语言模型，312页pdf

专知会员服务

29+阅读 · 6月8日

【斯坦福博士论文】在语言模型融合多模态知识，225页pdf

专知会员服务

46+阅读 · 4月10日

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

33+阅读 · 2023年11月5日