Large Language Models (LLMs) often suffer from hallucinations: output content that is not grounded in the input context, when performing long-form text generation tasks such as summarization. Prior works have shown that hallucinations can be reduced by iteratively critiquing and refining previously generated outputs using either the same model or a more powerful teacher model as the critique. However, these approaches either require additional test-time compute or assume access to more powerful teacher models, making them costly and less practical. In this work, we propose Self Critique and Refinement-based Preference Optimization (SCRPO), which is a self-supervised training framework that first constructs a preference dataset by leveraging the LLM's own critique and refinement capabilities, and then applies preference learning to improve the same LLM for faithful summarization. Experiments on three summarization benchmarks (XSUM CNNDM and SAMSum), demonstrate that our approach outperforms state-of-the-art self-supervised learning methods in terms of faithfulness metrics while either maintaining or improving other metrics that measure the overall quality of the summary. Moreover, compared to test-time refinement, our approach not only improves efficiency but also results in more faithful summaries.


翻译:大语言模型(LLMs)在执行摘要生成等长文本生成任务时,常出现幻觉问题:即产生未基于输入上下文的输出内容。先前研究表明,通过使用相同模型或更强大的教师模型作为批判器,对先前生成的输出进行迭代批判与精炼,可有效减少幻觉。然而,这些方法要么需要额外的测试阶段计算资源,要么假设可访问更强大的教师模型,导致成本高昂且实用性受限。本研究提出基于自我批判与精炼的偏好优化方法(SCRPO),该自监督训练框架首先利用大语言模型自身的批判与精炼能力构建偏好数据集,随后通过偏好学习优化同一模型以实现忠实摘要生成。在三个摘要基准数据集(XSUM、CNNDM 和 SAMSum)上的实验表明,本方法在忠实性指标上优于当前最先进的自监督学习方法,同时在衡量摘要整体质量的其他指标上保持或提升性能。此外,与测试阶段精炼方法相比,本方法不仅提升了效率,还能生成更具忠实性的摘要。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员