Large Language Models (LLMs) often produce factoid hallucinations - plausible yet incorrect answers. A common mitigation strategy is model alignment, which improves factual accuracy by training on curated (factual, non-factual) pairs. However, this approach often relies on a stronger model (e.g., GPT-4) or an external knowledge base to assess factual correctness that may not always be accessible. Addressing this, we propose Atomic Consistency Preference Optimization (ACPO), a self-supervised preference-tuning method that enhances factual accuracy without external supervision. ACPO leverages atomic consistency signals (i.e., the agreement of individual facts across multiple stochastic responses) to identify high- and low-quality data pairs for model alignment. Despite being fully self-supervised, ACPO outperforms the strong supervised alignment baseline by 1.95 points averaged across Phi-3 and Llama3 on the LongFact and BioGen datasets, demonstrating its effectiveness in improving factual reliability without relying on external models or knowledge bases.


翻译:大型语言模型(LLMs)常产生事实性幻觉——看似合理但实际错误的答案。常见的缓解策略是模型对齐,即通过在精心筛选的(事实性、非事实性)数据对上进行训练来提高事实准确性。然而,该方法通常依赖于更强的模型(如GPT-4)或外部知识库来评估事实正确性,而这些资源可能并非总能获取。针对此问题,我们提出原子一致性偏好优化(ACPO),一种无需外部监督的自监督偏好调优方法,旨在提升事实准确性。ACPO利用原子一致性信号(即多个随机响应中单个事实的一致性)来识别用于模型对齐的高质量和低质量数据对。尽管完全自监督,ACPO在LongFact和BioGen数据集上,平均在Phi-3和Llama3模型上优于强监督对齐基线1.95个百分点,证明了其在无需依赖外部模型或知识库的情况下提升事实可靠性的有效性。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员