Generative query suggestion using large language models offers a powerful way to enhance conversational systems, but aligning outputs with nuanced user preferences remains a critical challenge. To address this, we introduce a multi-stage framework designed for progressive alignment between the generation policy and user intent. Our pipeline begins with prompt engineering as a cold-start strategy, followed by the Supervised Fine-Tuning stage, in which we introduce a distillation method on click logs to create a robust foundational model. To better model user preferences while capturing their inherent uncertainty, we develop a Gaussian Reward Model (GaRM) that represents user preferences as probability distributions rather than point estimates. Finally, we employ reinforcement learning to align the generation policy with these preferences, guided by a composite reward function that integrates GaRM with auxiliary heuristics to mitigate reward hacking. To maintain training stability, this process is enhanced by a novel out-of-distribution regularization method and a two-stage reward fusion technique. Extensive experiments demonstrate that our framework significantly outperforms baselines on both automatic and human evaluations and yields a 34\% relative increase in user engagement as measured by click-through rate in live A/B tests.


翻译:利用大语言模型进行生成式查询建议为增强对话系统提供了强大途径,但使输出与细微的用户偏好对齐仍是一个关键挑战。为此,我们提出了一个多阶段框架,旨在实现生成策略与用户意图之间的渐进式对齐。我们的流程从作为冷启动策略的提示工程开始,随后进入监督微调阶段,在此阶段我们引入基于点击日志的蒸馏方法,以构建一个鲁棒的基础模型。为了更好地建模用户偏好并捕捉其固有的不确定性,我们开发了高斯奖励模型(GaRM),该模型将用户偏好表示为概率分布而非点估计。最后,我们采用强化学习,在复合奖励函数的指导下将生成策略与这些偏好对齐;该函数整合了GaRM与辅助启发式方法,以减轻奖励欺骗。为保持训练稳定性,该过程通过一种新颖的分布外正则化方法和两阶段奖励融合技术得到增强。大量实验表明,我们的框架在自动和人工评估中均显著优于基线方法,并在实时A/B测试中,通过点击率衡量,用户参与度相对提升了34%。

0
下载
关闭预览

相关内容

【AAAI2024】使用大型语言模型的生成式多模态知识检索
专知会员服务
58+阅读 · 2024年1月19日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员