Reinforcement learning from human feedback (RLHF) has emerged as a key enabling technology for aligning AI behaviour with human preferences. The traditional way to collect data in RLHF is via pairwise comparisons: human raters are asked to indicate which one of two samples they prefer. We present an interactive visualisation that better exploits the human visual ability to compare and explore whole groups of samples. The interface is comprised of two linked views: 1) an exploration view showing a contextual overview of all sampled behaviours organised in a hierarchical clustering structure; and 2) a comparison view displaying two selected groups of behaviours for user queries. Users can efficiently explore large sets of behaviours by iterating between these two views. Additionally, we devised an active learning approach suggesting groups for comparison. As shown by our evaluation in six simulated robotics tasks, our approach increases the final rewards by 69.34%. It leads to lower error rates and better policies. We open-source the code that can be easily integrated into the RLHF training loop, supporting research on human-AI alignment.


翻译:人类反馈强化学习已成为实现人工智能行为与人类偏好对齐的关键技术。传统RLHF数据收集依赖于成对比较:要求人类评估者从两个样本中选择其偏好的一个。本文提出一种交互式可视化方法,更充分地利用人类视觉能力对整组样本进行比较与探索。该界面包含两个联动视图:1)探索视图,以层次聚类结构展示所有采样行为的上下文概览;2)比较视图,呈现两组选定的行为集合供用户查询。用户可通过双视图迭代高效探索大规模行为集合。此外,我们设计了主动学习方法推荐待比较的群体。在六项模拟机器人任务中的评估表明,该方法使最终奖励提升69.34%,降低错误率并生成更优策略。我们开源了可便捷集成至RLHF训练流程的代码,以支持人机对齐领域的研究。

0
下载
关闭预览

相关内容

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员