成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
人类反馈强化学习 (RLHF)
关注
12
综合
百科
VIP
热门
动态
论文
精华
精品内容
【CMU博士论文】交互式学习的进展:替代性反馈机制与自适应因果推理
专知会员服务
9+阅读 · 8月18日
面向视觉的强化学习综述
专知会员服务
15+阅读 · 8月12日
如何对齐?北大最新271页ICML2025教程《语言模型的对齐方法:一种机器学习视角》
专知会员服务
46+阅读 · 7月16日
【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍
专知会员服务
29+阅读 · 4月7日
《直接偏好优化研究综述》
专知会员服务
30+阅读 · 3月18日
【博士论文】朝向大规模语言模型的原则性训练与服务
专知会员服务
10+阅读 · 2月10日
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
38+阅读 · 2024年10月5日
大模型如何多模态偏好对齐?最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述
专知会员服务
29+阅读 · 2024年9月22日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
基于人工反馈的强化学习综述
专知会员服务
64+阅读 · 2023年12月25日
ChatGPT大模型技术发展与应用
专知会员服务
133+阅读 · 2023年12月3日
100页HuggingFace等《通过人类反馈的强化学习(RLHF)》教程讲解
专知会员服务
87+阅读 · 2023年12月3日
如何对齐学习?伯克利博士论文《人本主义奖励设计》,119页pdf阐述大模型中对齐人类输入设计
专知会员服务
47+阅读 · 2023年11月20日
【ETHZ博士论文】基于人类反馈的安全高效强化学习算法基础, 258页pdf
专知会员服务
51+阅读 · 2023年10月8日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top