成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
直接偏好优化(DPO)
关注
1
综合
百科
VIP
热门
动态
论文
精华
直接偏好优化中的数据集、理论、变体和应用的综合综述
专知会员服务
13+阅读 · 10月24日
大模型如何多模态偏好对齐?最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述
专知会员服务
25+阅读 · 9月22日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
专知会员服务
27+阅读 · 8月3日
直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
41+阅读 · 6月10日
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
专知会员服务
16+阅读 · 5月26日
【NeurIPS2023】直接偏好优化,代替RLHF
专知会员服务
43+阅读 · 1月7日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top