精品内容

《直接偏好优化研究综述》
专知会员服务
27+阅读 · 3月18日
【教程】通过人类反馈的强化学习,77页ppt
专知会员服务
37+阅读 · 2024年10月5日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
基于人工反馈的强化学习综述
专知会员服务
64+阅读 · 2023年12月25日
ChatGPT大模型技术发展与应用
专知会员服务
132+阅读 · 2023年12月3日
71页ppt!指令微调和RLHF讲座(NYU CSCI 2590) 附视频
专知会员服务
52+阅读 · 2023年5月20日
参考链接
微信扫码咨询专知VIP会员