OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:来自普林斯顿博士生Ameet Deshpande讲述《大型语言模型》技术细节,值得关注! 在本次演讲中,我们将介绍从人工反馈中强化学习(RLHF)的基础知识,以及如何使用这种技术来实现最先进的ML工具,如ChatGPT。演讲的大部分内容将是相互关联的ML模型的概述,并涵盖自然语言处理和RL的基础知识,以便了解RLHF如何在大型语言模型上使用。最后将讨论RLHF的开放问题。