课程描述从生成图像和文本到生成音乐和艺术,生成建模的目标长久以来一直是人工智能的一个关键挑战。本课程探讨了推动生成建模和基础模型近期进展的机器学习和人工智能技术。学生将理解、开发并应用能够让机器生成逼真和富有创造性内容的最新算法。核心主题将包括:学习的基本机制;如何构建生成模型和其他大型基础模型(例如,用于视觉和语言的transformers,扩散模型);如何训练这些模型(预训练,微调)并有效地适应它们(适配器,上下文内学习);如何扩大到大型数据集(多GPU/分布式优化);如何使用现有模型进行日常使用(生成代码,带有生成模型的编码)。学生还将探索理论基础和实证尝试以理解其内部工作机制,以及学习关于事情可能出错的方式(偏见,幻觉,对抗攻击,数据污染)和对抗这些问题的方法。课程中的学生将通过实现来发展对现代技术的理解,但他们也将利用现有的库和模型来探索其生成能力和限制。本课程适用于已经完成机器学习或深度学习入门课程的学生。学习成果:完成课程后,学生应能够……区分不同的学习机制,如参数调整和上下文内学习。 实现支撑现代生成建模方法的基础模型,如transformers和扩散模型。 将现有模型应用于文本、代码、图像、音频和视频的实际生成问题。 采用适应基础模型任务的技术,如微调、适配器和上下文内学习。 实现生成建模方法扩展到大型文本、代码或图像数据集的技术。 使用现有生成模型解决实际的判别问题和其他日常用例。 分析大规模基础模型的理论属性。 识别不同模态的生成建模潜在陷阱。 描述大规模生成AI系统的社会影响。 有关涵盖主题的更多细节,请参见课程安排页面。先决条件进入该课程的学生预期应具有通过修读以下课程之一(10301或10315或10601或10701或10715或11485或11685或11785)获得的机器学习或深度学习的入门知识。您必须严格遵守这些先决条件!即使CMU的注册系统不阻止您为这门课程注册,您仍有责任在注册前确保您具备所有这些先决条件。