本书将带你循序渐进地创建能够根据文本生成图像的 AI 模型。你将深入探索两种主流的图像生成方法——视觉 Transformer (Vision Transformers)扩散模型 (Diffusion Models),并在实践中掌握关键的 AI 开发技术。 学习这些顶尖技术的最佳方式就是“从零实现”。在本书中,你将亲手构建属于自己的扩散模型和视觉 Transformer。随着开发阶段的推进,你将深入理解如何定制、应用和集成这些模型,以打造令人惊叹的多模态 AI (Multimodal AI)

你将学到:

模型构建与训练:生成基于文本描述的高分辨率图像。 * 图像编辑:根据文本提示(Prompts)修改现有图像。 * 自动标注:构建并训练能够为图片添加标题(Captioning)的模型。 * 图像分类:训练视觉 Transformer 进行精准分类。 * 模型微调:对大语言模型(LLM)进行微调,以执行分类、文本或图像生成等下游任务。 * Deepfake 鉴别:更好地分辨真实图像与 AI 伪造内容。


章节目录概览 (Table of Contents)

第一部分:核心基础

两种模型的渊源:Transformers 与 Diffusions 1. 构建一个 Transformer 模型 1. 使用视觉 Transformer 分类图像 1. 为图像自动添加标题 * 第二部分:扩散模型实战5. 使用扩散模型生成图像 6. 控制扩散模型的生成内容 7. 生成高分辨率图像 * 第三部分:多模态与 Latent Diffusion8. CLIP:衡量图文相似度的核心模型 9. 基于潜扩散(Latent Diffusion)的文生图技术 10. 深度剖析 Stable Diffusion * 第四部分:进阶与 DALL-E 实现11. VQGAN:将图像转化为整数序列 12. DALL-E 的极简实现 * 第五部分:新发展与挑战13. 文生图技术的新进展与未来挑战

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员