图像和自然语言在现实世界中非常常见。然而,生成具有高度艺术性的图像和具有世界知识的文档仍然具有挑战性,尤其是当图像和文本作为多模态数据处理时。开发一个能够同时处理多模态数据的高效生成模型非常重要。此外,生成模型的特征展示了良好的语义属性,受到这一启发,将判别模型和生成模型集成到一个单一模型中将是一个非常有意义的任务。本论文旨在从三个方面改进生成模型:从数据角度重新思考基于扩散的生成模型,通过概率建模统一判别模型和生成模型,以及在多模态数据下的数据生成。 当前的深度生成模型是数据驱动的,但训练方案大多是手工设计的,这需要为新的场景进行适应。因此,从数据角度出发,我们对基于扩散的生成模型进行了全面的实证分析。基于我们的调查,我们提出了一种新的度量标准——加权信噪比(WSNR),可以一致地量化RGB空间和潜在空间中的噪声水平。这个度量标准使我们能够建立WSNR等效训练噪声调度,显著提升高分辨率模型在这些领域中的性能。此外,我们通过常微分方程(ODE)框架深入探讨了反向采样过程,阐明了数据驱动的采样策略。最后,我们提出了一种适应性方案,在计算约束下选择数值方法,平衡效果和效率。 近期的生成模型表明,它们的内部表示空间与语义概念相关。受到此启发,我们提出通过概率建模统一判别模型和生成模型。具体来说,我们提出了一种基于能量的分类器和生成器,简称EGC,它可以通过一个神经网络在两个任务中都取得优异的性能。与传统的分类器不同,传统分类器根据给定的图像生成标签(即条件分布p(y|x)),而EGC中的前向传递是一个分类模型,输出联合分布p(x, y),在反向传递中,通过边缘化标签y来估计得分函数,从而启用扩散模型。此外,EGC可以通过将标签视为潜在变量来适应无监督学习。这项工作标志着使用统一的网络参数集掌握这两个领域的首次成功。我们相信,EGC弥合了判别学习和生成学习之间的鸿沟。 在实际应用中,大多数生成问题都涉及图像和文本。视觉语言模型(VLMs)通过大语言模型的整合经历了快速发展,但由于有限的空间意识和使用粗粒度的区域特定训练数据,它们在区域视觉理解方面仍然存在困难。为了解决这个问题,我们提出了RegionGPT(RGPT),一个旨在处理复杂多模态区域级标注和理解的新框架。RGPT通过对现有视觉编码器进行简单而有效的修改,增强了区域表示的空间意识。我们证明,通用的RGPT模型可以有效地应用,并显著提升多模态区域级任务的性能,包括但不限于复杂的区域描述、推理、物体分类和指代表达理解。