扩散模型作为一类强大的生成模型,在图像合成、视频生成等连续数据领域取得了最先进的性能。其核心机制包括一个正向扩散过程——逐步将结构化数据转化为类高斯分布——以及一个学习得到的反向扩散过程,用于重建原始数据。尽管该框架在连续模态上已被证明是有效的,但将其应用于离散数据,尤其是自然语言,仍是一个具有挑战性且研究活跃的课题【1】。主要难点包括建模离散标记之间的依赖关系的复杂性,以及缺乏自然定义的生成顺序。 本论文研究了离散扩散模型在自然语言生成中的可行性与性能表现。具体而言,我们考察了**离散去噪扩散概率模型(Discrete Denoising Diffusion Probabilistic Model,D3PM)2.5,并将其性能与传统的自回归(Autoregressive,AR)2.4语言模型进行了对比。为评估和比较两种模型的生成能力,我们使用了诸如每个标记的比特数(Bits Per Token, BPT)**2.1、**负对数似然(Negative Log-Likelihood, NLL)**2.3、**困惑度(Perplexity, PPL)2.2以及批处理速度(Batch Processing Speed)**等常见指标。 实验结果【4】表明,表现最好的 D3PM 模型在 BPT 上达到了 5.72,平均值为 8.05。相比之下,AR 模型的平均 BPT 为 4.59,表明其在压缩效率和生成效率方面更具优势。然而,D3PM 模型在批处理速度方面表现更优,最高可达每秒 3.97 个批次,显示出其在并行生成方面的潜力。 所有评估均在统一条件下进行——每个模型生成 100,000 个标记,批次大小固定为 4——以确保公平和可比性。本研究提供了扩散模型与自回归模型的详细对比分析,揭示了它们各自的权衡与差异。最终,研究结果既突显了扩散模型在离散序列建模方面的潜力,也指出了其当前的局限性,为未来在非自回归语言生成框架中的探索奠定了基础。本研究所使用的源码已开源,仓库地址为: https://github.com/AshenWELI/Discrete-Diffusion-Models-for-Language-Genaration。