Diffusion language models (DLMs) have emerged as a promising alternative to autoregressive models for faster inference via parallel token generation. We provide a rigorous foundation for this advantage by formalizing a model of parallel sampling and showing that DLMs augmented with polynomial-length chain-of-thought (CoT) can simulate any parallel sampling algorithm using an optimal number of sequential steps. Consequently, whenever a target distribution can be generated using a small number of sequential steps, a DLM can be used to generate the distribution using the same number of optimal sequential steps. However, without the ability to modify previously revealed tokens, DLMs with CoT can still incur large intermediate footprints. We prove that enabling remasking (converting unmasked tokens to masks) or revision (converting unmasked tokens to other unmasked tokens) together with CoT further allows DLMs to simulate any parallel sampling algorithm with optimal space complexity. We further justify the advantage of revision by establishing a strict expressivity gap: DLMs with revision or remasking are strictly more expressive than those without. Our results not only provide a theoretical justification for the promise of DLMs as the most efficient parallel sampler, but also advocate for enabling revision in DLMs.


翻译:扩散语言模型(DLMs)作为一种有前景的替代方案,通过并行令牌生成实现了比自回归模型更快的推理速度。我们通过形式化并行采样模型并证明:增强多项式长度思维链(CoT)的DLMs能够以最优的序列步骤数模拟任何并行采样算法,从而为这一优势提供了严格的理论基础。因此,只要目标分布能够通过少量序列步骤生成,DLM就可以使用相同的最优序列步骤数生成该分布。然而,在不具备修改已揭示令牌能力的条件下,即使配备CoT的DLMs仍可能产生巨大的中间存储开销。我们证明:在CoT基础上启用重掩码(将已揭示令牌转换为掩码)或修订(将已揭示令牌转换为其他已揭示令牌)功能,可使DLMs以最优空间复杂度模拟任何并行采样算法。通过建立严格的表达能力差异,我们进一步论证了修订机制的优势:具备修订或重掩码功能的DLMs在表达能力上严格优于不具备这些功能的模型。我们的研究结果不仅为DLMs作为最高效并行采样器的潜力提供了理论依据,也论证了在DLMs中启用修订机制的必要性。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员