扩散模型作为一类强大的生成模型,在图像合成、视频生成等连续数据领域取得了最先进的性能。其核心机制包括一个正向扩散过程——逐步将结构化数据转化为类高斯分布——以及一个学习得到的反向扩散过程,用于重建原始数据。尽管该框架在连续模态上已被证明是有效的,但将其应用于离散数据,尤其是自然语言,仍是一个具有挑战性且研究活跃的课题【1】。主要难点包括建模离散标记之间的依赖关系的复杂性,以及缺乏自然定义的生成顺序。 本论文研究了离散扩散模型在自然语言生成中的可行性与性能表现。具体而言,我们考察了**离散去噪扩散概率模型(Discrete Denoising Diffusion Probabilistic Model,D3PM)2.5,并将其性能与传统的自回归(Autoregressive,AR)2.4语言模型进行了对比。为评估和比较两种模型的生成能力,我们使用了诸如每个标记的比特数(Bits Per Token, BPT)**2.1、**负对数似然(Negative Log-Likelihood, NLL)**2.3、**困惑度(Perplexity, PPL)2.2以及批处理速度(Batch Processing Speed)**等常见指标。 实验结果【4】表明,表现最好的 D3PM 模型在 BPT 上达到了 5.72,平均值为 8.05。相比之下,AR 模型的平均 BPT 为 4.59,表明其在压缩效率和生成效率方面更具优势。然而,D3PM 模型在批处理速度方面表现更优,最高可达每秒 3.97 个批次,显示出其在并行生成方面的潜力。 所有评估均在统一条件下进行——每个模型生成 100,000 个标记,批次大小固定为 4——以确保公平和可比性。本研究提供了扩散模型与自回归模型的详细对比分析,揭示了它们各自的权衡与差异。最终,研究结果既突显了扩散模型在离散序列建模方面的潜力,也指出了其当前的局限性,为未来在非自回归语言生成框架中的探索奠定了基础。本研究所使用的源码已开源,仓库地址为: https://github.com/AshenWELI/Discrete-Diffusion-Models-for-Language-Genaration。

成为VIP会员查看完整内容
9

相关内容

多模态大型语言模型:综述
专知会员服务
39+阅读 · 6月14日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
无人机集群、蜂群与蜂群算法
无人机
92+阅读 · 2018年9月25日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
多模态大型语言模型:综述
专知会员服务
39+阅读 · 6月14日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
相关资讯
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
无人机集群、蜂群与蜂群算法
无人机
92+阅读 · 2018年9月25日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员