用于语言生成的离散扩散模型 - 专知VIP

会员服务 ·

7

语言生成 · 离散扩散模型 ·

用于语言生成的离散扩散模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

扩散模型作为一类强大的生成模型，在图像合成、视频生成等连续数据领域取得了最先进的性能。其核心机制包括一个正向扩散过程——逐步将结构化数据转化为类高斯分布——以及一个学习得到的反向扩散过程，用于重建原始数据。尽管该框架在连续模态上已被证明是有效的，但将其应用于离散数据，尤其是自然语言，仍是一个具有挑战性且研究活跃的课题【1】。主要难点包括建模离散标记之间的依赖关系的复杂性，以及缺乏自然定义的生成顺序。本论文研究了离散扩散模型在自然语言生成中的可行性与性能表现。具体而言，我们考察了**离散去噪扩散概率模型（Discrete Denoising Diffusion Probabilistic Model，D3PM）2.5，并将其性能与传统的自回归（Autoregressive，AR）2.4语言模型进行了对比。为评估和比较两种模型的生成能力，我们使用了诸如每个标记的比特数（Bits Per Token, BPT）**2.1、**负对数似然（Negative Log-Likelihood, NLL）**2.3、**困惑度（Perplexity, PPL）2.2以及批处理速度（Batch Processing Speed）**等常见指标。实验结果【4】表明，表现最好的 D3PM 模型在 BPT 上达到了 5.72，平均值为 8.05。相比之下，AR 模型的平均 BPT 为 4.59，表明其在压缩效率和生成效率方面更具优势。然而，D3PM 模型在批处理速度方面表现更优，最高可达每秒 3.97 个批次，显示出其在并行生成方面的潜力。所有评估均在统一条件下进行——每个模型生成 100,000 个标记，批次大小固定为 4——以确保公平和可比性。本研究提供了扩散模型与自回归模型的详细对比分析，揭示了它们各自的权衡与差异。最终，研究结果既突显了扩散模型在离散序列建模方面的潜力，也指出了其当前的局限性，为未来在非自回归语言生成框架中的探索奠定了基础。本研究所使用的源码已开源，仓库地址为： https://github.com/AshenWELI/Discrete-Diffusion-Models-for-Language-Genaration。

成为VIP会员查看完整内容

10

相关内容

语言生成

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

26+阅读 · 7月22日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 7月1日

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 6月19日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

40+阅读 · 6月14日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

10+阅读 · 6月6日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

37+阅读 · 2月28日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

31+阅读 · 2024年12月10日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

【ICML2023】基于最优多任务插值的多模态基础模型迁移

【ICML2023】基于最优多任务插值的多模态基础模型迁移

专知会员服务

31+阅读 · 2023年4月29日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

再谈人脸识别损失函数综述

再谈人脸识别损失函数综述

人工智能前沿讲习班

14+阅读 · 2019年5月7日

卷积神经网络四种卷积类型

卷积神经网络四种卷积类型

炼数成金订阅号

18+阅读 · 2019年4月16日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

92+阅读 · 2018年9月25日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

离散扩散模型

相关VIP内容

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

26+阅读 · 7月22日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 7月1日

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 6月19日

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

40+阅读 · 6月14日

UnHiPPO：面向不确定性的状态空间模型初始化方法

UnHiPPO：面向不确定性的状态空间模型初始化方法

专知会员服务

10+阅读 · 6月6日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

37+阅读 · 2月28日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

31+阅读 · 2024年12月10日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

【ICML2023】基于最优多任务插值的多模态基础模型迁移

【ICML2023】基于最优多任务插值的多模态基础模型迁移

专知会员服务

31+阅读 · 2023年4月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

再谈人脸识别损失函数综述

再谈人脸识别损失函数综述

人工智能前沿讲习班

14+阅读 · 2019年5月7日

卷积神经网络四种卷积类型

卷积神经网络四种卷积类型

炼数成金订阅号

18+阅读 · 2019年4月16日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

无人机集群、蜂群与蜂群算法

无人机集群、蜂群与蜂群算法

无人机

92+阅读 · 2018年9月25日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

73+阅读 · 2017年11月8日

相关基金

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

477+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员