莫伊萨伊:有长文本流传的文字到音乐一代 (Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion) - 专知论文

会员服务 ·

0

HTTPS · MoDELS · 潜在 · surge · Nuance ·

2023 年 1 月 27 日

Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion

翻译：莫伊萨伊:有长文本流传的文字到音乐一代

Flavio Schneider,Zhijing Jin,Bernhard Schölkopf

from arxiv, Music samples for this paper: https://bit.ly/anonymous-mousai ; all music samples for all models: https://bit.ly/audio-diffusion ; codes: https://github.com/archinetai/audio-diffusion-pytorch

The recent surge in popularity of diffusion models for image generation has brought new attention to the potential of these models in other areas of media synthesis. One area that has yet to be fully explored is the application of diffusion models to music generation. Music generation requires to handle multiple aspects, including the temporal dimension, long-term structure, multiple layers of overlapping sounds, and nuances that only trained listeners can detect. In our work, we investigate the potential of diffusion models for text-conditional music generation. We develop a cascading latent diffusion approach that can generate multiple minutes of high-quality stereo music at 48kHz from textual descriptions. For each model, we make an effort to maintain reasonable inference speed, targeting real-time on a single consumer GPU. In addition to trained models, we provide a collection of open-source libraries with the hope of facilitating future work in the field. We open-source the following: - Music samples for this paper: https://bit.ly/anonymous-mousai - All music samples for all models: https://bit.ly/audio-diffusion - Codes: https://github.com/archinetai/audio-diffusion-pytorch

翻译：最近对图像生成传播模型的流行程度的上升使人们重新注意到这些模型在其他媒体合成领域的潜力。尚未充分探索的一个领域是将传播模型应用于音乐生成;音乐生成需要处理多个方面,包括时间层面、长期结构、多层重叠声音以及只有经过培训的听众才能察觉到的细微问题。我们在工作中调查了文本-有条件音乐生成的传播模型的潜力。我们开发了一种层层叠潜潜的传播方法,可以从文字描述中生成48kHz的多分钟高质量立体音乐。对于每一种模型,我们努力保持合理的推断速度,针对单一消费者GPU实时。除了经过培训的模型外,我们还收集了开放源图书馆,希望为今后实地工作提供便利。我们公开提供以下文件的音乐样本:https://bit.ly/onnymous-mosai-所有模型:https://bit.ly/audio-difivil - Code: https://gistrif-prif-dio.comstine:

0

相关内容

HTTPS

超文本传输安全协议是超文本传输协议和 SSL/TLS 的组合，用以提供加密通讯及对网络服务器身份的鉴定。

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

Sema4D在肥胖诱导的脂肪炎症和胰岛素抵抗中的作用和机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

miR-374b-5p在黄芩素抑制人肝癌细胞增殖中的作用及分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀土金属受阻Lewis酸碱对的合成及反应性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人检测中粒度空间特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

血三七促骨折愈合活性成分及作用机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

运动板的非线性振动和混沌

国家自然科学基金

0+阅读 · 2012年12月31日

Doublecortin的动态表达在骨折愈合中的作用与调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

关系的分解与Domain的表示

国家自然科学基金

1+阅读 · 2011年12月31日

高熵合金的高温蠕变变形行为及断裂机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

Wnt5A对人卵巢癌细胞化疗耐受性的影响及耐药相关机制的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Latent Video Diffusion Models for High-Fidelity Long Video Generation

Arxiv

0+阅读 · 2023年3月20日

Imagic: Text-Based Real Image Editing with Diffusion Models

Arxiv

0+阅读 · 2023年3月20日

Inversion-Based Style Transfer with Diffusion Models

Arxiv

0+阅读 · 2023年3月20日

Interactive Text Generation

Arxiv

0+阅读 · 2023年3月17日

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Arxiv

0+阅读 · 2023年3月17日

Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation

Arxiv

0+阅读 · 2023年3月16日

A Prompt Log Analysis of Text-to-Image Generation Systems

Arxiv

0+阅读 · 2023年3月16日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

VIP会员

文章信息

相关主题

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

抢鲜看！13篇CVPR2020论文链接/开源代码/解读

专知会员服务

50+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM MM 2022 Call for Papers

ACM MM 2022 Call for Papers

CCF多媒体专委会

5+阅读 · 2022年3月29日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

Latent Video Diffusion Models for High-Fidelity Long Video Generation

Arxiv

0+阅读 · 2023年3月20日

Imagic: Text-Based Real Image Editing with Diffusion Models

Arxiv

0+阅读 · 2023年3月20日

Inversion-Based Style Transfer with Diffusion Models

Arxiv

0+阅读 · 2023年3月20日

Interactive Text Generation

Arxiv

0+阅读 · 2023年3月17日

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Arxiv

0+阅读 · 2023年3月17日

Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation

Arxiv

0+阅读 · 2023年3月16日

A Prompt Log Analysis of Text-to-Image Generation Systems

Arxiv

0+阅读 · 2023年3月16日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

13+阅读 · 2018年1月11日

相关基金

Sema4D在肥胖诱导的脂肪炎症和胰岛素抵抗中的作用和机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

miR-374b-5p在黄芩素抑制人肝癌细胞增殖中的作用及分子机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀土金属受阻Lewis酸碱对的合成及反应性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人检测中粒度空间特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

血三七促骨折愈合活性成分及作用机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

运动板的非线性振动和混沌

国家自然科学基金

0+阅读 · 2012年12月31日

Doublecortin的动态表达在骨折愈合中的作用与调控机制

国家自然科学基金

0+阅读 · 2012年12月31日

关系的分解与Domain的表示

国家自然科学基金

1+阅读 · 2011年12月31日

高熵合金的高温蠕变变形行为及断裂机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

Wnt5A对人卵巢癌细胞化疗耐受性的影响及耐药相关机制的研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员