AIGC基于文本生成音乐，现在压力来到配乐行业这边｜Github

会员服务 ·

AIGC基于文本生成音乐，现在压力来到配乐行业这边｜Github

2022 年 10 月 28 日 量子位

衡宇发自凹非寺
量子位 | 公众号 QbitAI

宇航员骑马奔驰，配什么BGM比较飒？这活交给AI试试！

输入文本“宇航员骑大马”，秒速生成一段1分钟的音频：

emmm……听起来好动感！

是的没错，AI可以基于文字提示生成音乐！

上面这段演示视频，基于Deforum Stable Diffusion的Colab页面代码修改而来。

这只新项目的名字叫Mubert API，已在Github开源，获得1000多的标星。

推特上也有不少人已经用Mubert API生成音频，来给自己的视频配乐了。

试听过的友友们这样留言：

音乐由真人谱曲、AI组曲

在演示视频里面，这个text-to-music的AI，实际生成效果听起来还不错。

那不如来看看，Mubert API是怎么工作的吧。

大概的工作流程是这样的：

音乐人谱曲后上传→AI进行风格分类→用户输入文本→AI用demo组曲→生成个性化音乐

也就是说，虽然Mubert API在进行text-to-music的工作，但是AI负责的部分，只有两个步骤：

分类demo + 根据提示文本组合demo成曲。

简而言之，最后生成的音乐，是由真人谱曲、AI组曲。

具体是怎么回事呢？

回到第一个步骤，音乐人们制作好demo，上传到Mubert。

采用这种方法，而非AI学习音乐人样本后自己生成新的音乐，是因为Mubert有“从创造者到创造者”的理念。

目前，音乐人们上传的超过150万个demo进入Mubert API的音乐库。

为了让用户们玩得开心，Mubert买下了所有demo的版权。

在线玩耍后生成的音乐，可以免费用来配图或配视频画面。

要在各个社交平台分享的话，务必@mubertapp并带上#mubert话题。

但是，绝对不可以在DSP（Spotify，Apple Music，Deezer等）上面标为原创发表。

至于商用，得是另外的价钱。

Demo上传、入库以后，AI识别音乐风格，将它们分组归类，以便于打标签。

前期工作准备就绪，现在来说说具体操作流程。

用户需要输入一句话作为提示文本，再加几个Mubert API标签。

注意，生成音乐的时长可以调节，要不要进行循环、选取哪一段开始循环，也都可以凭你喜欢。

比如宇航员骑大马，配的标签就是“空间”“萨克斯”“旅行”。

这些文本内容会被编码到Transformer的潜在空间向量中，然后，AI会选择那些和提示词及标签最接近的标记向量。

也就是说，AI经过分析后，会选择符合提示文本的音乐demo，把它们排列组合。

如此这般，根据文本生成的个性化音乐，出现了！

值得一提的是，即便输入相同的提示文本，生成雷同音乐的可能性也比较小。

因为所有的音乐，是在提交请求的时候即时生成的，而不是从已有的曲目库中直接拿来用。

一经开源，网友们已经玩儿开了。

日本网友用来生成和风流行音乐（但他也很疑惑，和印象里的日本音乐不咋一样哈）。

当然，也有人尝试了用Mubert API给即将到来的万圣节增加一点恐怖气氛。

也有玩家试玩过后表示，Mubert API在进行音乐生成时，提示文本和标签只能提供一种音乐的氛围，而不能直接搞搞节奏什么的。

Mubert系列

浅看了一下官网，除了Mubert API，Mubert系列还有另外几个项目。

根据既有标签生成音乐的Mubert Render。

和API相比，它棋差一招，没办法让用户手动输入提示文本。

但玩儿的人不少，页面上还有很多已生成音乐在推荐位上。

以及，专供音乐人们上传自己音乐demo，赚点小钱钱的Mubert Studio。

（你说说，和API形成闭环了不是）

也不复杂，简简单单一注册就可。

还有个叫Mubert Play的App。

你在做运动、放松或者冥想的时候，需要的听歌软件又添一员。

有那么一点小遗憾，除了自行运行开源代码，现在普通玩家还不能玩上网页版。

好在创作团队在Twitter上放话：

Mubert API很快就能够在官网上线！会尽快开发一个简单易用、用户友好的Web界面。

再等等吧！

Github地址：
https://github.com/MubertAI/Mubert-Text-to-Music

Mubert官网：
https://mubert.com/

— 完 —

MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月，MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾，共同探讨人工智能行业破局之道。

欢迎智能科技企业参会，分享突破性成果，交流时代级变革，共襄盛会！点击链接或下方图片查看大会详情：

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

音乐

关注 15

音乐，广义而言，指精心组织声音，并将其排布在时间和空间上的艺术类型。

绝了！高颜值妹子3年写了一本1200页的AI全栈技术手册手册！（限时公开下载）

专知会员服务

103+阅读 · 2022年6月8日

人工智能: 国防部应改进战略、库存流程和协作指导

专知会员服务

43+阅读 · 2022年4月11日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

2021年中国AI开发平台市场报告

专知会员服务

74+阅读 · 2021年10月26日

文本对抗样本攻击与防御技术综述

专知会员服务

31+阅读 · 2021年9月11日

【AACL2020】可解释人工智能与自然语言处理可解释性，159页ppt

专知会员服务

125+阅读 · 2020年12月6日

李航等最新《搜索与推荐中的深度学习匹配》新书，190页pdf

专知会员服务

208+阅读 · 2020年9月6日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知会员服务

354+阅读 · 2019年12月25日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

特斯拉前AI主管出手，Stable Diffusion使用体验拉上一个台阶，还可白嫖算力

量子位

0+阅读 · 2022年11月3日

谷歌Imagen首次开放测试，安卓苹果都能玩，还有AI写作助手、超长连贯性视频生成模型

量子位

0+阅读 · 2022年11月3日

靠AI六小时开发出游戏Demo，剧本绘画配音一条龙，网友：新概念3“A”大作

量子位

0+阅读 · 2022年10月25日

我一个插画师给AI打下手，月入3千

量子位

0+阅读 · 2022年10月9日

真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度

量子位

1+阅读 · 2022年9月30日

Transformer作者创业后首个成果亮相！用文本指挥AI做表格发邮件，这是先给自己造了个员工？

量子位

0+阅读 · 2022年9月24日

像编辑文本一样编辑语音，可能吗？

微软研究院AI头条

2+阅读 · 2022年9月14日

国产AI作画神器火了，更懂中文，竟然还能做周边！

量子位

1+阅读 · 2022年8月22日

谷歌亮出 AI“王牌”，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

AI前线

0+阅读 · 2022年6月9日

“治不了GitHub，还治不了你？”唱片行业追杀youtube-dl

量子位

0+阅读 · 2022年3月8日

多CDN自适应流媒体分发的用户体验与网络资源联合优化研究

国家自然科学基金

0+阅读 · 2014年12月31日

产品回流依赖于历史需求再制造系统的库存控制

国家自然科学基金

0+阅读 · 2013年12月31日

移动数字内容的公平交付及安全分发技术的研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于流固声耦合的空间管路系统振动噪声研究及在空调配管的应用

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

股票预期收益率波动如何影响公司资本结构调整？

国家自然科学基金

0+阅读 · 2012年12月31日

隐私关注对用户采纳移动位置服务(LBS)的作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

流固耦合声子晶体管路声振特性及减振降噪研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于历史地理信息系统的城市开放空间形态研究：以南京为例

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的图像合成

国家自然科学基金

0+阅读 · 2011年12月31日

Plug-and-play Shape Refinement Framework for Multi-site and Lifespan Brain Skull Stripping

Arxiv

0+阅读 · 2022年12月22日

GENIE: Large Scale Pre-training for Text Generation with Diffusion Model

Arxiv

0+阅读 · 2022年12月22日

Generating music with sentiment using Transformer-GANs

Arxiv

0+阅读 · 2022年12月21日

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

Arxiv

0+阅读 · 2022年12月21日

Explainable AI over the Internet of Things: Overview, State-of-the-Art and Future Directions

Arxiv

17+阅读 · 2022年11月2日

Transformers in Remote Sensing: A Survey

Arxiv

25+阅读 · 2022年9月2日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

已删除

Arxiv

33+阅读 · 2020年3月23日

VIP会员