2018年声音计算“大事记”

2019 年 3 月 9 日 人工智能前沿讲习班

回首2018年,声音计算领域涌现了很多成果和进展。小编回顾了过去一年,在MIR、歌声处理、语音处理、声音事件监测等声学计算领域的一些技术进展和新闻事件,于是便有了这篇《2018年声音计算“大事记”》。

小编眼中的“大事”,当然也可能是你眼中的“小事”。仅为一家之言,欢迎大家留言相互交流讨论。

本文主要从以下四个方面来介绍:

  1. 声音计算的技术进展

  2. 声音计算的主要会议

  3. 声音计算的主要比赛

  4. 音乐流媒体领域


01 声音计算的相关进展


(1)单声道音源分离

来自sony的基于denseNet+multiband的分离方案,取得了SiSEC2018的最佳分离效果。但这个方案,采用了spectrum-based分离方案,仅利用频谱幅值进行分离,并没有考虑相位信息(重构分离信号时,仅仅利用原始混合信号的相位),制约了分离信号的质量。

可喜的是,2018年出现了不少基于时域分离的方案,例如Wave-UNet和TasNet算法,不约而同选择在波形域上进行分离建模,避免了传统频域分离方案的相位失真问题。

wave-unet论文地址:

http://ismir2018.ircam.fr/doc/pdfs/205_Paper.pdf

TasNet论文地址:

https://arxiv.org/abs/1711.00541

另外,传统的频域分离模型,仅仅考虑频谱幅度信息,构建是一个实数网络;如果联合频谱幅度和频谱相位信息,构建一个复数网络,也可以避免相位失真问题,提升分离质量,不失为一个可行的方向。

(2)audio-visual分离

谷歌提出一种基于深度学习的音频-视觉联合模型,可在混合信号中(含有噪声、其他说话人信号)分离出某个人的声音,不仅能大幅度提升分离效果,还能够将分离音轨与视频中的可见说活人相关联。

论文地址:https://arxiv.org/pdf/1804.03619.pdf

几乎是在谷歌论文发布的同一时间段,MIT也发布了Pixel Player系统,提出了与谷歌类似的音频-视觉多模态分离方案。

论文地址:https://arxiv.org/abs/1804.03160

多模态融合建模,取长补短,预计是未来各大领域的趋势,不仅限于声学计算领域。

(3)音频风格迁移

风格迁移在图像视觉领域可以说是非常成功,但在音频领域的风格迁移一直难有突破。

Facebook于2018年4月发表的论文“A Universal Music Translation Network”,提出了基于wavenet-autoencoder的音频变换方案,从其demo来看,达到了不错的乐器变换效果,但还是没有做到真正的“风格迁移”。

论文地址:https://arxiv.org/pdf/1805.07848.pdf

(4)自动修音

将五音不全修成天籁之音,估计是很多歌唱爱好者的梦想。唱吧、全民K歌等K歌软件纷纷推出自动修音功能,宣称“秒变歌神”。但实际上从体验效果来看,并不尽如人意。

相比图像对视觉的欺骗,音频轻微的扰动或噪声,敏锐的人耳都能听出来。因此,自动修音的不自然或者瑕疵,人耳很容易感知出来。

(5)语音识别

A、开源代码

涌现了很多新模型、新架构,这里就一一叙述。但就笔者看来,亮点之一有Facebook于2018年12月开源的wav2letter++,并宣称是目前世界上最快、最准的识别模型,该模型基于CNN架构,并取得了不输于传统RNN架构的识别效果,WER低于5%;其代码全部由C++编写,训练速度比kaldi等框架的快2倍多。

源码地址:github.com/facebookresearch/wav2letter

B、开源数据

AISHELL继2017年开源了178小时的AISHELL-1中文数据集后,于2018年6月开源了1000小时的中文数据集AISHELL-2,是目前全球最大的中文开源数据集

详见网址:http://www.aishelltech.com/aishell_2

C、最优识别率

现在各大厂商(微软、谷歌、facebook、BAT、讯飞等),纷纷宣传自己的WER低于5%,超越了人类;最近专做图像视觉领域的依图,在AISHELL-2上达到低于4%的WER,效果也很惊艳。

仅从WER来看,各大厂商的语音识别看似很完美了,但需要指出的是,这仅仅是近场语音识别,如果是远场语音,正确识别效果会大打折扣。即便远近场达到很理想的WER,仅仅将语音转为“正确的文字”,还是远远不够的,还需要一个更关键的模块:更具挑战性的“文字语义理解”!

(6)阿里推出语音鉴黄技术

对于各大互联网平台而言,鉴黄的重要性不言而喻。相对图像鉴黄而言,语音涉黄更隐蔽,更难以检测。

2018年8月,阿里AI语音反垃圾服务上线公测,可识别语音中存在的涉黄等违规信息。据介绍,阿里的鉴黄系统采用了如下方案:对那些无语义的声音,通过声纹技术进行识别;对那些有语义的内容,系统先将语音识别转成文字,然后再将这些文字跟文本反垃圾模型或关键词库比对,判断是否涉黄。

鉴黄接口:https://help.aliyun.com/document_detail/89630.html

语音鉴黄技术,可看作是声音事件检测一个子任务。关于声音事件检测的内容,文后会有关于DCASE比赛的简介。

(7)唇语识别技术大幅度提升,WER低至40.9%

Deepmind于2018年7月公开的论文《Large-Scale Visual Speech Recognition》,所提的唇语识别V2P方案经3886小时的数据集训练后,WER低至40.9%,大幅度优于人类的86.4% WER,以及之前最好方案LipNet的76.8% WER。

论文地址:https://arxiv.org/pdf/1807.05162v1.pdf

有趣的是,这篇论文投稿ICLR 2019遭拒,评审人员认为“工程化+算法规模化”不是AI突破?!详见报道《DeepMind唇读系统ICLR遭拒

暂且不考虑该论文遭ICLR拒稿,从工程角度、潜在价值来看,V2P模型很可能是唇语识别领域的一个里程碑。

(8)AI作曲

除了“很热很热”,没有词语更适合形容2018年的AI作曲了,国内外很多团队在AI作曲都做了很多工作,其中包括Google Magenta团队效果惊艳的Music Transformer方案(但音乐结构层面还是没有完全学出来)。

但AI作曲的应用场景,目前来看,除了氛围音乐、辅助创作,暂时还没有看到更清晰的场景。

(9)歌声合成

歌声合成的最新成果,来自日本名古屋工业大学投资的创业公司Techno Speech,从其合成的歌声来看,自然度和流畅性都非常不错。

详见如下文章《你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言》

可惜的是,该Techno Speech公司的歌声合成技术论文,暂时未公开。

(9)音乐科技其他领域

另外,音乐科技领域的一些进展,可参见:

xiaojing博士的《【让人兴奋的音乐技术研究】之 自动管弦乐配器

以及beici博士的《2018年度的音乐科技成就


02 声音计算相关会议


(1)ISMIR会议

ISMIR 2018于2018年10月于法国巴黎召开,录用论文数100余篇。本次会议best paper如下三篇文章:

A、Dorfer et al. Learning to Listen, Read, and Follow: Score Following as a Reinforcement Learning Game. 

论文摘要:利用reinforcement learning处理score following任务,直接从曲谱图像和spectrograms中学习,并决定是否增加或降低当前音符的跟随速度,在该弱监督场景下,取得了非常不错的score与audio的对齐效果。 

源码地址:https://github.com/CPJKU/score_following_game

Demo视频:

B、Jordi Pons et al. “End-to-end learning for music audio tagging at scale”

论文摘要:针对歌曲标签任务,详细比较了spectrogram-based和waveform -based 分类模型在不同规模训练集上的分类效果,大规模训练集下时域模型优于频域模型,中小规模训练集下频域模型优于时域模型,论文所提方案在MIT&MDS(百万首歌曲)数据集上取得了最优效果。

源码地址:

https://github.com/jordipons/music-audio-tagging-at-scale-models

demo地址:

http://www.jordipons.me/apps/music-audio-tagging-at-scale-demo/

C、Esling et al. Bridging Audio Analysis, Perception and Synthesis with Perceptually-regularized Variational Timbre Spaces

论文摘要:提出基于VAE的perceptually-regularized latent spaces,与信号特性和感知相似性一致,并可用于音频分类(例如instrument、pitch、dynamics等)、合成特定timbre的声音、预测新乐器的感知相似性,避免了原有基于MDS方案的普适性差、映射空间不可逆(无法合成)等问题。

源码地址:

https://github.com/acids-ircam/variational-timbre

demo地址:

https://acids-ircam.github.io/variational-timbre/

有趣的是,上述三篇best paper均有开源了代码、且附有详细形象的demo演示,实力和自信的体现啊!!

(2)ICASSP 2018

ICASSP会议于2018年4月在加拿大Calgary召开,之前地点选在韩国,考虑当前的朝鲜北岛局势紧张,ICASSP参会人数众多(数千人呐),会议组委会临时决定更改到加拿大。

ICASSP会议侧重于声学、语音与信号处理,音乐计算领域偏少(论文数量仅二十余篇),但由于与ISMIR会议相隔半年,两者有较好的互补性。

历届ICASSP也有不少不错的MIR文章,例如大名鼎鼎的pYIN,就是出自ICASSP 2014。说到pYIN,就不能不提到今年ICASSP的论文“CREPE: A Convolutional REpresentation for Pitch Estimation”,针对单音音高提取任务,CREPE直接在waveform进行建模(6层Conv1D网络架构),音高提取效果优于pYIN。

CREPE论文:https://arxiv.org/pdf/1802.06182.pdf

CREPE源码:https://marl.github.io/crepe/

另外,本届ICASSP近10篇speech enhancement和source separation的文章,对音乐信号分离也很有参考价值。例如2016年MIREX Singing voice separation任务上取得最佳效果的方案,即采用了用于多个说话人分离的deep clustering算法。

(3)CSMT 2018会议

CSMT 2018会议是全国声音与音乐计算第六届会议,于2018年11月底在厦门理工学院召开。

此次CMST会议,无论从参会人数还是录用论文,都有一个数量级的提升,参会人声超过200人(还记得2015年在上海音乐学院召开第三届会议时,参会人数不足100人),录用论文数量从2017年的12篇增加到今年的26篇(投稿数从21篇增加到44篇)。

但从会议的presentation来看,部分论文的质量并不算高。不过几位keynote的讲座很精彩,例如IEEE Fellow俞栋介绍的关于“虚拟人的语音技术”(复杂环境下的单通道人声分离、唤醒等)以及英国萨里大学的王文武教授介绍的“声音事件监测技术”(介绍了当前最新的声音事件监测进展和存在问题)。

另外, 第一天的tutorials课程满满,收货不小。相比往年,无论是数量还是质量,今年的CSMT都有一个明显的提升。


03 声音计算相关比赛


(1)MIREX

今年的MIREX比赛略显冷清,参数队伍并不多,每个子任务的参数队伍仅有四五个,与DCASE每个子任务几乎都有五六十个队伍参加。我所关注的Audio Melody Extraction、Train Test Classification、Audio Onset Detection等任务,检测效果并没有比往年有明显提升。

(2)SiSEC

SiSEC有两个子任务:mixture分离为2轨(人声和伴奏)、mixture分离为4轨(bass、drum、vocal、others)。其中,在众多参考队伍中,来自sony的基于denseNet+multiband的方案,取得了最优的分离效果。

Zafar等人的论文”An Overview of Lead and Accompaniment separation in music”,是关于歌曲音源分离非常不错的综述文章,唯一不足是没有包括SiSEC2018的最新成果。

论文地址:https://arxiv.org/pdf/1804.08300.pdf

如果要看SiSEC的最新分离成果,可参考”SiSEC 2018: State of the art in musical audio source separation - subjective selection of the best algorithm”

论文地址:http://epubs.surrey.ac.uk/849086/1/SiSEC%202018.pdf

(3)Voice Conversion

在众多参数队伍中,来自讯飞的基于Wavnet的方案,取得了最优的说话人转换效果(明显优于第二名)。详见参考论文”The Voice Conversion Challenge 2018 Promoting Development of Parallel and Nonparallel Methods”

论文地址:https://arxiv.org/pdf/1804.04262.pdf

(4)DCASE 2018

结果详见网址http://dcase.community/challenge2018/

今年的DCASE共有5个task,每个task的任务描述和最优效果分别如下:

Task1:Acoustic scene classification:

任务描述:包括4个子任务

最优效果:最好的分类准确度在80%左右(子任务1)

Task2:General-purpose audio tagging of Freesound content with AudioSet labels

任务描述:分为41类,包括Laughter、Bus、Saxophone等,数据集由Freesound 提供;

最优效果:accuracy=95%,采用CNN方案(模型含有5000M参数)

Task3:Bird audio detection

任务描述:每个片段10s,判断是否包含鸟叫声,即分为两类

最优效果:AUC Score = 89%,采用DCNNs方案

Task4:Large-scale weakly labeled semi-supervised sound event detection in domestic environments【难度相当大】

任务描述:分10类(包括speech、dog、cat、frying、alarm/bell/ringing等),为弱标签分类,每个片段10s左右,但不知道事件发生的具体时间,需要输出“事件种类”以及“事件出现的起止时间”;

最优效果:F1-Score = 34%,采用CRNN方案

Task5:Monitoring of domestic activities based on multi-channel acoustics

任务描述:分9类,日常家庭活动场景分类,包括“Cooking”, “Watching TV” and“Working”等9类,每个片段10s

最优效果:F1-score =88%,采用CNN方案


04 音乐流媒体领域,竞争与新闻不断


(1)Spotify上市

Spotify于2018年4月7日在美国纽交所上市,市值最高时一度突破300亿美元。

(2)腾讯音乐上市

腾讯音乐集团(包括QQ音乐、酷狗音乐、酷我音乐、全民K歌等)于2018年12月12日在美国纽交所上市,估值对标Spotify。

(3)Pandora被收购

2018年9月24日,美国卫星广播公司SiriusXM以35亿美元收购Pandora

(4)百度音乐更名为千千音乐

2018年6月,被太合音乐收购后,百度音乐更名为“千千音乐”。2006年百度收购“千千静听”,后变身为百度音乐,不知大家是否还记得。

(5)百度投资网易云音乐

2018年9月,网易云音乐完成超6亿美元融资,百度领投。


05 结束语


回首2018年,在声学计算(特别是音乐计算)领域,学术界取得了很多研究进展。而看似新闻不断的工业界,其实有很多成果输出,例如spotify、pandora等,很多研究领域甚至可能走在前沿位置;而国内的互联网公司(例如腾讯音乐、阿里音乐、唱吧、头条、讯飞等),实际上也一直在跟随行业最新技术。

但总体而言,声学计算领域个人认为并没有一个突破性的进展(或达到一个大规模实用的程度)。其实无论是任何领域,当一个技术的效果达到一定高度时,其产生的价值和潜力便会“迅速爆发”。

2018年有一个声学应用“鸣笛抓拍”,给笔者留下深刻印象。除了车辆图像识别技术外,“鸣笛抓拍”最核心的模块是高精度的麦克风阵列,即多声源定位技术。也正是由于“多声源定位算法”的成熟和高精度,才使“鸣笛抓拍”得到大量普及。目前“鸣笛抓拍”系统已经部署在全国70多个城市的的重点路段,堪称是声学技术应用的一大典范。

最后,期待在声学计算领域(特别音乐科技领域)会有长足甚至突破性的工作出现、并成功应用!


@声学挖掘机

版权声明

本文版权归《声学挖掘机》,转载请自行联系。



点击下方图片或点击文末阅读原文,了解课程详情



历史文章推荐:

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

基于深度学习的艺术风格化研究【附PDF】

最新国内大学毕业论文LaTex模板集合(持续更新中)

基于深度学习的图像超分辨率最新进展与趋势【附PDF】

t-SNE:最好的降维方法之一

年龄估计技术综述

钱学森:再谈开放的复杂巨系统

重磅 |《模式识别与机器学习》资源大礼包

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

语音关键词检测方法综述【附PPT与视频资料】



点击下方阅读原文了解课程详情↓↓


若您觉得此篇推文不错,麻烦点点好看↓↓

登录查看更多
8

相关内容

【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
86+阅读 · 2020年5月11日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
【BAAI|2019】类脑神经网络技术及其应用,鲁华祥(附pdf)
专知会员服务
29+阅读 · 2019年11月21日
计算摄影 | 图像合成与融合
计算机视觉life
5+阅读 · 2019年6月3日
标贝科技:TensorFlow 框架提升语音合成效果
谷歌开发者
6+阅读 · 2019年4月29日
已删除
将门创投
3+阅读 · 2019年4月12日
2018年中科院JCR分区发布!
材料科学与工程
3+阅读 · 2018年12月11日
2017年领域自适应发展回顾
AI研习社
3+阅读 · 2018年10月28日
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
人工智能前沿讲习班
12+阅读 · 2018年7月6日
已删除
将门创投
5+阅读 · 2018年6月7日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
【回顾】医学影像计算与分析
AI研习社
5+阅读 · 2017年11月5日
Arxiv
6+阅读 · 2020年4月14日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关资讯
计算摄影 | 图像合成与融合
计算机视觉life
5+阅读 · 2019年6月3日
标贝科技:TensorFlow 框架提升语音合成效果
谷歌开发者
6+阅读 · 2019年4月29日
已删除
将门创投
3+阅读 · 2019年4月12日
2018年中科院JCR分区发布!
材料科学与工程
3+阅读 · 2018年12月11日
2017年领域自适应发展回顾
AI研习社
3+阅读 · 2018年10月28日
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
人工智能前沿讲习班
12+阅读 · 2018年7月6日
已删除
将门创投
5+阅读 · 2018年6月7日
改进语音识别性能的数据增强技巧
深度学习每日摘要
8+阅读 · 2018年4月22日
【回顾】医学影像计算与分析
AI研习社
5+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员