回首2018年,声音计算领域涌现了很多成果和进展。小编回顾了过去一年,在MIR、歌声处理、语音处理、声音事件监测等声学计算领域的一些技术进展和新闻事件,于是便有了这篇《2018年声音计算“大事记”》。
小编眼中的“大事”,当然也可能是你眼中的“小事”。仅为一家之言,欢迎大家留言相互交流讨论。
本文主要从以下四个方面来介绍:
声音计算的技术进展
声音计算的主要会议
声音计算的主要比赛
音乐流媒体领域
(1)单声道音源分离
来自sony的基于denseNet+multiband的分离方案,取得了SiSEC2018的最佳分离效果。但这个方案,采用了spectrum-based分离方案,仅利用频谱幅值进行分离,并没有考虑相位信息(重构分离信号时,仅仅利用原始混合信号的相位),制约了分离信号的质量。
可喜的是,2018年出现了不少基于时域分离的方案,例如Wave-UNet和TasNet算法,不约而同选择在波形域上进行分离建模,避免了传统频域分离方案的相位失真问题。
wave-unet论文地址:
http://ismir2018.ircam.fr/doc/pdfs/205_Paper.pdf
TasNet论文地址:
https://arxiv.org/abs/1711.00541
另外,传统的频域分离模型,仅仅考虑频谱幅度信息,构建是一个实数网络;如果联合频谱幅度和频谱相位信息,构建一个复数网络,也可以避免相位失真问题,提升分离质量,不失为一个可行的方向。
(2)audio-visual分离
谷歌提出一种基于深度学习的音频-视觉联合模型,可在混合信号中(含有噪声、其他说话人信号)分离出某个人的声音,不仅能大幅度提升分离效果,还能够将分离音轨与视频中的可见说活人相关联。
论文地址:https://arxiv.org/pdf/1804.03619.pdf
几乎是在谷歌论文发布的同一时间段,MIT也发布了Pixel Player系统,提出了与谷歌类似的音频-视觉多模态分离方案。
论文地址:https://arxiv.org/abs/1804.03160
多模态融合建模,取长补短,预计是未来各大领域的趋势,不仅限于声学计算领域。
(3)音频风格迁移
风格迁移在图像视觉领域可以说是非常成功,但在音频领域的风格迁移一直难有突破。
Facebook于2018年4月发表的论文“A Universal Music Translation Network”,提出了基于wavenet-autoencoder的音频变换方案,从其demo来看,达到了不错的乐器变换效果,但还是没有做到真正的“风格迁移”。
论文地址:https://arxiv.org/pdf/1805.07848.pdf
(4)自动修音
将五音不全修成天籁之音,估计是很多歌唱爱好者的梦想。唱吧、全民K歌等K歌软件纷纷推出自动修音功能,宣称“秒变歌神”。但实际上从体验效果来看,并不尽如人意。
相比图像对视觉的欺骗,音频轻微的扰动或噪声,敏锐的人耳都能听出来。因此,自动修音的不自然或者瑕疵,人耳很容易感知出来。
(5)语音识别
A、开源代码
涌现了很多新模型、新架构,这里就一一叙述。但就笔者看来,亮点之一有Facebook于2018年12月开源的wav2letter++,并宣称是目前世界上最快、最准的识别模型,该模型基于CNN架构,并取得了不输于传统RNN架构的识别效果,WER低于5%;其代码全部由C++编写,训练速度比kaldi等框架的快2倍多。
源码地址:github.com/facebookresearch/wav2letter
B、开源数据
AISHELL继2017年开源了178小时的AISHELL-1中文数据集后,于2018年6月开源了1000小时的中文数据集AISHELL-2,是目前全球最大的中文开源数据集
详见网址:http://www.aishelltech.com/aishell_2
C、最优识别率
现在各大厂商(微软、谷歌、facebook、BAT、讯飞等),纷纷宣传自己的WER低于5%,超越了人类;最近专做图像视觉领域的依图,在AISHELL-2上达到低于4%的WER,效果也很惊艳。
仅从WER来看,各大厂商的语音识别看似很完美了,但需要指出的是,这仅仅是近场语音识别,如果是远场语音,正确识别效果会大打折扣。即便远近场达到很理想的WER,仅仅将语音转为“正确的文字”,还是远远不够的,还需要一个更关键的模块:更具挑战性的“文字语义理解”!
(6)阿里推出语音鉴黄技术
对于各大互联网平台而言,鉴黄的重要性不言而喻。相对图像鉴黄而言,语音涉黄更隐蔽,更难以检测。
2018年8月,阿里AI语音反垃圾服务上线公测,可识别语音中存在的涉黄等违规信息。据介绍,阿里的鉴黄系统采用了如下方案:对那些无语义的声音,通过声纹技术进行识别;对那些有语义的内容,系统先将语音识别转成文字,然后再将这些文字跟文本反垃圾模型或关键词库比对,判断是否涉黄。
鉴黄接口:https://help.aliyun.com/document_detail/89630.html
语音鉴黄技术,可看作是声音事件检测一个子任务。关于声音事件检测的内容,文后会有关于DCASE比赛的简介。
(7)唇语识别技术大幅度提升,WER低至40.9%
Deepmind于2018年7月公开的论文《Large-Scale Visual Speech Recognition》,所提的唇语识别V2P方案经3886小时的数据集训练后,WER低至40.9%,大幅度优于人类的86.4% WER,以及之前最好方案LipNet的76.8% WER。
论文地址:https://arxiv.org/pdf/1807.05162v1.pdf
有趣的是,这篇论文投稿ICLR 2019遭拒,评审人员认为“工程化+算法规模化”不是AI突破?!详见报道《DeepMind唇读系统ICLR遭拒》
暂且不考虑该论文遭ICLR拒稿,从工程角度、潜在价值来看,V2P模型很可能是唇语识别领域的一个里程碑。
(8)AI作曲
除了“很热很热”,没有词语更适合形容2018年的AI作曲了,国内外很多团队在AI作曲都做了很多工作,其中包括Google Magenta团队效果惊艳的Music Transformer方案(但音乐结构层面还是没有完全学出来)。
但AI作曲的应用场景,目前来看,除了氛围音乐、辅助创作,暂时还没有看到更清晰的场景。
(9)歌声合成
歌声合成的最新成果,来自日本名古屋工业大学投资的创业公司Techno Speech,从其合成的歌声来看,自然度和流畅性都非常不错。
详见如下文章《你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言》。
可惜的是,该Techno Speech公司的歌声合成技术论文,暂时未公开。
(9)音乐科技其他领域
另外,音乐科技领域的一些进展,可参见:
xiaojing博士的《【让人兴奋的音乐技术研究】之 自动管弦乐配器》
以及beici博士的《2018年度的音乐科技成就》
(1)ISMIR会议
ISMIR 2018于2018年10月于法国巴黎召开,录用论文数100余篇。本次会议best paper如下三篇文章:
Demo视频:
论文摘要:针对歌曲标签任务,详细比较了spectrogram-based和waveform -based 分类模型在不同规模训练集上的分类效果,大规模训练集下时域模型优于频域模型,中小规模训练集下频域模型优于时域模型,论文所提方案在MIT&MDS(百万首歌曲)数据集上取得了最优效果。
demo地址:
http://www.jordipons.me/apps/music-audio-tagging-at-scale-demo/
论文摘要:提出基于VAE的perceptually-regularized latent spaces,与信号特性和感知相似性一致,并可用于音频分类(例如instrument、pitch、dynamics等)、合成特定timbre的声音、预测新乐器的感知相似性,避免了原有基于MDS方案的普适性差、映射空间不可逆(无法合成)等问题。
demo地址:
https://acids-ircam.github.io/variational-timbre/
有趣的是,上述三篇best paper均有开源了代码、且附有详细形象的demo演示,实力和自信的体现啊!!
(2)ICASSP 2018
ICASSP会议于2018年4月在加拿大Calgary召开,之前地点选在韩国,考虑当前的朝鲜北岛局势紧张,ICASSP参会人数众多(数千人呐),会议组委会临时决定更改到加拿大。
ICASSP会议侧重于声学、语音与信号处理,音乐计算领域偏少(论文数量仅二十余篇),但由于与ISMIR会议相隔半年,两者有较好的互补性。
历届ICASSP也有不少不错的MIR文章,例如大名鼎鼎的pYIN,就是出自ICASSP 2014。说到pYIN,就不能不提到今年ICASSP的论文“CREPE: A Convolutional REpresentation for Pitch Estimation”,针对单音音高提取任务,CREPE直接在waveform进行建模(6层Conv1D网络架构),音高提取效果优于pYIN。
CREPE论文:https://arxiv.org/pdf/1802.06182.pdf
CREPE源码:https://marl.github.io/crepe/
另外,本届ICASSP近10篇speech enhancement和source separation的文章,对音乐信号分离也很有参考价值。例如2016年MIREX Singing voice separation任务上取得最佳效果的方案,即采用了用于多个说话人分离的deep clustering算法。
(3)CSMT 2018会议
CSMT 2018会议是全国声音与音乐计算第六届会议,于2018年11月底在厦门理工学院召开。
此次CMST会议,无论从参会人数还是录用论文,都有一个数量级的提升,参会人声超过200人(还记得2015年在上海音乐学院召开第三届会议时,参会人数不足100人),录用论文数量从2017年的12篇增加到今年的26篇(投稿数从21篇增加到44篇)。
但从会议的presentation来看,部分论文的质量并不算高。不过几位keynote的讲座很精彩,例如IEEE Fellow俞栋介绍的关于“虚拟人的语音技术”(复杂环境下的单通道人声分离、唤醒等)以及英国萨里大学的王文武教授介绍的“声音事件监测技术”(介绍了当前最新的声音事件监测进展和存在问题)。
另外, 第一天的tutorials课程满满,收货不小。相比往年,无论是数量还是质量,今年的CSMT都有一个明显的提升。
(1)MIREX
今年的MIREX比赛略显冷清,参数队伍并不多,每个子任务的参数队伍仅有四五个,与DCASE每个子任务几乎都有五六十个队伍参加。我所关注的Audio Melody Extraction、Train Test Classification、Audio Onset Detection等任务,检测效果并没有比往年有明显提升。
(2)SiSEC
SiSEC有两个子任务:mixture分离为2轨(人声和伴奏)、mixture分离为4轨(bass、drum、vocal、others)。其中,在众多参考队伍中,来自sony的基于denseNet+multiband的方案,取得了最优的分离效果。
Zafar等人的论文”An Overview of Lead and Accompaniment separation in music”,是关于歌曲音源分离非常不错的综述文章,唯一不足是没有包括SiSEC2018的最新成果。
论文地址:https://arxiv.org/pdf/1804.08300.pdf
如果要看SiSEC的最新分离成果,可参考”SiSEC 2018: State of the art in musical audio source separation - subjective selection of the best algorithm”
论文地址:http://epubs.surrey.ac.uk/849086/1/SiSEC%202018.pdf
(3)Voice Conversion
在众多参数队伍中,来自讯飞的基于Wavnet的方案,取得了最优的说话人转换效果(明显优于第二名)。详见参考论文”The Voice Conversion Challenge 2018 Promoting Development of Parallel and Nonparallel Methods”
论文地址:https://arxiv.org/pdf/1804.04262.pdf
(4)DCASE 2018
结果详见网址http://dcase.community/challenge2018/
今年的DCASE共有5个task,每个task的任务描述和最优效果分别如下:
Task1:Acoustic scene classification:
任务描述:包括4个子任务
最优效果:最好的分类准确度在80%左右(子任务1)
Task2:General-purpose audio tagging of Freesound content with AudioSet labels
任务描述:分为41类,包括Laughter、Bus、Saxophone等,数据集由Freesound 提供;
最优效果:accuracy=95%,采用CNN方案(模型含有5000M参数)
Task3:Bird audio detection
任务描述:每个片段10s,判断是否包含鸟叫声,即分为两类
最优效果:AUC Score = 89%,采用DCNNs方案
Task4:Large-scale weakly labeled semi-supervised sound event detection in domestic environments【难度相当大】
任务描述:分10类(包括speech、dog、cat、frying、alarm/bell/ringing等),为弱标签分类,每个片段10s左右,但不知道事件发生的具体时间,需要输出“事件种类”以及“事件出现的起止时间”;
最优效果:F1-Score = 34%,采用CRNN方案
Task5:Monitoring of domestic activities based on multi-channel acoustics
任务描述:分9类,日常家庭活动场景分类,包括“Cooking”, “Watching TV” and“Working”等9类,每个片段10s
最优效果:F1-score =88%,采用CNN方案
(1)Spotify上市
Spotify于2018年4月7日在美国纽交所上市,市值最高时一度突破300亿美元。
(2)腾讯音乐上市
腾讯音乐集团(包括QQ音乐、酷狗音乐、酷我音乐、全民K歌等)于2018年12月12日在美国纽交所上市,估值对标Spotify。
(3)Pandora被收购
2018年9月24日,美国卫星广播公司SiriusXM以35亿美元收购Pandora
(4)百度音乐更名为千千音乐
2018年6月,被太合音乐收购后,百度音乐更名为“千千音乐”。2006年百度收购“千千静听”,后变身为百度音乐,不知大家是否还记得。
(5)百度投资网易云音乐
2018年9月,网易云音乐完成超6亿美元融资,百度领投。
回首2018年,在声学计算(特别是音乐计算)领域,学术界取得了很多研究进展。而看似新闻不断的工业界,其实有很多成果输出,例如spotify、pandora等,很多研究领域甚至可能走在前沿位置;而国内的互联网公司(例如腾讯音乐、阿里音乐、唱吧、头条、讯飞等),实际上也一直在跟随行业最新技术。
但总体而言,声学计算领域个人认为并没有一个突破性的进展(或达到一个大规模实用的程度)。其实无论是任何领域,当一个技术的效果达到一定高度时,其产生的价值和潜力便会“迅速爆发”。
2018年有一个声学应用“鸣笛抓拍”,给笔者留下深刻印象。除了车辆图像识别技术外,“鸣笛抓拍”最核心的模块是高精度的麦克风阵列,即多声源定位技术。也正是由于“多声源定位算法”的成熟和高精度,才使“鸣笛抓拍”得到大量普及。目前“鸣笛抓拍”系统已经部署在全国70多个城市的的重点路段,堪称是声学技术应用的一大典范。
最后,期待在声学计算领域(特别音乐科技领域)会有长足甚至突破性的工作出现、并成功应用!
@声学挖掘机
版权声明
本文版权归《声学挖掘机》,转载请自行联系。
点击下方图片或点击文末阅读原文,了解课程详情
历史文章推荐:
点击下方阅读原文了解课程详情↓↓
若您觉得此篇推文不错,麻烦点点好看↓↓