微软亚洲研究院NLP与语音领域2019-2020推荐论文列表

2020 年 1 月 17 日 微软研究院AI头条


1. Unified Language Model Pre-training for Natural Language Understanding and Generation


论文链接:https://arxiv.org/abs/1905.03197


代码/模型 (UniLM): https://github.com/microsoft/unilm


该工作将双向、单向、序列到序列的语言模型进行了统一,通过共享参数对多种语言模型进行学习,使得同一个预训练模型可以同时支持自然语言理解及自然语言生成的下游任务。此论文发表于NeurlPS 2019。


2. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks


论文链接:https://arxiv.org/abs/1909.00964


该论文提出跨语言预训练模型Unicoder,通过设计5种不同的跨语言预训练任务,在XNLI和XQA任务上取得了state-of-the-art的效果。该论文已在EMNLP 2019上发表。


3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training


论文链接:https://arxiv.org/abs/1908.06066


该论文提出跨模态预训练模型Unicoder-VL,通过设计3种不同的跨模态预训练任务,在MSCOCO和Flicker图-文搜索任务上取得了state-of-the-art的效果。该论文已在AAAI 2020上发表。


4. VL-BERT: Pre-training of Generic Visual-Linguistic Representations


论文链接:https://arxiv.org/abs/1908.08530


代码/模型 (VL-BERT): https://github.com/jackroos/VL-BERT


该论文提出跨语言预训练模型VL-BERT,基于单模态和多模态任务进行多任务预训练,在VQA、VCR和referring expression comprehension任务上取得了state-of-the-art的效果。该论文已在ICLR 2020上发表。


5. FastSpeech: Fast, Robust, and Controllable Text to Speech


论文链接:https://arxiv.org/pdf/1905.09263.pdf


该论文提出的非自回归深度模型FastSpeech把mel spectrum的生成速度提速270倍,端到端的语音生成速度提速~40倍,实际使用效果非常好。文章发表在NeurIPS 2019。


6. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network


论文链接:https://arxiv.org/abs/1911.04697


论文中提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)。该模型能够同时意识到相位信息以及谐波相关性,从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank + DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。该论文已在AAAI 2020发表。


7. Semantic Mask for Transformer based End-to-End Speech Recognition


论文链接:https://arxiv.org/abs/1912.03010


该论文提出了一种新的针对语音识别的数据增强技术SemanticMask。不同于谱增强(SpecAugment)技术掩码输入梅尔谱序列中的随机长度的某个片段,该方法随机地掩码掉某个词对应的整个片段。由于将该词的声学信息从输入序列中完全移除,训练的过程将强迫模型更多的依赖上下文信息,从而能够强化语言模型的能力。该方法在Librispeech 960小时和TedLium2的数据集上均能够显著的提高模型的性能,达到了当前业内最好的性能。其中在Librispeech 960小时的Test clean 和other上取得了2.28和5.08的WER score。


8. Bridging the Gap between Pre-Training and Fine-Tuning for End-to-End Speech Translation


论文链接:https://arxiv.org/abs/1909.07575


端到端的语音识别模型往往需要使用语音识别和机器翻译的数据来对编码器和解码器进行预训练,这种预训练方法存在网络参数浪费,网络功能不匹配,注意力机制无法预训练等多个问题。为解决这些问题,该论文提出了一种新的串联编码网络(TCEN)。TCEN能够无缝的将语音识别的编码器,机器翻译的编码器和解码器能够串联起来,从而可以显著的提高端到端语音翻译的质量。该论文已在AAAI 2020发表。






你也许还想看




登录查看更多
1

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
本周NLP、CV、机器学习论文精选推荐
PaperWeekly
8+阅读 · 2018年12月21日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
本周NLP、CV、机器学习论文精选推荐
PaperWeekly
8+阅读 · 2018年12月21日
COLING 2018-最新论文最全分类-整理分享
深度学习与NLP
6+阅读 · 2018年7月6日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Top
微信扫码咨询专知VIP会员