2017年深度学习总结:文本和语音应用

2018 年 2 月 4 日 专知 专知内容组(编)

【导读】近日,大数据科学家Volodymyr Fedak发布一篇博客,总结了2017年深度学习的发展:深度学习在文本和语音领域的应用。深度学习从发展伊始就在图像领域取得了越来越好的效果,当今,图像领域也是深度学习最成功的应用领域之一。那么,最新的深度学习在文本和语音方面的发展情况怎样呢?本文就这两个方面给出了最新的总结:从谷歌翻译到Facebook的chatbot,从DeepMind Wavenet到牛津大学唇读。作者介绍了2017年在文本和语音领域中最新的深度学习技术,非常值得一读。


Deep Learning summary for 2017: Text and Speech Applications


深度学习正在改造许多行业,你所在的行业可能也不例外。 来一起了解下2017年最值得关注的深度学习主流项目,紧跟最前沿新技术,否则下一个被新技术淘汰的可能就是你了。 


深度学习(DL)应用早已跨越传统行业的界限。 从医疗服务到保险,从银行到市场推出了各种DL项目。 例如,中国的目标是成为人工智能领域的全球领先者,到2030年将创造一个1500亿美元的人工智能产业,而百度集团的研究人员则大胆预测,以后对数十亿个样本数据集进行实验也只是小菜一碟。


因此,每个企业都应该密切关注其行业中可能存在的深度学习应用。 我们列出了2017年最受关注的文本和言语相关的DL最新应用,让机器学习专业人士和锐意进取的决策者都受益匪浅。


文本相关的深度学习应用




DL应用程序最重要的领域之一是处理文本:比如翻译,聊天机器人,文本分析和其他很多任务。


从Google翻译...


一年前,Google宣布推出新的Google翻译训练算法 - 循环神经网络(Recurrent Neural Network)。 近些年来,机器翻译结果经历了从生成毫无意义的聚在到生成出几乎完美无暇的翻译。 这些成就令人吃惊,Google的DL RNN 在不断提高!

...到Facebook谈判者chatbot


你可能听说过一个关于Facebook如何开发聊天机器人的故事,并由于它发明了一种新的语言而关闭了它。 而真相是,DL算法确实产生了一个非人类的词典,但它并没有阻止它实现其目标。 其目标实际上是让AI在与对手的对话中取得成功(特别是掌握书籍,拿到帽子等),尤其是通过掌握文本对话。


机器人训练使用一个监督的循环网络与一个真正的谈判的文本成绩单庞大的数据集,进一步磨练系统使用加强训练,而并且使系统的两个实例互相对话达到训练的目的。 chatbot已经掌握了现实生活中的谈判技巧之一,即虚假的兴趣。 它表示对它实际上并不需要的项目表示兴趣,并同意只有在给出实际需要的项目时才把它交给对方。

 


一旦任务完成,用人语言的限制就被解除了,这就导致了这个系统发明了一些新的术语。 随意调试代码,看看你的情况发生了什么!


语音处理和生成



DL应用的另一个重要领域涉及语音处理。 它包括语音和音乐的生成,嘴唇动作的识别和同步等。


DeepMind Wavenet




在AlphaGo背后的公司,Google Deepmind目前正在开发WaveNet - 一种将输入文本转换为原始音频的算法。 与以前的尝试相比,它显示出非常好的结果。


到目前为止,这个网络的主要缺陷是它的性能,因为1秒的音频需要1-2分钟才能产生,但是这个进程是惊人的。 要说更多,算法甚至可以创建钢琴音乐! 更多细节可在这里的PDF中找到。


从谷歌DeepMind和牛津大学唇读




另一项来自Google DeepMind的倡议与来自牛津大学(Oxford University)的专家一起工作 - 在他们的联合论文中深入介绍了唇读算法。 使用超过100,000个句子,视频和音频文件的数据集,使用用于音频的LSTM,用于视频的CNN + LSTM以及这两个用于生成状态字符的状态向量的组合来训练该模型。


该系统适用于不同类型的输入:音频,视频,音频+视频,使得这种算法是多元的。

嘴唇运动与音频流的同步




华盛顿大学处理了超过1万小时的奥巴马总统讲话的高清记录,并开发了一种能够使嘴唇运动与音频同步的DL算法


这为游戏行业和CGI电影创造了巨大的能力......但是令人担忧的是,下一次总统演讲可能实际上是计算机生成的镜头,而不是真实的记录。


https://www.youtube.com/watch?v=9Yq67CjDqvw


结论




深度学习正在不断地在各个领域展示出新的激动人心新成就。 我们将在接下来的几周内描述机器感知的进步,强化学习和其他各种应用,敬请期待更新!


原文链接:

https://towardsdatascience.com/deep-learning-summary-for-2017-text-and-speech-applications-9ea02bb3835f

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

登录查看更多
3

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
54+阅读 · 2020年7月4日
【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
79+阅读 · 2019年10月12日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
基于深度学习的文本分类?
机器学习研究会
10+阅读 · 2018年3月3日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
深度学习2017成果展
论智
4+阅读 · 2017年12月26日
2017年深度学习重大研究进展全解读
深度学习世界
3+阅读 · 2017年12月22日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月29日
Arxiv
20+阅读 · 2018年1月17日
VIP会员
相关VIP内容
专知会员服务
54+阅读 · 2020年7月4日
【干货书】高级应用深度学习,294页pdf
专知会员服务
153+阅读 · 2020年6月20日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
166+阅读 · 2019年12月4日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
79+阅读 · 2019年10月12日
相关资讯
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
基于深度学习的文本分类?
机器学习研究会
10+阅读 · 2018年3月3日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
深度学习2017成果展
论智
4+阅读 · 2017年12月26日
2017年深度学习重大研究进展全解读
深度学习世界
3+阅读 · 2017年12月22日
相关论文
Arxiv
13+阅读 · 2019年1月26日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
5+阅读 · 2018年1月29日
Arxiv
20+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员