人工智能帮助濒危语言 “复活”

2019 年 1 月 28 日 英伟达NVIDIA中国

图片为易洛魁联盟旗帜,来自维基共享资源


据语言学家估计,在全球化、文化同化等多种因素的影响下,到本世纪末,世界上约 7000 种的语言至少有一半将会消失。


记录及振兴濒危语言的工作充满挑战,其中部分原因在于缺乏相应的文本和语音记录。塞内卡语是北美地区六个易洛魁联盟所使用的语言之一,目前,仅有约 100 人将塞内卡语作为第一语言,另有数百位非母语人士正在学习塞内卡语。


自动语音识别 (ASR) 技术已被广泛应用于转写英语和汉语等大语种,这些语言的使用人数高达数百万至数十亿。但对于塞内卡语这类使用人数稀少且可用数据极度贫乏的语言来说,自动语言识别技术发挥出的作用只是皮毛而已。


现在,纽约罗切斯特理工学院的一组研究人员以及布法罗大学的同事正在利用深度学习技术来增强自动语音识别的功能。该项目现阶段的工作核心是塞内卡语,但研究人员的愿景是将其应用于全球各种濒危语言的保护,使之成为全人类共同文化历史的重要组成部分。


“接触不同的语言可以让我们更多地了解大脑的运作机制”,波士顿学院计算机科学助理教授兼罗切斯特理工学院研究员 Emily Prud'hommeaux 说道,“在记录一种语言时,保存下来的不仅是这种语言本身,还有人类使用语言的基本方式”。


Prud’hommeaux 及其同事选择从塞内卡语开始入手并非偶然。她表示,团队中有三名成员是塞内卡人,在此类研究中,这种直接的联系实属罕见。


项目带头人是 Robbie Jimerson,他是罗切斯特理工学院 Golisano 计算与信息科学学院的博士研究生,也是塞内卡印第安人部落中的一员,热衷于保护塞内卡语免于消亡。


“部落中的长老为塞内卡语的保护和推广付出了很大的努力” ,Jimerson 说道,“我也在寻找机会贡献自己的一份力量”。


利用生成对抗网络创建更多语言样本


目前,该项目已经进行到了第三个年头,在积累语言数据时,研究人员遇到了一些挑战。Jimerson 说,塞内卡群体在与外人分享东西时十分谨慎,所以塞内卡语的录音资料非常少。而他则迎难而上。


一开始,他把会说塞内卡语的朋友和老人当作录音对象,并请求这些人录下他们和各自朋友的谈话录音。每当有人在公共场合说塞内卡语时,他都不会错过录音的机会。此外,他还请家人录下老人讲述的古老传说,同时也搜集了互联网上一切可以公开获取的视频和录音资料。


研究团队精心编写了一款专门用来处理塞内卡语的自动语音识别模型,并通过生成对抗网络利用有限的录音创建出更多的语音样本。该模型将录音的波形文件转换为字符流,同时计算出概率并进行校正。


随后,他们将得出的数据输入深度学习模型,后者反过来增强了自动语言识别模型的准确度。


研究团队的网络采用了两种计算配置:其一是配备了九台服务器的机器学习实验室,实验室中运行着若干台 NVIDIA Tesla GPU;另一种是配备了大型服务器的大学集群,每台服务器上运行着 10 台 NVIDIA Tesla P4 GPU。每个集群都运行着一系列深度学习框架,如 TensorFlow 和 Caffe。


“计算工程集群供计算机工程学院的所有学生使用,所以大家会‘争抢’资源”,Ray Ptucha 如是说,他是罗切斯特理工学院计算机工程学院的助理教授,也是本项目的另一位成员。


有了这些弥足珍贵的集群,Jimerson 可以在运行着 NVIDIA TITAN X 的本地机器上测试代码并检查模型的稳定性,从而避免运行可能会崩溃的模型,以至于为其他学生带来不便。



准确度更上一层楼


到目前为止,经过团队的不懈努力,其自动语音识别模型的文字错误率已由 70% 降至 56%。Prud’hommeaux 称,他们的目标是将错误率降低至 25%,这一水平相当于几年前使用自动语音识别系统处理英语语音的水平。


团队可以积累的塞内卡语语音和文字样本越多,识别错误率就会越低。(如今,英语自动语音识别模型可以达到低至 5% 的错误率。)


该团队取得的成果有望为全球其他语种的保护工作提供帮助。


据 Prud’hommeaux 称,团队已与一家存档机构达成协议,这是美国国家科学基金会为该项目提供的资助条件。当他们开展记录濒危语言的其他工作时,可使用最终形成的语言存档数据库作为可用资源。


与此同时,Prud’hommeaux 还表示,团队的工作将为只能利用有限数据量的深度学习研究提供思路。



登录查看更多
1

相关内容

深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
专知会员服务
115+阅读 · 2019年12月24日
2019,想转行人工智能?美国哈佛博士后有话说
大数据技术
3+阅读 · 2019年3月19日
vlog在国外发展快10年了,不转型依然很难
新榜
3+阅读 · 2018年12月22日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
已删除
哈佛商业评论
4+阅读 · 2017年11月1日
学界 | 一文概览语音识别中尚未解决的问题
机器之心
3+阅读 · 2017年10月21日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
干货 :一文读懂语音识别(附学习资源)
数据分析
3+阅读 · 2017年7月28日
Arxiv
22+阅读 · 2019年11月24日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年4月3日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
深度学习可解释性研究进展
专知会员服务
97+阅读 · 2020年6月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
专知会员服务
115+阅读 · 2019年12月24日
相关资讯
2019,想转行人工智能?美国哈佛博士后有话说
大数据技术
3+阅读 · 2019年3月19日
vlog在国外发展快10年了,不转型依然很难
新榜
3+阅读 · 2018年12月22日
人工智能能够预测地震吗?
人工智能学家
7+阅读 · 2018年12月10日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
人工智能创作的春天来了
微软丹棱街5号
7+阅读 · 2018年3月29日
已删除
哈佛商业评论
4+阅读 · 2017年11月1日
学界 | 一文概览语音识别中尚未解决的问题
机器之心
3+阅读 · 2017年10月21日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
干货 :一文读懂语音识别(附学习资源)
数据分析
3+阅读 · 2017年7月28日
Top
微信扫码咨询专知VIP会员