EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

2020 年 11 月 20 日 AINLP

文 | 小轶(yì)


背景

今天上午十点刚刚颁布的EMNLP 2020最佳论文,获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。

刷了那么多NLP论文,各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了?今年的EMNLP best paper绝对耳目一新!!工作研究了一个极具潜在社会影响力的新任务:Silent Speech Voicing——通过肌电传感器,把无声的说话动作转化为电子语音。如果该技术得以实现,即使不发生声带振动,只要做出相应的发声动作,即迅速转换为语音。想象一下,或许未来有一天,只要动动嘴,都不用发出声音,就能和人打电话了!

该技术可能的应用场景非常广泛,包括:

  • 过分嘈杂的环境(普通的有声电话难以识别清楚)
  • 必须要保持安静的严肃场合 ( 开会摸鱼新思路
  • 最最重要的是,那些不幸丧失发声能力的人们也将能够与身边人流畅地交流啦!

这个任务显然具有非常大的前景和潜在社会影响。其实近十年也有一些少量工作尝试做类似的事情,但效果都非常不好,让人觉得这事儿可能目前的技术一时半会还实现不了。但emnlp这篇大大提升了实验效果——在一组主要实验中,和之前最强的baseline相比,误差率直降94%。总之,很大程度上证明这个方向还是achievable,大家努努力说不定能成的那种!并且,他们也同时发布了一个针对该任务的大规模数据集。鉴于其深远的应用前景,可以想见之后应该会有大量工作继续follow。而这篇best paper也将成为该任务的开山之作。

论文题目
Digital Voicing of Silent Speech

论文链接:
https://arxiv.org/pdf/2010.02960.pdf

开源代码:
https://github.com/dgaddy/silent_speech

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1119】 下载论文PDF~

方法

接下来,我们简单看一下实现过程~首先第一步是传感器信号采集,需要在嘴和颈脖周围贴上八个传感器,像这样:

然后就会得到八串肌电图信号,像这样:

接下来的任务,就是如何基于肌电图信号,识别出具体的语言信息了。信号转文字的相关研究其实已经有很多了,emnlp这篇的主要贡献其实并不在这一部分,而在于他们发现、并解决了之前研究中的一个问题:前人采用的训练数据都是人在“出声”说话时的肌电信号。但这篇工作则证明,要实现silent speech voicing,必须要用人在“不发声”说话时的肌电信号,因为这两种场景下人的肌肉运作方式是不一样的。motivation很显然,但事实上实现起来是有困难的。因为对于无声的信号来说,是没有对应的语音信号的,很难直接标记出某一段信号对应了哪个单词。他们的解决方法是:对同一段文字,先采集一遍人们说这段话时的有声信号,再采集一遍无声信号。然后让模型在两种信号上都进行训练。两种数据在时间上并不是完全对齐的,所以该模型最核心的一个模块,就是实现两种信号的对齐。

实验

实验中,评测的方式就是请志愿者(或者用语音识别模型)听写转换出来的电子语音。评测指标是word error rate (WER),直观来说就是和原文的最短编辑距离除以文本长度:

(向右滑动查看完整公式)

主要测试了两种设定下的性能表现(两者主要区别其实就是前者包含的词汇量少很多):

  • Closed Vocabulary Condition
  • Open Vocabulary Condition

测试结果如下表。可以看到,在Closed Vocabulary场景下,WER仅有3.6%,比baseline的误差率减少了94%。在Open Vocabulary场景下,也比baseline降低了20%左右的WER。

小结

今年emnlp的best paper颁给了一个非典型的NLP任务。但确实是很酷的工作!是那种会真正产生社会影响的一类研究~所以说,NLP不止是“万物皆可BERT”,NLP的未来也不只有疯狂pretraining。还有很多有意义的方向值得我们去探索呢!

P.S 从今天起,小轶我笔名改做“小轶(yì)”啦。不是小秩(zhì)。也不是小铁(tiě)哦!

萌屋作者:小轶(yì)

刚刚本科毕业于北大计算机系的美少女学霸!目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS,不过因为疫情正处于gap year,于是就来和小夕愉快地玩耍啦~文风温柔优雅,偶尔暴露呆萌属性,文如其人哦!知乎ID:小轶。

作品推荐:

1.谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

2.有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

3.ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

4.Attention模型:我的注意力跟你们人类不一样



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心


欢迎加入AINLP技术交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注预NLP技术交流

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

自然语言处理顶级会议
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
24+阅读 · 2020年12月12日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
12+阅读 · 2020年11月20日
专知会员服务
27+阅读 · 2020年11月5日
CIKM2020最佳论文出炉!NUS《图表示假新闻检测》摘获!
专知会员服务
26+阅读 · 2020年10月24日
专知会员服务
19+阅读 · 2020年10月13日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
Website Fingerprinting on Early QUIC Traffic
Arxiv
0+阅读 · 2021年1月28日
Arxiv
0+阅读 · 2021年1月26日
Arxiv
6+阅读 · 2018年11月1日
VIP会员
相关VIP内容
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
24+阅读 · 2020年12月12日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
12+阅读 · 2020年11月20日
专知会员服务
27+阅读 · 2020年11月5日
CIKM2020最佳论文出炉!NUS《图表示假新闻检测》摘获!
专知会员服务
26+阅读 · 2020年10月24日
专知会员服务
19+阅读 · 2020年10月13日
Top
微信扫码咨询专知VIP会员