球场之外,他们用AI给这支特殊的「中国女足」造了一双「耳朵」

2022 年 3 月 3 日 机器之心
机器之心原创
作者:张倩

提起中国女足,估计很多人都忘不了大年初六的那个不眠之夜。国足姑娘们在韩国女足 2-0 领先的巨大压力下舍命防守,最终以 3-2 的战绩完成了史诗级逆转,斩获亚洲杯冠军。这样的拼搏精神令人动容。

但很多人不知道的是,在无声的世界里,一支仅靠手语沟通的女足队伍也曾取得过骄人的战果。

湛江聋人女子足球队的姑娘们。图源:http://www.52hrtt.com/zw/n/w/info/H1568090270933

这支球队于 2013 年成立于广东湛江,2015 年站上了省残运会的最高领奖台。2019 年,她们夺得了泰国曼谷第三届亚太聋人室内五人足球锦标赛第四名,队长陈智慧还获得了「亚洲最佳聋人女子守门员」称号。

图源:像素笔记

几年过去,这些女孩也到了走向社会的年纪,为她们出谋划策的是她们的教练郑国栋。

郑国栋本是湛江特校的语文老师,靠着书和光碟一步步地摸索如何教听障孩子们踢球,还自创了一套球场上的沟通手势。他亲眼看到,足球这项运动如何让这些孩子变得越来越开朗、自信。足球场上的她们与健全人无异,甚至更加坚韧。

在湛江聋人女足,郑国栋既是教练,也是父亲一样的存在。队员们对他的称呼是「爸爸」。图源:https://sports.qq.com/a/20160615/008975.htm

但离开这个大集体之后,这些女孩或多或少地遇到了一些麻烦。

「有些孩子发信息,说爸爸,我准备换工作了。我说你不是刚做两个月吗?怎么又换?她感觉没有认同感、存在感,一旦有些人给了不善意的眼光,她就感觉别人看不起她,对她有意见,心理上调节不过来,就觉得算了,不做了。」郑国栋低声说道。

类似的情况在听障群体中非常常见。由于沟通不畅,他们与外面的世界总是存在一些隔阂。这导致他们的就业面变得非常窄,即使找到工作也很难长期稳定地做下去,从而很难积累职业技能,随之生活也陷入困顿。

近些年来,社会加大了对这一群体的救助,比如部分省市为听障儿童、青少年免费植入人工耳蜗。

人工耳蜗是一种特殊的声能 - 电能转换电子装置。与助听器等其它类型的听觉辅助设备不同,人工耳蜗的工作原理不是放大声音,而是对位于耳蜗内、功能尚完好的听神经施加脉冲电刺激。这就决定了,即使植入了人工耳蜗,听障患者和普通人听到的声音也是不一样的。

「成人的耳蜗圈流行着三句话:安静环境下我们是正常人,噪音环境下我们是聋人,多人聊天我们是局外人。」中国人工耳蜗植入第一人陆峰就曾经这样自己的处境。也就是说,很多人工耳蜗植入者正常环境和安静环境下和人交流没问题 ,但是一到噪音环境下就听不清、跟不上了。陆峰说,这叫「二次听障」。

「在噪音环境下,老板说你怎么听不到我说话,你不是以前和我交流地很好吗?一两次之后 ,这对听障群体造成巨大的心理压力。所以我们这个圈子认为, 二次听障会比一次听障带来更大的心理伤害。」陆峰解释说。

中国首例人工耳蜗植入者陆峰。图源:http://www.cndcm.cn/html/home/kangfuzhishi/1446_1.html

所以,对于听障患者来说,植入人工耳蜗并没有普通人想象得那么美好,利用降噪技术降低二次听障的伤害更重要。

提到降噪,一个很自然的想法就是在人工耳蜗中集成降噪算法,尤其是当前效果比较好的深度学习降噪算法。

但是,事情并没有那么简单。

「人工耳蜗由很小的电池来供电,而且用户一般早上戴上后,晚上才能摘下来,所以它对功耗的要求非常严格。这也导致人工耳蜗的芯片很难达到很高的算力,从而运行高计算复杂度的 AI 降噪算法。」腾讯会议天籁实验室主任商世东解释说。

功耗之外,健康问题也是一大考量,因为「植入体对设备工作时的温度有相当严苛的要求」,腾讯会议天籁实验室专家研究员肖玮补充说。

考虑到这些限制,天籁实验室给出了一个折中的方案——让手机去运行高算力的 AI 降噪算法,然后再把处理好的语音信息通过蓝牙传到人工耳蜗设备上。


这个想法最早于 2020 年落地在国产人工耳蜗厂商诺尔康的产品上。为了打造这款产品,天籁实验室免费开放了打磨多年,并在腾讯会议亿级用户上经过验证的 AI 降噪算法,将新一代人工耳蜗的语音清晰度和可懂度提升了 40%。

来自广东顺德的晓婷是该产品的首批试用者。她的妈妈反馈说,在公园里,晓婷告诉她,「妈妈,我听到了鸟的声音,是两只鸟。」人工耳蜗和 AI 降噪算法的组合给了这个女孩一个不止「听得见」,更是「听得清」的感受,为她真正融入「有声世界」扫清了一些障碍。

晓婷的梦想是成为一名舞蹈家。而她的妈妈只有一个非常简单的愿望,希望自己老了以后不用再担心晓婷。

不过,人工耳蜗虽好,能否达到理想效果却与听障者的年龄有关系。一般认为,人工耳蜗须及早植入,以赶上脑的听觉发育和语言发育的关键期。如果年纪较大,人的听觉和言语中枢就基本停止发育了,再植入耳蜗效果就比较差,语言能力很难提高。再者,虽然国产人工耳蜗已经将这类产品的价格降下来很多,但依然不是每个家庭都负担得起的。

因此,综合来看,只将 AI 算法与人工耳蜗相结合所覆盖的人群和场景可能比较有限。这也是腾讯会议天籁实验室在过去两年中所观察到的现实问题。

郑国栋球队里的队员大多都属于这种情况,因为家庭贫困,她们没有在听觉、语言发育的关键期植入人工耳蜗,之后生理条件也不允许再植入。所以他很希望社会能为这些人提供一些帮助:「科技的变化,无障碍沟通,我觉得都是非常好的,我也想过有没有方式能更方便地为聋人群体创造无障碍沟通的工具。就算不是真正意义上的无障碍,起码在很大程度上能为他们生活提供更好的沟通桥梁,我觉得这就已经足够了。」

目前,他的女足队员们正在试用一款辅听产品——由腾讯会议天籁实验室联合中国聋人协会、中国联通共同推出的畅听王卡升级版。

初代「畅听王卡」的设计非常简单,针对的是听障用户接打电话的场景:如果有电话打进来(比如外卖员),它会自动将接听界面转为类似微信聊天的场景,把对方的语音转换为文字,同时也把听障者打出的文字转换为语音。如今,这个简单的应用已经覆盖了 30 多万听障用户。

在 3 月 3 日「全国爱耳日」之际,腾讯天籁又联合中国联通推出了这一应用的升级版。


升级版的发力点主要集中在辅听和字幕识别上,用肖玮的话说就是「对人的耳朵辅听,对机器也辅听」。

对人的耳朵辅听很好理解,就是借助 AI 降噪算法让听损者在嘈杂环境下听得更清。对机器辅听则体现在实时字幕上。对此,肖玮举了一个生动的例子:「假设一个有听力障碍的大娘去买菜。因为现场说话很嘈杂,大娘很难跟菜农沟通。这个时候,大娘可以手持手机,手机安装了畅听王卡的 APP,里面搭载了天籁音频 AI 降噪技术。菜农说活的声音被这个手机接收之后,大字就会横屏显示在手机上,从而帮助大娘更顺畅地交流。」

这些都是由腾讯天籁专门为听障用户打造的个性化 AI 语音增强辅听算法来支持的,它可以同时赋能语音通话和实时字幕双场景,实现典型噪音场景下单一字节言语识别率提升 66%,实时字幕识别准确率提高了 5.5-9.9 个百分点。

这种以软件为载体的辅听方式大大降低了听障患者使用辅听产品的成本,覆盖人群不仅限于听障者,还可以扩展到普通听损者,比如上了年纪的老年人。随着老龄化的加剧,这一人群的规模将持续扩大。

不过,提到成本,腾讯天籁与美笛乐合作的「美讯听宝 APP」也是非常值得一提的。

听障的治疗是一个漫长的过程,而且非常个性化,需要经历测听(类似配眼镜时的验光)、调机(把人工耳蜗调到最佳状态)等繁琐的过程,往往给听障家庭带来很大的经济压力。

美讯听宝将测听、辅听、远程康复服务集中到了一个 APP 上,可以让听障人士不出家门就能随时掌握自身听力状态,并远程连线听力和康复专家接受会诊调机和康复指导服务。其特有的 AI 辅听功能还能让听损者借助一副蓝牙耳机听到更清晰的声音。

从成本上来说,美笛乐也给我们做了统计,平均每次可以节省 3000 人民币的费用,对一些用户来说,一年算下来的节省成本还是蛮可观的。」肖玮颇为欣慰地说到。


从技术研究到产业落地,再到在公益领域找到新的用武之地,商世东和肖玮都经历了一段不同寻常的职业生涯。在谈到所做的事情时,他们提到了同一个词——「成就感」。商世东甚至曾经说过,「过去所有工作带给我的成就感,都没有晓婷给我的这么大」。

此外,商世东也提到了他们在打磨这些产品时遇到的一些挑战,比如辅听设备对延迟的严格要求。

「我们在腾讯会议也要使用降噪技术,因为开会的两个人往往不是在同一个环境里面,对延迟的要求可以放宽到上百毫秒。但对于助听设备佩戴者来说,他和另一个对话者可能在同一个房间里面,间隔就几米,声音既可以直接传到对方耳朵里,也可以通过助听器降噪、放大、做完补偿以后再传过去,它对延迟的要求在 10 毫秒以下。这两者的技术挑战是不一样的,整个技术路线也是不一样的。」

「我们在这个过程当中做了很多的工作,把面向腾讯会议产品的降噪技术在一个低延迟、低功耗的限制下做到最好的体验,能够尽可能在延迟、功耗和效果上取得最好的平衡,实验室在这方面投入了很多的资源,包括人力资源、研究资源、经济资源与云上的资源,来训练、开发这样的模型。」商世东介绍说。

由此可见,把现有的技术用到公益场景其实并非简单的技术迁移,背后还有很多工作要做。

展望未来,除了继续迭代现有的算法和产品,商世东和肖玮所在的团队也在积极寻找新的可能性。在他们看来,通信产品开发过程当中用到的多项技术,如降噪、波束形成、声反馈抑制,在整个助听器、人工耳蜗领域都有很大的用武之地。国内的产品之所以和国际上最好的产品还有一定的距离,其中的技术瓶颈也是在这里。此外,芯片能力的不断提升和功耗的不断下降,以及无线连接、5G、WiFi、蓝牙 5.0、BLE 等互联互通技术的崛起都将为助听设备的发展提供更广阔的空间。

「助听器行业跟很多家居的、养老的、IOT 的应用可以结合起来。如果之间能够实现很好的助听体验,一些数据可以互联互通结合起来,这里面的想象空间也是巨大的。」商世东说到。

参考链接:http://www.52hrtt.com/zw/n/w/info/H1568090270933
https://zhuanlan.zhihu.com/p/82324705
https://www.tencent.com/zh-cn/articles/2201096.html

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
中国5G垂直行业应用案例2022
专知会员服务
34+阅读 · 2022年4月8日
专知会员服务
25+阅读 · 2021年3月7日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
麻了,新媒体人居家隔离实录
人人都是产品经理
0+阅读 · 2022年3月31日
和这些人交流后,发现 00 后和我们想象的不一样
人人都是产品经理
0+阅读 · 2022年3月13日
谁在抄底中国女足?
36氪
0+阅读 · 2022年2月12日
鹅厂最新数字人,体温36.5℃
量子位
0+阅读 · 2021年12月3日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关VIP内容
中国5G垂直行业应用案例2022
专知会员服务
34+阅读 · 2022年4月8日
专知会员服务
25+阅读 · 2021年3月7日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员