不出声，也能聊Siri！康奈尔华人团队打造「无声」智能项链，中英文两用

会员服务 ·

不出声，也能聊Siri！康奈尔华人团队打造「无声」智能项链，中英文两用

2022 年 2 月 17 日 新智元

新智元报道

编辑：拉燕 David

【新智元导读】光动嘴，不出声，也能语音识别？康奈尔大学华人团队打造的智能项链不但做到了，而且中英文通用，识别准确率超过90%，奥秘在于装在项链内部的红外摄像头。

现有的语音识别技术可以让用户和Siri直接对话，问问明天的天气，或者让Alexa放首歌什么的。

但是这些技术还是需要人们说出声音。但假如有一个人不会说话呢？或者在某些场合不适合说出声音呢？

康奈尔大学鲍尔斯计算机与信息科学学院信息科学助理教授Cheng Zhang，和博士生Ruidong Zhang给出了答案：Speechin。

这是一款通过识别脖子和脸部的皮肤变形来识别无声指令的设备。它利用颈装红外摄像头来捕捉这些图片。

2021年12月31日发表在「Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies」上的「SpeeChin: A Smart Necklace for Silent Speech Recognition」一文详细介绍了这种技术。

10月份，Ruidong Zhang把论文发到了UbiComp 2022会议上。

「这项技术涉及两个问题。一个是，为什么一定要用项链？另一个是，为什么要识别口型？」

对于第一个问题，我们认为项链是一种人们会习惯佩戴的东西。相比于戴在耳朵上可能会更舒服一点。

对于第二个问题，很多人可能会认为自己的手机上已经有语音识别的功能了，不会再需要戴个项链。但是有的时候你可能不太能讲话讲出声音，或者有的人可能就是发不出任何声音。」

「而我们推出的这项技术可以学习一个人说话的时候身体各个部分的模式，这样就算不出声也能知道他在说什么。」

「我们引入了全新的形状因子、硬件。」Ruidong Zhang说。他在2020年在中国的家里搭建出了这款新设备的原型机。那时他正在中国远程完成他第一年的博士项目。

这个设备在外观上和Cheng Zhang去年展示的Neckface技术很像。

Neckface是由Cheng Zhang和他的Scifi实验室团队成员一同完成的。Neckface用红外摄像机不断地捕捉整个脸部的变化轨迹，收集下巴和脖子上的皮肤图像。

像Neckface一样，Speechin也是用一台红外摄像机来捕捉佩戴者皮肤的变化，它装在用3D打印出来的项链上。为了提高佩戴的稳定性，开发者在两侧各装了一个小翅膀，还在底部放了一枚硬币。

相比于在人脸前面架一台摄像机，在脖子上挂一个红外摄像机会更方便，更保护隐私。因为面前如果有摄像机的话无法避免地会拍到身后的场景，这可能会侵犯隐私。

首次实验他们招募了20个参与实验的人。一半说英语，一半说中文普通话。小组成员主要通过测试确定下巴的基线位置。然后用不同的图片来训练设备，学习识别一些简单的指令。

Ruidong Zhang让参与实验的人用英语说出54个指令，包括数字指令、互动指令、语音助理指令、标点指令和导航指令。然后用汉语说出44个简单的词或者短语，内容基本相同。

Speechin识别英语和汉语的平均准确率是90.5%和91.6%。为了更大限度地测试极限，实验人员又找了10位参与者开展了另一项实验。

实验人员让这10个人无声地说出精心设计的72个由音素构成的一个音节的、不是单词的内容，这些音素包括18个辅音和4个元音。

最后，小组成员又找来6个人，边走边说出10个中文词组和英文词组。这次的成功率稍有下降，其原因是在走路的时候会产生一些变量，比方说，走路的时候比不动的时候头部运动要更多。

Ruidong Zhang在家里用焊接台建起实验室，在家乡招募人员参与实验。

我住的地方是个小城，会英语的人不好找。所以我们最后去杭州了，在浙大找会说英语的人参与实验。这对我来说是个难忘的经历。

参考资料：

https://dl.acm.org/doi/abs/10.1145/3494987

https://www.inceptivemind.com/speechin-smart-necklace-recognizes-wearers-silent-speech-commands/23335/

登录查看更多

相关内容

Siri

关注 0

Siri 是内嵌在苹果公司所推出的智能手机 iPhone 4S 内的人工智能助理软件。该软件使用自然语言处理技术，可通过自然的对话与手机互动，完成搜索资料、查询天气、设置手机日历、设置闹铃等服务。

【开放书】《血管生物测定手册》，Handbook of Vascular Biometrics ，535页pdf！

专知会员服务

14+阅读 · 2022年4月11日

BCI离实用还有多远？《克服「脑机接口」挑战的研究》韩国学者2022最新综述，Studies to Overcome Brain–Computer Interface Challenges

专知会员服务

29+阅读 · 2022年3月19日

《可解释的机器学习》中文版和英文版：226页pdf理解黑盒模型指南，复旦研究生朱明超翻译

专知会员服务

107+阅读 · 2022年3月11日

5G+智能时代的多模搜索技术

专知会员服务

22+阅读 · 2021年4月1日

《迈向“碳中和2060” 迎接低碳发展新机遇》，高瓴产业与创新研究院和北京绿色金融与可持续发展研究院联合发布，38页pdf

专知会员服务

72+阅读 · 2021年4月1日

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

151+阅读 · 2020年7月6日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

379+阅读 · 2020年5月10日

【2020必看书】TinyML-微型化机器学习，149页pdf，在超低功耗微控制器上用TensorFlow Lite实现机器学习

专知会员服务

143+阅读 · 2020年2月19日

《百度大脑AI技术成果白皮书》（2019版）发布，48页PDF，百度研究院编

专知会员服务

38+阅读 · 2019年11月7日

【2019 北京智源大会】NLP、多模态智能和机器学习何晓冬/京东集团技术副总裁

专知会员服务

48+阅读 · 2019年11月1日

聚焦睡眠、办公健康智能产品，「贝氪科技」获6000万元A轮融资｜早起看早期

36氪

0+阅读 · 2022年4月15日

蟑螂背上芯片板子，组队去救人类

量子位

0+阅读 · 2022年3月29日

Nature：MIT团队造全新声感织物，这件「毛衣」可以听到你的心跳

新智元

0+阅读 · 2022年3月28日

「暖流科技」完成数千万元A轮融资，通过AI技术闭环打造智慧供热管理系统｜早起看早期

36氪

0+阅读 · 2022年2月17日

不出声也能命令Siri！康奈尔大学华人团队开发无声语言识别项链，中文英文都行

量子位

1+阅读 · 2022年2月16日

首次开源！一行代码轻松搞定中英文语音识别、合成、翻译核心功能！

PaperWeekly

3+阅读 · 2021年12月22日

Beats Fit Pro正式发布：搭载苹果H1芯片售价1599元

威锋网

0+阅读 · 2021年11月2日

5G+智能时代的多模搜索技术

专知

0+阅读 · 2021年4月1日

AI时代，如何让你的电脑比男朋友还贴心？

微信AI

0+阅读 · 2020年9月9日

Github项目推荐 | Emotion-recognition 实时表情识别

AI科技评论

18+阅读 · 2019年7月8日

利用飞秒激光直写制备高品质晶体微腔及非线性光学研究

国家自然科学基金

0+阅读 · 2015年12月31日

广东话背景的失乐症者声调和音乐的发声和感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于散射中心模型的雷达目标联合跟踪与识别技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

POMC神经元在回肠转位术改善非肥胖2型糖尿病中的作用机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

识别霉菌毒素的催化活性纳米材料辅助核酸适配体传感器阵列研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于聚合物悬挂波导的可见光波段集成型传感器的研究

国家自然科学基金

0+阅读 · 2012年12月31日

人工耳蜗植入者汉语普通话音调识别和音乐感知的试验研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于无声语音及肌电信息融合的多功能假肢控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

木刻藏文经书识别系统中特征提取算法的研究

国家自然科学基金

1+阅读 · 2008年12月31日

Demonstration of Superconducting Optoelectronic Single-Photon Synapses

Arxiv

0+阅读 · 2022年4月20日

Misinformed by Visualization: What Do We Learn From Misinformative Visualizations?

Arxiv

1+阅读 · 2022年4月20日

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Arxiv

0+阅读 · 2022年4月20日

ReWiS: Reliable Wi-Fi Sensing Through Few-Shot Multi-Antenna Multi-Receiver CSI Learning

Arxiv

1+阅读 · 2022年4月19日

Formalizing the Face Lattice of Polyhedra

Arxiv

0+阅读 · 2022年4月19日

AI for human assessment: What do professional assessors need?

Arxiv

0+阅读 · 2022年4月18日

Recent Advances and New Frontiers in Spiking Neural Networks

Arxiv

0+阅读 · 2022年4月17日

Cryptographic Strain-Dependent Light Pattern Generators

Arxiv

0+阅读 · 2022年4月15日

Graph Structure Learning with Variational Information Bottleneck

Arxiv

11+阅读 · 2021年12月16日

A Survey of Learning Causality with Data: Problems and Methods

Arxiv

31+阅读 · 2020年5月5日

VIP会员