不出声也能命令Siri！康奈尔大学华人团队开发无声语言识别项链，中文英文都行

会员服务 ·

不出声也能命令Siri！康奈尔大学华人团队开发无声语言识别项链，中文英文都行

2022 年 2 月 16 日 量子位

金磊发自凹非寺
量子位 | 公众号 QbitAI

这，或许是现在跟Siri交流最潮的方式了——

只需要动动嘴皮子，就能让它under你的control。

没错，就是不需要出任何声音的那种。

这就是来自康奈尔华人团队的最新研究成果 SpeeChin，无声语音识别。

像这样：

在没有声音的情况下，你能猜出来他在说什么吗（文末揭晓答案）？

但在SpeeChin的加持下，现在的Siri、Alexa等就已经可以识别，而且还支持普通话和英文！

是有种“此时无声胜似有声”的感觉了。

不说话，怎么控制语音助手？

康奈尔团队研发的SpeeChin，其实是一条神奇的项链。

戴上这条项链，就能开启无声语音控制的大门了。

例如对着电脑默念一句“Next”，音乐就会自动切换成下一首歌：

或许你会说一个单词过于简单了，别急，现在就来加大难度：

“Switch to Taylor Swift.”

可见，SpeeChin即便是面对一句完整的话术，也可以做到精准识别。

而这条“无声识别”项链的关键，就在于安装在项链下方的红外摄像机。

它可以捕捉到人物颈部和面部皮肤的变形图像，从而进行分析识别工作，确定从“嘴皮子”传达的是什么命令。

而且这条项链不仅能无声识别英文，连中文（普通话）也能够hold住。

在最初的实验中，有20人参与到了测试中，其中10人讲英文，另外10人说普通话。

研究人员让测试者分别用英文和中文发出数十条指令，包括数字、互动指令、语音辅助指令、标点指令和导航指令。

最后的实验结果，“无声识别”的准确率分别达到了90.5%和91.6%。

来自康奈尔大学的华人团队

这项研究来自康奈尔大学，一作是Ruidong Zhang。

其中，Cheng Zhang是这项研究的通讯作者。

他是康奈尔大学信息科学系的助理教授，他的研究聚焦在如何获取人体及其周围的信息，以应对各种应用领域中的现实世界挑战，如交互、健康感知和活动识别。

研究的一作Ruidong Zhang，他是Cheng Zhang教授的一名博士生，本科毕业于清华大学。

他的研究兴趣在于人机交互和普适计算（ubiquitous computing），特别是建立新型的可穿戴设备，用来促进互动体验并加深我们对人类行为的理解。

至于为什么他们要做SpeeChin这项工作，据Ruidong Zhang解释：

主要是考虑到在某些特定场合中，人们可能不适合发出声音；还考虑到一些不能说话的人群。

最后，来揭晓一下开头GIF的答案：

你猜对了吗？

参考链接：

[1]https://techxplore.com/news/2022-02-smart-necklace-silent-english-mandarin.html
[2]https://www.youtube.com/watch?v=pDf86dSPYYI
[3]https://infosci.cornell.edu/content/zhang-0
[4]https://infosci.cornell.edu/content/zhang-1

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

Siri

关注 0

Siri 是内嵌在苹果公司所推出的智能手机 iPhone 4S 内的人工智能助理软件。该软件使用自然语言处理技术，可通过自然的对话与手机互动，完成搜索资料、查询天气、设置手机日历、设置闹铃等服务。

【AI与军事】《认知雷达》北约142页技术报告，讲解新型军事装备概念

专知会员服务

126+阅读 · 2022年3月28日

【康奈尔大学】语言数学模型课程，ECE 594: Mathematical Models of Language

专知会员服务

11+阅读 · 2022年2月27日

【港中文CMSC5743】深度神经网络高效计算

专知会员服务

32+阅读 · 2020年10月9日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

Nature：MIT团队造全新声感织物，这件「毛衣」可以听到你的心跳

新智元

0+阅读 · 2022年3月28日

湖南工程师用中文编写操作系统，还发明了甲、乙、丙语言？？？

量子位

0+阅读 · 2022年3月15日

不出声，也能聊Siri！康奈尔华人团队打造「无声」智能项链，中英文两用

新智元

0+阅读 · 2022年2月17日

首次开源！一行代码轻松搞定中英文语音识别、合成、翻译核心功能！

PaperWeekly

3+阅读 · 2021年12月22日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

中文手写文档识别中高阶上下文建模方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

人工耳蜗植入者汉语普通话音调识别和音乐感知的试验研究

国家自然科学基金

0+阅读 · 2012年12月31日

驾驶舱话音记录器音源识别和说话人识别的基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

Formalizing the Face Lattice of Polyhedra

Arxiv

0+阅读 · 2022年4月19日

Internet of Things Security, Device Authentication and Access Control: A Review

Arxiv

0+阅读 · 2022年4月19日

Perceptive Mobile Network with Distributed Target Monitoring Terminals: Leaking Communication Energy for Sensing

Arxiv

0+阅读 · 2022年4月19日

A Survey on Neural Speech Synthesis

Arxiv

14+阅读 · 2021年6月30日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

VIP会员