付强博士
新智元报道
来源:阿里巴巴
编辑:克雷格
【新智元导读】近日,阿里对先声互联进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。未来将筹建两个实体声学实验室,随着阿里在芯片上的战略布局,也会在语音专用芯片上有更多进展。
一支曾被媒体称为“扼住了智能音箱咽喉”的研发团队,近日加盟阿里巴巴。
近日,阿里对北京先声互联科技有限公司(以下简称先声互联)进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。
和付强一同入职的,包括先声互联创始团队的多名资深专家,他们多为付强在中科院的原班人马,其中有一位来自著名的杜比实验室。
先声互联是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。
付强及团队在语音增强等领域创造了多项国内第一,甚至打破了国外的技术垄断。创始人付强拥有二十余年语音信号处理研发经历,在美国OGI等语音研究机构从事过博士后工作,曾牵头完成了国家自然科技基金国家、省部委几十项科研课题,在包括IEEE Trans.在内的国际权威学术刊物上发表论文近百篇,发明专利近二十项,多项成果被相关部委列装。
4月初,阿里宣布全面进军物联网领域。付强带领声学团队加入,将成为阿里IoT场景落地的关键一环。
去年下半年,前宝利通首席工程师冯津伟加入阿里,进行上海地铁语音售票机的研发,这是全球首个强嘈杂环境下的语音交互产品。
付强加盟后将整合资源,推动语音识别技术的场景落地,形成软硬结合、端云一体的商用方案。他还将筹建两个实体声学实验室。
4月20日,阿里全资收购大陆唯一的自主嵌入式CPU IP Core公司中天微,很多技术也是面向IoT领域。
“阿里IoT战略必须要做资源可控、技术可控、拥有核心竞争力的事情。”阿里巴巴CTO张建锋说,这也是达摩院组建以来最重要的研究突破方向之一。
去年10月,阿里宣布成立以“达摩院”为名的全球研究院,目前已在全球多点设立科研机构,立足基础科学、颠覆性技术和应用技术研究。
问:先声互联总计多少技术人员会加盟阿里?团队阵容的介绍?
答:是全资收购,主要是技术、人才的收购。
加盟的技术人员加上我共5人,其中4人是声学所原班人马,也都是在该领域中技术沉淀较久,实际落地经验非常丰富的。
团队核心算法人员包括我之前带的学生和从杜比实验室出来跟我一起创业的。他们的共同特点都是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发。对贯彻理论到实践的统一理念,起了重要的作用,也使得我们技术有自己的原创特色,并非跟随。
问:您为什么选择做声学研究这条路线,为什么后来选择创业,为什么选择加入阿里巴巴?
答:做语音处理是硕士起就开始了,至今已有20多年了。那时谈不上选择,就是导师的课题需要做语音就开始做了,那时做语音也并不吃香,虽然有机会转别的方向,不过我喜欢做事做透,就一直做下来了。
“和有情有义的人,一起做有价值的事”,一直是我坚持的原则。有机会去实现自己的理想,自然也就没什么犹豫,选择创业是这样,选择加入阿里更是这样。
问:先声互联此前研究和要解决的核心问题是?
答:语音交互,作为人机交互中最自然的方式,其真正的价值是让人在无限制的场景说话,然而语音交互应用在实际的场合经常会受到背景噪声、非平稳干扰、设备回声、以及房间混响等声学不利因素的影响。可以说,机器听觉的噪声鲁棒性与人的听觉机制比还是不少差距的。
先声互联综合利用了多麦克风空间滤波、语音分离、解混响和声源定位等多项基于物理建模的信号处理技术,并融合了基于机器学习的数据建模机制,甚至是语义层面的信息,为复杂声学条件下的语音交互提供前端处理技术和方案。
问:目前您负责研究的这一技术,在全球行业内的相对位置是怎样的?在这一领域,中国和世界处在同一起跑线吗?我们的相对优势有哪些?
答:国内的相关技术积累并不落后,但缺乏成功的产品带动。
我们在中科院声学所时,团队在前端处理技术环节上就比较成熟了,相比于国外这些产品级的技术并不落后,在信号处理与唤醒和识别等语义层面的信息融合方面还是更进一步的,也暨此落地了不少实际产品,但由于语音交互技术链条很长,在缺乏对端到端交互系统流程把控和优秀的产品设计前提下,一些更好的想法很难体现出来。
相信在阿里这个大平台会有更好的机会发挥价值。
问:目前在机器智能技术实验室,有哪些重点攻克的难题或研发项目可以透露?
答:短期目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。
从PC时代、移动互联网时代,到物联网时代,对人机自然交互、沉浸式的体验越来越高。这对语音交互前端处理技术的挑战是不同的。如:
地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂
家庭场景:噪音没那么复杂,但涉及到混响、回声处理
车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声
在这些场景中,我们都有不同的终端产品已经或即将落地量产,在业界也都引起不小的影响。在这些已有成绩的基础上,我们会在技术深度和方案的可复制性上有更多的布局。
特别地,针对IoT化的智能家居的需求,我们正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。随着阿里在芯片上的战略布局,我们也会在语音专用芯片上有更多进展。
问:关于未来,还有哪些计划是可以透露的?
答:我和团队最近在筹建专门用途的声学实验室。
这个声学实验室主要目的是用于复杂声学环境下的语音交互系统在线端到端测试。
有别于现有的远讲语音交互测试认证方法,它的主要特色是基于多扬声器系统声场重建的原理在局部区域内建立真实的声场,也就是说家庭、车载和户外等场景的声场条件,使得待测终端在实验室内就能置于近似真实的声场中。在此基础上,更重要的是建立自动化的,包括前端信号处理能力、唤醒率、识别率乃至对话成功率的,全链路端到端测试系统和流程。该实验室的建设和系统搭建,将会大大提升阿里对语音交互IoT终端设备赋能效率和产品质量。
问:目前我们机器“听清”的能力,和人相比在一个怎么的水平?机器的耳朵会比人更灵敏吗?
答:现在实际的语音交互系统,尤其在远讲条件下,与人类的听觉机制相比还是有不小的差距的,主要表现在极低信噪比和多人说话(所谓的鸡尾酒会问题)的情况。
随着多模态融合和深度神经网络建模技术的进展,这些问题会有更好的解决方案,阿里在这方面的技术布局也早就开始了。