「养蛙」还是「养娃」?声联网让你听懂娃儿们在哭啥 | 早起看早期

2018 年 1 月 25 日 36氪 石亚琼

点击关注36氪,置顶公众号

专业的行业新闻及深度报道,不容错过

━━━━━━


消费市场价值:少女>儿童>少妇>老人>狗>男人




文 | 石亚琼



婴幼儿哭闹怎么办? 宝宝啼哭不止是病了么?婴幼儿啼哭要不要抱? ……这些在搜索引擎、母婴社区十分常见问题背后,正是一个明显的市场需求——父母希望有效发现婴幼儿啼哭等声音,并了解背后的含义,同时获得相应的应对方法。不过,现实当中,还很难有产品能够自动化的解决这问题,婴儿啼哭发现主要依赖于人工陪护,啼哭的解读主要依赖于经验。

我们近期接触的初创公司声联网(深圳声联网科技有限公司)则希望利用技术自动解决上述难题,公司主要从事婴幼童音视频的行为分析和情感计算,目前已经研发了基于人工智能技术的婴幼儿音频行为监护平台(BabyABAM),通过芯片和云后台,可以实现实时精确监测婴幼儿发出的啼哭等声音,并已经与国内一些合作伙伴达成了合作及合作意向,有望在软硬件终端产品中迅速落地这一技术。

婴儿啼哭的监测与识别,在学术界早有研究。随着人工神经网络技术的出现,也使得准确率进一步提升。近年来,也有一些针对婴儿啼哭的软件开始问世,如西班牙的why cry等, 此前也有一些摄像头及音频类产品,主打婴幼儿哭声识别,但在识别的准确性及稳定性方面依然不高。

声联网分析,之所以出现这一现象,有几方面的原因,一是因为以往的一些方案,主要通过识别环境音中的异常响声,只要满足一定分贝就识别,因此很可能会误识;二是一般识别过程中会出现成人与婴幼儿声音的普遍混音现象,识别难度增加;三是目前市面上还缺少准确有效的婴幼儿啼哭的高精度的数据。

为此,声联网自研了一套算法方案,增加了更多如音高、音强、音色等各种特征维度在内的分析维度,提升识别的准确性。精准标注的训练数据是提升识别准确率的一个重要因素。团队表示,公司用来训练的婴儿音频数据超过了1000GB,上万小时的录音文档;采用了统计建模和神经网络建模的算法,目前的错误率可以低至5%以内,是国内可量产方案中最低的。

之所以能做到这一点,是因为声联网已经组建了包括技术、战略和育婴方面的顶级专家顾问团队。公司成立后,获得了中科院声学所、东南大学、北京理工大学语音实验室的大力支持,协助组建起了技术研发团队。首席科学家颜永红是中科院声学所研究员、博士生导师、语言声学与内容理解重点实验室主任,美国俄勒冈OGI研究院终身教授,2002年入选中科院百人计划,Intel中国研究中心首任主任。首席战略顾问倪光南是全国政协委员、中国工程院院士,联想集团创始人、首任总工程师,国家科技重大专项“核高基”相关项目主要负责人。团队人工智能顾问Björn W. Schuller是德国慕尼黑工业大学博士,研究领域集中在机器学习、复杂系统、视听信号处理、人机交互、情感计算等,著有6本专著,在相关国际期刊和会议中发表过500余篇文章,被引用10000余次,被世界经济论坛评为40岁以下40位最杰出科学家之一。母婴领域顾问郭建国则是中华育婴协会会长,国内久负盛名的实战派育婴专家,人力资源与社会保障部“育婴师职业”专家委员会专家,中国儿童基金会教育专家委员会专家,《育婴师职业师资培训教材》主编。

目前,声联网的这一技术,主要通过SDK软件包或AVS7516音频识别芯片的方式提供,两款产品都已经更新至2.0版本,可以对宝宝哭、笑、喷嚏、咳嗽、饱嗝等监测和分析,可适用于智能摄像头、机器人、小夜灯、智能音箱、智能摇篮、智能玩具等产品。产品推广方面,团队表示,SDK和芯片样品已经送至多家知名智能硬件制造商、母婴用品商、机器人公司进行测试,目前进展顺利。

纵观国内智能语音市场,除了汽车外,暂时还没有清晰可见的能有大盈利的市场。声联网分析婴幼儿市场很可能就是其中的一个。国内每年新生儿数量即将超过1800万,全球的数量则达到1.4亿,用户的数量基础庞大。另外,婴儿父母对于婴儿用品的态度是很积极的,购买意愿及付费能力比较强,因此公司对这一市场相对乐观。

市场前景乐观的领域,竞争往往难以避免,这方面声联网的团队具有一定的先发资源优势。声联网科技是由国内智能语音合成技术公司北京宇音天下科技有限公司、国内最大的可穿戴方案企业深圳金康特、新三板上市传感器芯片公司深圳贝特莱三家公司共同筹资注册成立,并获得了中科院声学所的投资入股。金康特和贝特莱两家股东方可以提供芯片、方案、客户、量产等多方面的帮助。

团队预计,最近几年的工作重心都会围绕婴幼儿语音做研究,目前已经实现了婴儿啼哭声的探测和捕捉,下一步会做持续的大数据分析,从而进行背后意义的解读,即婴幼儿情感、心理和健康趋势的解读。

目前声联网科技已经组建了25人的团队。总经理何宇新是中科院计算所博士,前北京汉王公司副总裁,语音合成企业宇音天下创始人。副总经理肖溪是荷兰鹿特丹大学硕士,前盈信投资集团助理总裁、前远古控股集团总经理助理,是精钻传媒、远航纵横前联合创始人。

此前声联网科技已经获得来自深圳市高新投集团旗下深圳市人才创新创业二号股权基金的天使轮融资。


点击关键词,查看过去两周的早起看早期


风口:「网红娃娃机」「无人货架」「人脸识别」

社交:「相册小程序」「游戏陪玩」「音乐社交」

内容:「职场妈妈」「透明人」「男士穿搭」

新零售:「社区生鲜店」「餐饮平台」「办公室无人餐厅」

消费升级:「微烧严选」「艺术品消费」「租包」

共享经济:「共享仓配」「共享冰箱」「共享广告位」「共享储物柜」


登录查看更多
0

相关内容

情感计算的概念是在1997年由MIT媒体实验室Picard教授提出,她指出情感计算是与情感相关,来源于情感或能够对情感施加影响的计算。中国科学院自动化研究所的胡包刚等人也通过自己的研究,提出了对情感计算的定义:“情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能”。
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
150+阅读 · 2020年6月28日
专知会员服务
114+阅读 · 2020年6月12日
专知会员服务
199+阅读 · 2020年3月6日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
Python语音识别终极指北,没错,就是指北!
机器学习算法与Python学习
6+阅读 · 2018年4月19日
python语音识别终极指南
AI100
13+阅读 · 2018年4月5日
业界 | 第四范式业界首推免费智能客服服务
机器之心
5+阅读 · 2018年3月14日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
中国平安股价持续大涨背后
凤凰财经
5+阅读 · 2017年9月13日
天使湾叶东东:创业死法清单 这7个最致命
铅笔道
5+阅读 · 2017年7月21日
Generative Adversarial Networks: A Survey and Taxonomy
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
8+阅读 · 2018年5月21日
VIP会员
相关资讯
Python语音识别终极指北,没错,就是指北!
机器学习算法与Python学习
6+阅读 · 2018年4月19日
python语音识别终极指南
AI100
13+阅读 · 2018年4月5日
业界 | 第四范式业界首推免费智能客服服务
机器之心
5+阅读 · 2018年3月14日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
中国平安股价持续大涨背后
凤凰财经
5+阅读 · 2017年9月13日
天使湾叶东东:创业死法清单 这7个最致命
铅笔道
5+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员