案例:能否借助AI破译婴儿哭声?

2017 年 12 月 24 日 人人都是产品经理 于长弘

作者:于长弘

全文共 4646 字 14 图,阅读需要 10 分钟


———— / BEGIN / ————


哭闹是宝宝表达情感和寻求帮助的主要方式,也是一种健康的表现。就像在告诉父母:“我需要你!”,如果父母能够理解宝宝的需求并及时解决,会对宝宝的成长发育很有好处。


现实中的年轻父母有“辅助破译哭声”的需求么?


翻了翻各种育儿社区,截了几张图,大家可以换位思考,自行体会下。



一、简单调研


1.1 用户调研


为了迅速获取更多信息,牺牲精度飙速度,做了一轮4道选择题的迷你调研。


目标人群是曾经带过0-6个月宝宝的家长,未要求“正在6个月中”这一苛刻条件。


共采集到176份样本,情况如下:


a)父母判断啼哭原因的准确度



全部正确(22%):这些父母拥有绝对的自信,几乎不需要借助工具。通过访谈,我了解到他们能够准确判断的主要原因有两点:经验丰富+宝宝让人省心。给他们打个标签叫“胸有成竹型”,后面会用到。


多数正确(64.2%):大部分父母处于这种状态,打动他们需要一定的条件,卓越的用户体验是前提,同时要帮助他们提升诊断效率、准确率。给他们打个标签叫“经常找对型”。


很难找到(13.5%):有这么多父母面对宝宝啼哭不知所措,这里存在大量的机会可以挖掘。想想吧,中国人口基数这么大,13.5%的数量真的少么?他们的标签叫“困惑型”。


b)常见的啼哭原因有哪些



覆盖度:调研中设定的9种原因已经覆盖了95%的情况,排名最高的6种是饥饿口渴、尿布湿、要抱抱、困了、疾病和疼痛。另有5%的父母选择了其他原因,包括受到惊吓、身体被挤压等,这些原因可以通过一进步的调研来补全。


认知度:家长们认定的啼哭原因不一定符合真实情况。


举个例子,“本能运动”这个选项仅有17%的家长勾选。科学研究表明,任何一位宝宝的都曾因为“本能运动”而啼哭过,这个过程有助于宝宝生理和心理的发育,也是日后语言发育的一种启蒙。


“本能运动”与“要妈咪抱”的解决办法类似又不完全相同,一个是要逗逗,一个是要抱抱。二者的声学特征都富有节奏感,前者是响亮而后者是平和。这说明:帮助家长提升育儿认知,可能也是AI破译的可挖掘点之一。


c)父母对“破译啼哭APP”的感兴趣程度



该问题的条件是APP免费,样本的反馈完全超出预期:仅有6%的父母表示不会使用,53%的人愿意尝试,更有41%的人表示一定会使用。



对比几种类型的父母:不仅“困惑型”,就连“胸有成竹型”和“经常找对型”也对该技术抱有强烈的兴趣。


是啊,科技不就是帮人们偷懒么,能省点力为啥要绕弯呢?


这里的“免费”可能有一定的杀伤力,父母们的真实需求+对新技术的好奇心也发挥着强大作用。


由于调研维度有限、粒度不细、样本数量较少,没能得出更多有价值的结论。不过我们可以看到一定的需求和机会,借着这股动力,继续寻找类似的竞品。


1.2 竞品调研


a)模拟声音类


通过模拟胎儿在母体内听到的声音,来安抚宝宝。


这类产品的主要作用是安抚情绪,无法解决例如“生病”、“疼痛”、“尿布湿”等情况,治标不治本。


b)婴语翻译器


美国、中国台湾、西班牙、日本都有团队做过相关研究,程序通过分析哭声可给出肚子疼、尿布湿、想睡觉等原因。各团队都声明可覆盖95%以上的宝宝哭啼原因、准确度比人提高3倍等,但各团队找到的原因不一致。


此类产品目前未在大陆市场化,APP没找到可用的,独立设备倒是有,感兴趣的可以搜一下“贝客来婴儿哭声分析器”。这类产品已经是AI辩声的前辈了,其精准度、易用性、市场化均有提升空间。



c)人工智能类


2016年日本First-Ascent公司声称推出了一项以人工智能为基础的技术,可根据婴儿的哭声分析原因,并计划将该技术加入到APP中。我本文写到90%才看到这条新闻,继续查阅时发现:它没实验数据、没可用产品、没有本土化。


比较有趣的是,很多竞品是因为程序猿爸爸觉得带娃困难,才萌生了技术解决的想法。


下面就从这几方面做个浅析:科学合理性、工具定位、语音识别、数据准备、学习模型。


二、科学合理性


抛开那些竞品的干扰,推敲一下:【哭声特征】与【哭的原因】的关联到底可不可靠?如果二者之间具备真实的相关性,那是否意味着:无论映射逻辑多复杂,我们都有可能用机器学习拟合出预测模型?


2.1 经验常识


宝宝树这类育儿社区列举出大量听声音搞定哭闹的例子,百度经验中更是详细列举了15种哭声特点、原因以及解决办法,有经验的月嫂通过哭声能快速搞定婴儿——这些都说明:靠声音特征判断很可能OK。


2.2 专业研究


学术界对婴儿哭声含义的研究并不少,最前沿的甚至声称能诊断婴儿是否患有自闭症、脑损伤、神经类疾病和早产相关的疾病。


我觉得这个方向还是有戏的,值得继续研究,若感兴趣可以搜几份相关链接:


  • 《美研发婴儿哭声诊断仪可检测神经类疾病》

  • 《宝宝的哭声代表5种心情》

  • 《宝宝哭声暗藏疾患线索》

  • 《哭声分析仪,早期发现婴儿发育障碍》


2.3 综合判断


哭声不是将原因归类的唯一信号。我们可以将声音特征做主要线索优先预测一波,再用其他方法辅助判断。不苛求靠AI搞定100%的问题,只要能搞定一部分,提升解决效率,就可以发挥应用价值。


这与智能手环的绿光测心率的道理类似,光电法的准确度比不上心电信号法(医疗级别),只靠心率也很难预测心脑血管疾病。但手环的天然优势就是佩戴方便+实时监控+主动提醒。


若使用者结合经验、血压等指标综合判断,就有改善生活习惯、预测风险的可能。


这类产品符合早预防、早治疗的养生理念,经常能取得较好的市场反馈。


按照综合按断的思路,梳理出如下表格,训练模型就是要预测出其中高亮的“哭声原因”。



根据查阅的资料,图中9种哭声原因的分类未必准确,但至少人类可以感知到细微差异。



上图描述了一个模拟场景:家长先通过APP锁定原因范围,再根据APP的提示观察婴儿,给出判断。


像中耳炎这种特殊情况,父母操作过一次,基本就记住识别方法了。


这就引出了我对该工具的定位:通过正确判断+有效提示,帮助父母尽快掌握读懂宝宝的技能,用完即走不粘人。


三、工具定位


3.1 小工具


“破译哭声”还没到产品设计阶段,更像是一个补充工具而非产品。


目前各大育儿类应用已经相当成熟,提供了丰富的内容和服务,但一些服务的使用频次很低。若将“破译哭声”也集成进去,不会用力过猛,还可能锦上添花。


例如下图这些就是不错的入口,宝宝哭的频次远远比打疫苗、起名字这些高,是吧?




3.2 目标人群


经验少的父母遇,在0-6个月遇到宝宝哭闹很久不停的情况,会派上用场。6个月后宝宝就适应了周围的环境,模型预测也逐渐失效,此时的父母已经积累了充足的经验。


西方提倡父母多与宝宝沟通交流,学会读懂他们的内心,这更像是一种玄学。“读懂”的能力是父母与孩子的纽带,会影响双方一生的情感沟通。


所以不鼓励父母依赖工具,还要帮助爸妈掌握读懂宝宝的本领。


3.3 扩展性


工具虽小,也有点想象空间。


例如为宝宝做个啼哭档案,记录每次“哭声+原因+解决方式”。宝宝长大看到自己的成长日志,就会理解父母把自己拉扯大真心不易。


3.4 产品形态


访谈几位表示不愿使用的家长,问他们为什么不愿意用这样一款APP。



一位家长说没时间,想靠自己沟通情感读懂宝宝;另一位家长说想不到用APP,他家宝宝特别乖,从未久哭不停——这就涉及到用户理念、习惯、个体差异的问题了,三言两语还真说不清楚。


这里我只举一个例子:小米的小蚁智能摄像头已经能监控婴儿哭声并提醒父母,如果加个分析原因、给出建议的功能并不会突兀,反而很人性化、很精准。


总之,产品形态不局限于APP,只要内在逻辑科学合理,一定会存在某些交互方案能够受用户欢迎。


四、语音识别


考虑到成本等因素,将小工具插入到APP中很适合快速打样、试错——这属于近场语音识别,信噪比较高,不过环境中还是难免有噪音。识别的过程大概分这几步:


4.1 降噪


对获取的声波信号做降噪,排除父母对话、物体碰撞、气流等噪音。目前市场上已经有成功监测婴儿哭声的产品,比如小蚁智能摄像机、三星S5手机内置APP等,识别的过程不会困难。还有些相关的专利可以借鉴,网上一搜一大把。


4.2 过滤


对目标婴儿与其他婴儿的信号做区分,这需要采集目标婴儿的数据,并单独创建学习模型。


4.4 特征


从信号中抽取出声学特征让机器去学习,具体就交给神奇的算法团队吧。


五、数据准备


5.1 实例设定


每个实例由2部分组成:【啼哭声】+【结果标识】,监督学习的结果标识是个封闭集合,训练数据类似下图。



5.2 样本标准


  • 声音信号:录音声强>40分贝,时长为10-15秒,录音中仅包含1名婴儿的哭声。

  • 结果标识:听到哭声后,父母采取行动,采集员按照有效的行动来推测1种哭声原因,记录下来。

  • 有效行动:父母采取行动后,宝宝在1分钟内停止哭闹。或者已找到哭啼原因,需要一段时间解决(例如疾病无法很快治好,医生可以开具诊断证明)。

  • 宝宝年龄:0-6个月


5.3 样本采集


  • 采集区域:宝宝密集区,也就是儿科医院、妇幼保健医院、月子中心、儿童福利院等。

  • 采集人员:尽可能专业,若现场记录错误的标识,后期修正的难度很大。

  • 考虑体验:采集过程人性化,不诱导宝宝啼哭,不影响家属与宝宝的正常生活。

  • 其它参考:台湾的某团队声称成功采集到10万+类似样本,可以借鉴类似的方法或合作。


六、学习模型


我们要在目标集合中准确的预测出分类,采用监督学习。


这里不谈训练模型和评估指标,只提两个简单的小问题:


6.1 模型应该输出“哭啼原因”还是“解决方案”?


按通常的思维是用A方案,但直觉告诉我B方案也许可行。


B的思路是:先预测新数据的解决方案,再根据符合期望的行动来反推出哭啼的原因。



现实中“啼哭原因”与“解决方案”是多对多的复合因果关系,如果直接取哭声+有效方案来拟合模型,可能最终效果相同甚至更好。


PS:无论A还是B,只是模型设计的问题,最终给到用户的体验是一样的。


6.2 个性化模型


训练集与实际数据有差异,多个婴儿也可能同时啼哭,所以需要给每位婴儿创建个性化模型。


家长们每次修正,都是对模型的训练,帮助提升预测的效果。


以上就是本篇浅析的主要内容,抛出一个场景的可能性。可衍生的类似场景也不少,未来科学对声音的研究不会止步于婴儿,宠物、野生动物等都有可能取得进展。


也许有一天我们能通过AI翻译机与较聪明的动物交流,比如猩猩、海豚和大象。


写在最后


作者向很多人提过这个idea,感谢朋友们的支持和建议。下笔之前还有点犹豫的,因为作者没带过宝宝,无法切身体会那种感受。


后来AI产品大本营团长@黄钊 鼓励我尝试写个短篇,我就决定试一试。


这也促使我反复思考一个问题:非科班出身、零AI经验的PM,怎样才能有出路?


首先要敢想,这是迈出的第一步!


挖需求、挖场景、挖机会!模拟场景做调研,发现问题找方法,而不是跳到工程师赛道上拼算法。等咱们上了船,在实战中学习理解算法会达到事半功倍的效果。


这是个需要想象力的时代,或许能借助AI搞定过去从未解决的难题。在大数据没出现的年代,谁也想不到啤酒与尿布湿之间隐藏着惊人的秘密。


有太多场景需要我们去发现,限制我们想象力的不是贫穷,而是勇气。


世之奇伟瑰怪非常之观,常在于险远而人之所罕至,非有志者不能至。任何问题都一定有办法解决,我们的任务就是找到它,无论这个概率多么微乎其微!


———— / END / ————


作者:于长弘,微信公众号:AI小宇宙

本文由 @于长弘 原创发布于人人都是产品经理。未经许可,禁止转载


点击“阅读原文”下载APP

登录查看更多
1

相关内容

抱抱是一款第三方手机视频直播App软件。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
专知会员服务
145+阅读 · 2020年6月15日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
AI情绪识别技术背后:一场悄然来袭的“暴政”
大数据文摘
7+阅读 · 2018年10月11日
拔刺 | 如何通过人工神经网络实现图像识别?
苦尽甘来:AI为更有效地治疗抑郁症带来希望
英伟达NVIDIA中国
10+阅读 · 2018年3月1日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
专知会员服务
145+阅读 · 2020年6月15日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
Top
微信扫码咨询专知VIP会员