用声音检测技术降低美国“赌城”枪击案伤亡(paper+github)

2017 年 10 月 6 日 机械鸡 徐博士

最近几天,大家都被美国“赌城”拉斯维加斯的2000人的音乐会的枪击案刷屏,59死,500+伤,是美国自911事件后,最大的伤亡事件。默哀!祈祷和平,没有暴力!


 图为:美国华盛顿纪念碑降半旗 哀悼拉斯维加斯枪案遇难者


除了默哀之外,如何用我们已有的技术,来改变这个世界,即用我们在DCASE2017 challenge中取得第一名的系统来进行声音(“枪击,gunshot”)事件检测,以便在第一时间通知就近的警察局,并且用DOA,声音能量差和相位差来辅助声音定位。


要知道现场,刚开始有人竟然误以为是“放烟花,fireworks”,而且警察花了大量时间来寻找枪击者的位置。这个枪手竟然在酒店的32层上,从高处往低处射击,扫射有2000+人的音乐现场,简直了。


我们用我们最新的声音检测技术,可以很快检测并且确定,“枪击,gunshot”:


由于现场视频太过于血腥以及版权的问题,本次就不播放视频,但贴出了“枪击”事件检测的结果图:“事件名:出现的概率”



枪手换子弹,停止射击,现场大量尖叫和语音



枪手再次射击,现场一片混乱。



枪手可能在射击n分钟后:只剩下现场一片尖叫



从现场的视频可以看出,由于昏暗的夜晚,密集的人群,光靠摄像头是无法检测枪击异常,但声音检测却能很好地预警。


论文

——


使用门控卷积神经网络的大规模弱监督音频分类


概述

——


在本文中,我们提出了一种门控卷积神经网络和音频分类的attention-based定位方法,在(DCASE )2017中声场和事件检测分类的大规模弱监控声音事件检测任务中排名第一。


 从YouTube视频中提取的,此任务中的手动标记音频剪辑,有一个或几个音频标签,但没有音频事件的时间戳,这被称为弱标签数据。


在这个挑战中定义了两个子任务,包括使用弱标签数据的音频标记和声音事件检测。提出了具有可学习的门控线性单位(GLU)的非线性卷积循环神经网络(CRNN)应用于the log Mel spectrogram。



提出了音频标签和弱监听声音事件检测(SED)统一模型的图表。  从中间定位模块中提取SED预测,最终的输出是音频标签预测。


使用所提出的定位方法

预测“10i60V1RZkQ 210.000 220.000.wav”的240 frames位置的示例




结论

——


在本文中,我们提出了音频标签和弱监听声音事件检测的统一方法。 提出了门控CRNN方法,其中可学习的门控线性单元,可以帮助选择与最终标签相对应的最相关功能。 


还提出了基于attention-based的定位方法,以弱监督模式定位发生的事件。 最终系统使我们在DCASE2017挑战的音频标签子任务中排名第一,获得了57.7%的F1得分。我们也是SED子任务中的第二名。 将来我们将评估我们提出的Audioset方法[20].


相关资源:


[1] 最新技术论文: https://arxiv.org/abs/1710.00343

[2] 源代码:https://github.com/yongxuUSTC/dcase2017_task4_cvssp

[3] DCASE2017 our rank 1st results:http://www.cs.tut.fi/sgn/arg/dcase2017/challenge/task-large-scale-sound-event-detection-results

 

来源:人工智能徐博士 

获授权转载


推荐阅读

谷歌新品发布会:赋能AI 三大原则 软硬结合

深度学习软件安装指南

谷歌教你零编程基础玩转机器学习

中科院谭铁牛爱徒研发碟中谍中的步态识别技术

肯尼亚的小哥利用深度学习“桃脸识别”

专访深度学习之父Geoffrey Hinton

NIH发布全球最大胸部X光数据集

CMU用「PixelNN」完美还原马赛克照片(paper)

9行Python代码搭建神经网络(代码)

娃哈哈投资1000万美元在以色列建立AI研究中心

430家以色列人工智能初创公司图谱及十大特征 

25行Python代码实现人脸识别 || 教程

长期招聘志愿者

加入「AI从业者社群」请备注个人信息

添加小鸡微信  liulailiuwang


登录查看更多
0

相关内容

【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
27+阅读 · 2020年4月1日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
13+阅读 · 2020年3月30日
专知会员服务
42+阅读 · 2020年2月20日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
85+阅读 · 2019年12月27日
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
仅训练996个剧本,迪士尼用AI自动生成动画
机器学习算法与Python学习
7+阅读 · 2019年4月20日
2018年声音计算“大事记”
人工智能前沿讲习班
8+阅读 · 2019年3月9日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
CVPR 2017 | Tiny Faces 小人脸检测算法简介
极市平台
10+阅读 · 2018年2月1日
人工智能老司机带你认识声音黑科技:声纹识别
人人都是产品经理
6+阅读 · 2017年12月11日
干货:手把手教你在音频分类DCASE2017比赛中夺冠
全球人工智能
15+阅读 · 2017年9月22日
Arxiv
4+阅读 · 2020年3月27日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关资讯
角网络——目标检测(文后有paper地址及源码)
计算机视觉战队
5+阅读 · 2019年6月5日
仅训练996个剧本,迪士尼用AI自动生成动画
机器学习算法与Python学习
7+阅读 · 2019年4月20日
2018年声音计算“大事记”
人工智能前沿讲习班
8+阅读 · 2019年3月9日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
CVPR 2017 | Tiny Faces 小人脸检测算法简介
极市平台
10+阅读 · 2018年2月1日
人工智能老司机带你认识声音黑科技:声纹识别
人人都是产品经理
6+阅读 · 2017年12月11日
干货:手把手教你在音频分类DCASE2017比赛中夺冠
全球人工智能
15+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员