国际刑警组织的新软件凭声音就能揪出犯罪分子！（附论文）

2018 年 5 月 21 日 黑白之道

一个新的平台旨在将语音录音与存储在海量数据库中的语音样本进行匹配来识别犯罪分子，但这也引发了隐私方面的问题。

全球最大的警察网络正在评估这样一款软件：可以将来自电话通话或社交媒体帖子的语音样本与存储在诸执法机构共享的海量数据库中的犯罪分子的语音录音相匹配。

正如开发人员所述，该平台（论文见文末）将采用几种语音分析算法，按性别、年龄、语言和口音来过滤语音样本。它将由国际刑警组织在法国里昂的总部加以管理，目的是提高语音数据的准确性，并提高语音数据的可靠性和司法上的可采信性。

开发团队已在2017年3月和11月成功完成了系统的现场测试。接下来会于今年6月在布鲁塞尔进行项目评估。

虽然该系统可以处理任何“合法截获”的声音，包括背景对话，但预期用途是将从电话通话和社交媒体收集的声音与“黑名单”数据库相匹配。样本可能来自移动电话、固定电话或VoIP网络电话的录音，或者来自从发布到社交媒体上的招聘或宣传视频捕获的音频片段。

这些录制的数据实际上成了生产线上的小部件。该文件（即捕获的语音片段）可能已经包含由最初获取语音片段的执法官员添加的一些描述性元数据。比如说，软件随后会尝试添加关于说话人的年龄或口音的新信息。

为了帮助完成这项任务，SIIP平台将创建一个模板（含有电话通话的警方录音），标记代表该片段上声音的声学特征。然后使用那些特征或身份向量，试图在数据库中找到匹配的对象。

为了开发该软件，开发人员采用了多种算法或模块，通过一条基于开源架构（http://www.weblab-project.org/index.php?title=WebLab）的处理链对刚录制的语音样本进行排序。2016年6月、2017年5月和2018年2月发布的临时报告声称，构建这种系统所面临的挑战包括安装诸多工具，以便过滤背景噪音，提高语音清晰度，隔离声音，以及为警察总部和外勤的应用轻松共享、收集和分类数据。

其目的是能够将新的语音录音与可能存储100多万条记录的数据库中存储的超大声音样本数据库进行匹配。该数据库将由国际刑警组织来管理；语音录音将由这家机构所辖的各执法机构来输入。来自192个国家的这些执法机构可以访问该系统。

该平台还可以匹配来自各大社交媒体平台的语音样本，包括Twitter、Google+、LinkedIn、YouTube和Facebook。通过基于语言相关性和地理位置等搜索标准对多媒体内容进行梳理，该系统将标记和处理这些材料，并在数据库中找到类似的片段。该软件的视频处理引擎可以从在线视频中提取音频，将其分割成单声道录音，将格式处理成未经压缩的16千赫兹WAV文件。纯音频内容也可以用这种方式来加以搜索和标记。

负责协调该项目的是总部位于纽约和以色列的Verint这家“可行动情报”公司。Verint以商业通话录音起家，不妨想想“出于质量控制和培训的原因，本次通话可能被录音。”该公司与空中客车、SingularLogic和Nuance共同开发了该系统，关键字识别组件来自维也纳Sail Labs和瑞士非营利研究组织IDIAP。荷兰和英国的安全小组研究了这个项目的伦理道德方面。征集了多个执法机构的意见，包括国际刑警组织、意大利警察局、英国大都会警察局、德国联邦刑事调查局和葡萄牙刑事警察局。

与更广泛的自动语音监视领域一样，该项目引起了复杂的反响。柏林的活动家马修斯•蒙洛伊（Matthias Monroy）是一家公民权利杂志的编辑，他说：“我认为，警察和秘密情报机构手里的语音识别相当危险。我持有异议。”自SIIP系统在2014年启动以来，蒙洛伊就一直在密切关注该系统。

保罗•约翰尼斯（Paul Johannes）是德国卡塞尔大学商法系的研究助理，还是柏林数字隐私组织Forum Privatheit的成员。他表示，执法机构一直在寻找工具，对付由犯罪或恐怖活动开发的新技术。

Human Rights Watch的高级研究员兼中国问题专家玛雅•王（Maya Wang）最近帮助撰写了一份报告，批评北京政府借助AI构建语音样本数据库的工作。不过她表示，政治环境很重要。她看到了一个三极环境：一方是中国及“处于蛮荒期”的监视，缺少任何有意义的保护措施；一方是欧洲，实施了较严格的规定；另一方是美国，采用较松散的框架，该框架仍与充满活力的公民社会和法治相关联。王认为，自动语音识别带来的后果取决于该技术用于哪里。

让事情更复杂的是，欧盟即将颁布《数据保护通用条例》（GDPR），这是一系列全面的消费者数据隐私法规。关于该法规会不会影响SIIP之类的语音识别工具，外界意见不一。约翰尼斯表示，GDPR有一条“被遗忘的孪生”指令，该指令对警方或情报部门处理个人数据作了规定，并为个人数据的自由移动制定了规则。

许多执法机构已经使用语音识别软件包。国际刑警组织曾对69个国家的91个警察部门作了一项调查，结果显示，一半以上的警察部门已经在使用某种类型的自动语音识别系统。

比如说，STC Group提供一套名为VoiceGrid的语音识别套件，该套件于2011年部署在墨西哥，于2015年部署在厄瓜多尔。STCGroup是总部位于俄罗斯的Speech Technology Center的欧洲子公司。STC很注重将所谓的“声纹”（voiceprint）与底层的原始语音数据相分离――万一含有声纹的数据库遭到黑客攻击，识别个人身份的数据已被清除。

外界一再要求置评，Verint和国际刑警组织并未予以回复。该系统的目标之一是改善在法庭案子中使用语音识别的前景。消息灵通人士表示，但是如果国际刑警组织继续推行SIIP平台，显著特征很可能是数据库。

杰弗里•斯图尔特•莫里森（Geoffrey Stewart Morrison）是英国伯明翰阿斯顿大学司法语言中心的副教授，他表示，在法庭上使用语音数据和使用语音识别作为一种调查工具有很大的区别。通过已发表的作品，他和同事已为法庭上的语音比较证词指出了明确的限制（https://escholarship.org/content/qt5239p0tz/qt5239p0tz.pdf）。

国际刑警组织的这个平台可能证明它不仅有助于缩小潜在嫌疑人的范围，还有助于起诉犯罪分子。莫里森表示，个别执法机构可能已经在购买现有系统以满足各自的用途，但它们可能不会共享数据，哪怕是在本国内部。然而，国际刑警组织的作用就是促进执法机构之间共享信息。

鉴于最近有公司从Facebook之类的社交媒体平台获取数据这一做法颇让人担忧，还可以将这种分析视为一种警告。正如活动家蒙洛伊指出的那样，普通大众最近才意识到他们的书面交流内容可能大范围受到监视、过滤查找关键字。他说：“普通大众应该知道，这还适用于语音内容。”

论文：