无需标注，这个AI能在大量数据中一眼识别欺诈攻击

2018 年 11 月 6 日 雷锋网

▲点击上方雷锋网关注

“人工智能，有多少人工就有多少智能”，这是伴随人工智能发展的一句老话了，近来格外引人关注。

两周前，微信公众号“GQ报道”的一篇记述文“通往未来之路 | 那些给人工智能打工的人”在朋友圈火了。文章揭示出，在AI企业估值屡屡超过几十亿的时候，背后是中国七八线小县城里无数犹如“富士康”一样的AI数据标注公司。这些公司里的人与高大上的AI没有一丁点儿关系，无从接触也无从理解AI，他们大多是初中高中文凭，每天对着电脑进行着机械而重复的标注工作，比如，在一张图片里把“梯子”、“茶几”、“地毯”、“沙发”都圈出来。通过他们打上的成千上万的标签，AI公司能够让它们的AI系统在看见这些物体时，直接识别出来。

目前，广泛应用在AI图像识别、语音识别中的有监督机器学习需要大量的标注数据支持，深度学习为机器学习带来巨大进步，却也需要更多、更完善的标注数据，才能达到好的训练结果。人们发展AI的愿景一直是希望AI能将人们从大量的重复性和机械性工作中解放出来，而目前AI却还依赖着“AI数据标注”这样的重复性人类劳动，成为不少人诟病AI的一点。

但是据雷锋网了解，并不是所有AI应用领域都能提供大量标注数据，且标注数据在不同领域也不是都一样好使。比如，在安全领域的反欺诈中，不需要依靠标记数据的无监督机器学习技术在很多时候都比有监督机器学习表现更好。

反欺诈领域中的无监督机器学习

DataVisor创始人兼CEO谢映莲告诉雷锋网，安全领域的反欺诈不满足有监督的机器学习和深度学习需要大量的标注数据这个前提。欺诈者通常处在活跃变化的状态下，他们使用的欺诈手段变化十分迅速，而且他们为了确保自己不被反欺诈技术检测到，在发起大规模攻击之前都会先进行测试。

欺诈的手段日新月异，很难拿到完善的标签数据；而且在你拿到任何标签之前，其实意味着损失已经产生了；等根据标签数据训练好模型，欺诈者或许已经抛弃了这套方法。这三点问题制约着传统的欺诈检测以及新兴的有监督机器学习方法。

传统的欺诈检测方法，如规则引擎、设备指纹以及有监督机器学习、半监督机器学习，都有一个共同的局限性，需要在攻击发生后，根据已知攻击模式和样本，检测未来的攻击。无监督学习系统则可以在没有标签的情况下，提前阻止未知欺诈。

有监督机器学习和深度学习十分火热，不过，从反欺诈这个领域来看，我们发现不是所有的AI技术在所有的场景下起到同样的作用。那么，我们如何将合适的技术与场景相结合，真正去解决行业中的痛点问题呢？

DataVisor的系统包括四个重要组成部分：无监督机器学习引擎、有监督机器学习、自动规则引擎和全球智能信誉库。无监督机器学习引擎可同时分析数十亿账户与事件，无需标签和训练数据即可自动发掘恶意账户间的可疑关联和相似度，并即刻检测捕获整个欺诈团伙；有监督机器学习引擎可以利用无监督学习引擎生成的数据做训练集，不断训练出有效的学习模型来弥补并增强规则引擎无法覆盖的复杂欺诈行为；自动规则引擎将机器学习模型的能力与规则引擎的可解释性进行结合，并及时更新与淘汰现有规则；而全球智能信誉库利用深度学习实时计算，并为客户提供行业各类智能信誉和数字指纹，如IP地址、地址位置、电子邮件网络域名、移动设备类型、操作系统等。

基于以上几种技术，DataVisor开发了用户分析平台。由于该平台本身就具有通用和可延展性，所以能够与不同的数据、不同的使用场景挂钩对接，也就出现了八大应用场景。

无监督机器学习落地不同场景

谢映莲毕业于卡内基梅隆大学计算机系并取得博士学位，有超过十年的安全领域行业经验，一直致力于打击大规模网络线上攻击，此前任职微软硅谷研究院。2013年谢映莲在美国创办DataVisor，当时机器学习方兴未艾，还不像现在这样火爆。

2013年，是企业全面转型互联网的时代，反欺诈领域也面临着全新的机遇：反欺诈的场景从分散的线下场景转变为高度整合的线上场景。此前，在金融领域，办理信用卡需要去银行专柜，办理保险也需要联系特定的代理人员，而现在，办卡、借贷、买保险都可以在线上进行，且都可以关联到个人的社交账号，数据互通。另一个趋势是，现在一些公司越来越多地跨界，例如互联网公司开始涉足金融、保险、信贷等领域。

线上反欺诈成为一个新兴的庞大市场，有着全新的机遇，且这个领域还没有诞生出大玩家。

反欺诈行业不断融合，领域不断扩大，反欺诈的技术需要具备很强的通用性，而这正是无监督机器学习的另一优点。有监督的机器学习几乎是需要一个场景就要一个模型，甚至需要一份数据就要一份模型，而无监督的算法有它的自动发觉性，它可以自动地去寻找未知的场景，在模型的调优方面，它对数据多变性的容忍度更高。

虽然目前DataVisor只是专注于反欺诈这一个领域，但是在成立之初，谢映莲就看到了无监督机器学习在其他领域的可能性，DataVisor可以成长为平台型公司。

目前，DataVisor的服务对象主要有三种，社区和交易平台；银行和互联网金融机构；以及游戏、工具类应用。

在社交应用中，欺诈团队通常会大规模盗号，冒充用户进行欺诈；

在电商应用中，恶意的虚假评论会给商家带来严重的损失，薅羊毛党仿冒大量新注册用户将平台优惠都圈走，会造成大量资金损失；

在金融领域，虚假账户、盗刷、套现、洗钱各种欺诈手法层出不穷。

在美国，DataVisor的用户包括游戏公司IGG、美食点评网站Yelp、图片社交软件Pinterest；而在中国，则有京东、大众点评、饿了么、陌陌、Blued等，共同利用先进的机器学习技术抵御多维度线上攻击欺诈，如大规模虚假注册、虚假申请、垃圾内容、薅羊毛、虚假安装等，帮助其保护平台用户安全，提升平台用户体验，提高用户满意度和留存率。

谢映莲告诉雷锋网，无监督机器学习还有很多的潜在应用场景有待开拓，例如将其应用在基于用户的兴趣分析用户的转化率，用户流失的原因等。

小结

在雷锋网看来，相较于图像识别、语音识别、零售、医疗等领域，安全领域较早地积累起数据，也较早地将机器学习应用到实践，为无监督机器学习技术提供了很好的数据基础。很多行业目前还处在前期的数据收集的过程，也依赖于大量的数据标注。另外，安全领域是一个高速变化的行业，需要无监督机器学习来快速识别新型欺诈攻击。

AI的愿景一直是希望AI能将人们从大量的重复性和机械性工作中解放出来，在这一方面，无需标注数据的无监督机器学习将是未来趋势。当然，谷歌的AutoML也在致力于使得AI更加自主化、平民化，不过他们解决的是模型设计部分。无监督机器学习在数据清洗、模型优化方面也仍然需要行业背景和资深的AI从业者参与。理解用户场景和需求，进行数据清洗、模型设计和调优，正是DataVisor的壁垒和优势所在。

无监督机器学习有着很强的通用性，在未来，我们或许能看到无监督机器学习技术在更多领域落地。