The deep learning approach to detecting malicious software (malware) is promising but has yet to tackle the problem of dataset shift, namely that the joint distribution of examples and their labels associated with the test set is different from that of the training set. This problem causes the degradation of deep learning models without users' notice. In order to alleviate the problem, one approach is to let a classifier not only predict the label on a given example but also present its uncertainty (or confidence) on the predicted label, whereby a defender can decide whether to use the predicted label or not. While intuitive and clearly important, the capabilities and limitations of this approach have not been well understood. In this paper, we conduct an empirical study to evaluate the quality of predictive uncertainties of malware detectors. Specifically, we re-design and build 24 Android malware detectors (by transforming four off-the-shelf detectors with six calibration methods) and quantify their uncertainties with nine metrics, including three metrics dealing with data imbalance. Our main findings are: (i) predictive uncertainty indeed helps achieve reliable malware detection in the presence of dataset shift, but cannot cope with adversarial evasion attacks; (ii) approximate Bayesian methods are promising to calibrate and generalize malware detectors to deal with dataset shift, but cannot cope with adversarial evasion attacks; (iii) adversarial evasion attacks can render calibration methods useless, and it is an open problem to quantify the uncertainty associated with the predicted labels of adversarial examples (i.e., it is not effective to use predictive uncertainty to detect adversarial examples).


翻译:检测恶意软件(恶意软件)的深层次学习方法很有希望,但仍未解决数据基转换问题,即与测试组相关的示例及其标签的共发和标签与培训组不同,这一问题导致深层学习模型的退化,而用户没有注意到这个问题。为了缓解这一问题,一种方法是让分类者不仅预测某个示例的标签,而且还在预测标签上显示其不确定性(或信心),使维护者能够决定是否使用预测的标签。虽然直观且显然很重要,但这一方法的能力和局限性并没有得到很好的理解。在本文件中,我们进行了一项经验性研究,以评估恶意软件探测器预测不确定性的质量。具体地说,我们重新设计和建造24个机器型恶意软件探测器(用六种校准方法改造4个现成的探测器),并以9种衡量标准量化其不确定性,包括3种处理数据错乱的度。我们的主要结论是:(一) 预测性不确定性确实有助于在数据基调攻击中实现可靠的恶意检测,但无法应对对抗性攻击的准确性实例。 (二) 将数据基调方法改为升级,(breaddoral) 无法应对对目标的升级; (bal ) 校正变校正) 与常规方法是(breabalward) 。

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年4月19日
Arxiv
0+阅读 · 2021年12月17日
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
13+阅读 · 2021年3月3日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年4月19日
Top
微信扫码咨询专知VIP会员