Data poisoning considers an adversary that distorts the training set of machine learning algorithms for malicious purposes. In this work, we bring to light one conjecture regarding the fundamentals of data poisoning, which we call the Lethal Dose Conjecture. The conjecture states: If $n$ clean training samples are needed for accurate predictions, then in a size-$N$ training set, only $\Theta(N/n)$ poisoned samples can be tolerated while ensuring accuracy. Theoretically, we verify this conjecture in multiple cases. We also offer a more general perspective of this conjecture through distribution discrimination. Deep Partition Aggregation (DPA) and its extension, Finite Aggregation (FA) are recent approaches for provable defenses against data poisoning, where they predict through the majority vote of many base models trained from different subsets of training set using a given learner. The conjecture implies that both DPA and FA are (asymptotically) optimal -- if we have the most data-efficient learner, they can turn it into one of the most robust defenses against data poisoning. This outlines a practical approach to developing stronger defenses against poisoning via finding data-efficient learners. Empirically, as a proof of concept, we show that by simply using different data augmentations for base learners, we can respectively double and triple the certified robustness of DPA on CIFAR-10 and GTSRB without sacrificing accuracy.


翻译:数据中毒是扭曲用于恶意目的的机器学习算法的培训组合的对手。 在这项工作中,我们提出了一个关于数据中毒基本原理的猜测。 我们称之为致命多斯测谎。 猜测指出: 如果准确预测需要清洁培训样本,那么,在规模-N美元的培训组合中,只有美元(N/n)美元有毒样本可以被容忍,同时确保准确性。 从理论上讲,我们核实了多种情况下的这种推测。 我们还从更广义的角度从分布歧视的角度来看待这一推测。 深度分割聚合(DPA)及其扩展, 金融聚合(FI)是最近针对数据中毒的可行防御方法, 即:如果准确性培训样本需要用美元-N美元进行准确性预测, 那么在一个规模-N美元的培训组合中,只有美元($-N/n)的中毒样本样本可以被容忍。 推测意味着,如果我们拥有最有数据效率的学习者,那么,我们就能把它变成最可靠的防御方法之一。 深度分离(DPA)及其扩展(DPA) (DPA) (DP) (DP) (DP) (DP) (DP) (DP) (DP) ) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP))) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (

0
下载
关闭预览

相关内容

训练集,在AI领域多指用于机器学习训练的数据,数据可以有标签的,也可以是无标签的。
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
73+阅读 · 2022年6月28日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月4日
Arxiv
0+阅读 · 2022年10月2日
Arxiv
0+阅读 · 2022年10月1日
Arxiv
19+阅读 · 2022年7月29日
VIP会员
相关VIP内容
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
73+阅读 · 2022年6月28日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
【ICIG2021】Latest News & Announcements of the Industry Talk2
中国图象图形学学会CSIG
0+阅读 · 2021年7月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员