大数据分析的一个关键挑战是如何收集大量(标记)数据。众包旨在通过聚合和估算来自广泛的客户/用户的高质量数据(如文本的情感标签)来解决这一挑战。现有的众包研究集中于设计新的方法来提高来自不可靠/嘈杂客户端的聚合数据质量。然而,迄今为止,这种众包系统的安全方面仍未得到充分的探索。我们的目标是在这项工作中填补这一缺口。具体来说,我们表明众包很容易受到数据中毒攻击,即恶意客户端提供精心制作的数据来破坏聚合数据。我们将我们所提议的数据中毒攻击规划为一个优化问题,使聚合数据的错误最大化。我们在一个合成的和两个真实的基准数据集上的评估结果表明,所提出的攻击可以显著地增加聚合数据的估计误差。我们还提出了两种防御来减少恶意客户端的影响。我们的实证结果表明,所提出的防御方法可以显著降低数据中毒攻击的估计误差。
https://www.zhuanzhi.ai/paper/d25992f7a7df3ee1468f244f05a8ba03