A trained neural network model contains information on the training data. Given such a model, malicious parties can leverage the "knowledge" in this model and design ways to print out any usable information (known as model inversion attack). Therefore, it is valuable to explore the ways to conduct a such attack and demonstrate its severity. In this work, we proposed ways to generate a data point of the target class without prior knowledge of the exact target distribution by using a pre-trained diffusion model.
翻译:训练有素的神经网络模型包含培训数据信息。 在这样的模型中,恶意方可以利用这个模型中的“知识 ”, 并设计打印任何可用信息的方法( 称为“ 反向攻击模型 ” ) 。 因此, 探索进行这种攻击的方法并展示其严重性是有价值的。 在这项工作中,我们提出了在事先不知道目标准确分布的情况下,通过使用预先培训的传播模型生成目标类别的数据点的方法。