机器学习新隐写术:伪装训练集,隐藏任务意图

2019 年 1 月 7 日 新智元




  新智元报道  

来源:techxplore

作者:Ingrid Fadelli  编辑:肖琴

【新智元导读】你以为是水果图像分类的任务,实际是男女分类任务,这并非不可能。研究人员在机器学习领域引入了一种新的隐写术,伪装训练集,隐藏任务的意图和目标,从而可以训练AI系统执行秘密任务。


将信息隐藏在显而易见的地方,使其存在不被怀疑,这就是隐写术


隐写术并不新鲜。早在公元前5世纪,信使们就会剃光头发,并在头上写下信息。等到他们重新长出头发,就能隐藏信息。只有预定的收信人知道要剃光信使的头发来获得信息。


在现代,隐写技术常被用来检测未经授权的数字媒体分发。需要注意的是,隐写术(steganography)不同于密码学(crypotgraphy),后者的目的是隐藏数据内容。如果监视数据的人可以更改数据或完全停止数据传输,就无法使用加密了。在这种情况下,隐写术变得非常重要,因为我们不希望任何介入的窃听者会觉得可疑并停止数据传输。


在最近的研究中,威斯康星大学麦迪逊分校和阿默斯特学院的研究人员在机器学习领域引入了一种新的隐写术,称为“训练集伪装”(training set camouflage)


他们设想了这样一个场景:一个机器学习智能体(Alice)试图训练另一个智能体(Bob)去完成一项秘密的分类任务,而且要避免被第三个智能体(Eve)窃听。


他们在arXiv上预先发表的一篇论文中概述了他们的框架,该框架允许机器学习智能体向第三方观察者隐藏任务的意图和目标。


图1:训练集伪装的示例。(a) 伪装的训练集 (b)秘密的分类任务


图1a所示的分类训练集中,上面一行包含正类(+)的实例,下面一行是负类(-)的实例。这些图像可以输入给机器学习系统,以学习一个模型,该模型将成功地将从未见过的实例(图像)分类为+或-。


如果你认为这个任务是水果图像分类(橙子vs.苹果),那么你已经被成功地愚弄了。实际的任务是对女性和男性进行分类,如图1b所示。事实上,一个标准的逻辑回归学习器仅对图1a中的图像进行训练,就可以对图1b中的图像得到较高的性别分类准确率。


在这篇论文中,研究人员设想了一个智能体Alice,她有一个秘密的分类任务(例如,对女性和男性的图像进行分类)和一个相应的私人训练集(女性和男性的图像)。Alice想训练第二个智能体,Bob,来完成这个秘密任务。


“训练集伪装”的框架


研究人员在论文中写道:“想象一下,Alice有一个非法机器学习分类任务的训练集。Alice想让Bob(一个机器学习系统)来学习这个任务。然而,如果通信受到监控,训练集或训练模型被发送给Bob,就会引起怀疑。”


在研究人员设想的场景中,名为Eve的第三个智能体扮演数据检验者的角色,监视Alice和Bob之间的通信。当Eve对Alice发送给Bob的内容产生怀疑时,她可以终止它们之间的通信,并拒绝将数据传递给Bob)。Eve作为审核者,在将训练数据传递给学习者之前,他会试图弄清楚该数据集是否合法。


“发送私人训练集会暴露Alice的意图;发送模型参数方向也会引起怀疑。Alice必须伪装通信,让通信内容在Eve看起来平淡无奇,同时避免事先与Bob使用过多的编码技巧。”


他们展示了Alice如何为一个隐秘任务构建一个伪装的数据集,其中(i)这个训练集在Eve看来是不可疑的(ii)能让Bob学习秘密任务的准确模型。在前面的例子中,Eve注意到Alice发送的苹果和橘子的图像看起来是正常的,而对Alice关于女性vs男性分类的秘密任务一无所知。


研究人员设计的隐写术方法允许Alice在一个完全不同的、看起来良好的分类任务上计算第二个训练集,而不会引起Eve的怀疑。它通过查找看起来可以应用于特定任务的数据集来实现这一点,而实际上它可以教会智能体在不同的任务中表现良好。通过将它的标准学习算法应用于第二个训练集,Bob可以近似恢复原始任务上的分类器。


研究人员设计出这种隐写法某种程度上是偶然,因为它来自机器学习领域的一个不相关的项目。他们开发的系统创建了一系列的教学集,其中一个包括有错误的标签点。这鼓励他们研究一个智能体是否可以教另一个智能体如何完成任务,同时这个任务是用另一个任务伪装的。


研究人员使用真实的分类任务进行了一系列的实验,证明了他们的方法的可行性。他们的研究表明,只要利用以下事实就可以隐藏大量信息:对于任何给定的任务,都有几个模型可以很好地执行该任务。


论文地址:

https://arxiv.org/pdf/1812.05725.pdf


【加入社群】


新智元 AI 技术 + 产业社群招募中,欢迎对 AI 技术 + 产业落地感兴趣的同学,加小助手微信号:aiera2015_2  入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。


登录查看更多
8

相关内容

威斯康星大学麦迪逊分校和阿默斯特学院的研究人员在机器学习领域引入了一种新的隐写术,称为“训练集伪装”(training set camouflage),隐藏任务的意图和目标,从而可以训练AI系统执行秘密任务。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
理解五个基本概念,让你更像机器学习专家
云栖社区
5+阅读 · 2018年11月29日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
[机器学习] 用KNN识别MNIST手写字符实战
机器学习和数学
4+阅读 · 2018年5月13日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
反欺诈中所用到的机器学习模型有哪些?
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
用神经网络训练一个文本分类器
Python开发者
3+阅读 · 2017年8月19日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
169+阅读 · 2020年3月10日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【论文】欺骗学习(Learning by Cheating)
专知会员服务
26+阅读 · 2020年1月3日
相关资讯
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
理解五个基本概念,让你更像机器学习专家
云栖社区
5+阅读 · 2018年11月29日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
[机器学习] 用KNN识别MNIST手写字符实战
机器学习和数学
4+阅读 · 2018年5月13日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
反欺诈中所用到的机器学习模型有哪些?
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
用神经网络训练一个文本分类器
Python开发者
3+阅读 · 2017年8月19日
相关论文
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
6+阅读 · 2018年2月26日
Top
微信扫码咨询专知VIP会员