AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,也许会有新的收获呢。
Gautier Marti 在法国巴黎高等师范学校获得应用数学的硕士学位,而后在巴黎综合理工学院获得机器学习量化分析的博士学位。2013 年 3 月至 5 月,Gautier Marti 在中科院自动化研究所模式识别国家重点实验室实习。在 2014 年至 2017 年任 Hellebore Capital 的机器学习研究科学家之后,现在他在 AXA IM Chorus 任 NLP 量化分析研究员。机器学习+金融的研究人员对理论性较强的 ICML 有何感悟呢?AI 科技评论把他的个人博客文章全文编译如下。本篇为上篇,共两篇。
本届 ICML 大会于 2018 年 7 月11 日进入了主会议日程(7月10日的内容为教程)。会议伊始,UC 伯克利大学 Dawn Song 教授应邀为大会做了题为「人工智能与安全:教训、挑战和未来研究方向」的主旨报告。接着,本届 ICML 会议的最佳论文奖颁发给了「由模糊梯度引起的虚假安全感:绕过对抗性样本的防御」(https://arxiv.org/pdf/1802.00420.pdf)。
Dawn Song 教授的「人工智能与安全:教训、挑战和未来研究方向」的大会报告主要有以下几个关键的论点:
计算机安全方面的研究可以帮助 AI 研究的发展,而 AI 的研究也可以帮助计算机安全进步(举例而言,为了检测出恶意代码,人们可以对代码的(数据流、控制流等)图进行计算。此时,我们就可以利用图嵌入技术将代码图的信息转换到相应的表示向量中。最终使用余弦相似度作为度量指标将原始代码与样本库中的代码进行对比,从而判断原始代码是否为恶意代码)。
差分隐私(AI 科技评论注:原作者在此处没有展开,我们的一篇往期文章有较细致的分析)
有一些模型(特别是深度神经网络)可以记住一部分训练集中的信息(从数据学习的副作用)。而事实上,人们并不应该具备通过对模型进行查询从而反推出训练集中的数据的能力(不妨想一想信用卡号或其他的敏感信息)。
人工智能、计算机安全、区块链等技术之间的协同作用。例如,在设计一个数据集市(数据来源)时,用户可能由于其信息被泄露而受到损害。然而,我们可以通过智能合约技术保证用户的数据将仅仅被用于拟合机器学习模型,而用户将从中收到报酬。所有这些对这些数据的隐私安全保护方法都要归功于差分隐私技术。我知道,你在这一段中看到了许多流行的概念,考虑到 Song 教授的一系列工作的记录,这个领域可能还有很多值得研究的空间。
实际上,Song 教授目前是一家基于以上的想法创建的公司——「Oasis Labs」的创始人和首席执行官。
最佳论文
我从最佳论文「由模糊梯度引起的虚假安全感:绕过对抗性样本的防御」(https://arxiv.org/pdf/1802.00420.pdf)中有以下收获:
一个对抗性样本是一个以很高的置信度被错误分类的样本,它与被正确分类的样本非常相似(甚至对于人眼来说,两张图像是一摸一样的。不妨想象一下,当我们仅仅对一个图片的几个像素点进行改变,这时人眼是无法区分的,而机器学习算法则可能被误导)。
这可能让那些对自己的机器学习模型的鲁棒性十分关心的人感到懊恼,而且这也带来了新的安全威胁:你可以通过适当修改道路交通标志来愚弄一个无人驾驶汽车。
这样的对抗性样本是相对来说很容易生成的。
研究人员专注于通过对他们的梯度进行模糊处理来保护他们的模型。
本文指出,这种防御方式是很弱的,而且他们攻破了目前最先进的防御方法。
论文的讲解人提议对论文进行更多的评估(重新评估):在200 多篇提出了一种防护策略的论文中,只有30 篇被重新评估了。
Schneier 定律:对于任何人来说(从最小白的业余爱好者到最专业的密码专家),他们都可以创造一种他们自己无法突破的算法。
在提出防御策略之前,要先学会怎么进行攻击。
在上面提到的全体大会报告后,7 月11 日的 ICML 大会余下的内容分为了三个分会场,会场之间的主题高度平行(相关度较低)。同时也有晚间的海报讨论。
我参加了以下会议讨论:
表示学习(session 1)
不幸的是,迁移学习和多任务学习的会场已经满了。在我的工作中,我大多数时候都是与无标签数据打交道,因此,我对无监督学习、弱监督学习及半监督学习十分感兴趣。嵌入技术是目前一个非常火的课题,尽管目前人们还不是太清楚嵌入技术是如何影响下游任务的(如果嵌入并不是从下游任务中提取到的),但通过嵌入技术确实能够得到非常好的学习结果。
高斯过程+稀疏化和压缩感知稀疏化的最后一篇论文(下方论文列表第一篇)(session 2A)
高斯过程是一种用于连续时间内的随机时间序列的无参贝叶斯技术,并且具有很强的应用价值。我曾经使用过 GPy2 拟合高斯过程,并在对自回归异步多变量时间序列(https://arxiv.org/pdf/1703.04122.pdf)建模时把它作为一种替代方法。
排序学习和优先级学习(session 2B)
我之所以参加这个讨论,主要是因为一种量化交易的方法可以被看作通过学习根据某些指标对股票进行排名,并最终合并排名和优先级。
网络和关系学习(session 3)
我过去曾经在这个领域开展过广泛的工作。尽管我并不是对深度学习进行研究,但是我曾大量使用古老的统计方法和曾经风靡一时的层次聚类技术(详情参见这篇论文:https://arxiv.org/pdf/1703.00485.pdf )。对于我来说,对这个话题的讨论是最令我激动的。
具体而言,我重点关注了以下论文:
「Online Convolutional Sparse Coding with Sample-Dependent Dictionary(通过基于样本的字典进行在线卷积稀疏编码)」:HKers 声称他们提出了一种只需保留少量过滤器的基础(用于生物医学图像压缩/去噪/重构),就能够在随后通过线性变换(是一个学习到的基于样本的权值矩阵)进行大规模的扩展的技术。
「Canonical Tensor Decomposition for Knowledge Base Completion(用于完善知识库的正则化张量分解技术)」:这是我以前的一位同学的工作,他现任职于 Facebook 人工智能研究院。可以在GitHub(https://github.com/facebookresearch/kbc)上查看本文代码。
「NetGAN: Generating Graphs via Random Walks(NetGAN:通过随机游走生成图)」:这篇文章的演讲非常清楚。GAN(生成对抗网络)可以利用输入中给定的图生成与其极为相似的图,还能微调成一些拥有相同节点的图。对于我自己在金融的相关性、金融中程式化的事实以及隐含嵌入空间方面的研究提供了一些有趣的思路。这篇论文的海报非常有说服力。可以在 GitHub 上查看这篇论文的代码:https://github.com/danielzuegner/netgan
「GraphRNN: Generating Realistic Graphs with Deep Auto-regressive Models(GraphRNN:通过深度自回归模型生成与真实情况相近的图)」:使用图的序列表示生成模型,然后在上面应用RNN(循环神经网络)模型。可以在GitHub 上查看本文代码:https://github.com/JiaxuanYou/graph-generation
「CoVeR: Learning Covariate-Specific Vector Representations with Tensor Decompositions(CoVeR:通过张量分解学习共变量的矢量表示)」:在学习嵌入的语料库中调整词嵌入。
第二天、第三天的内容请期待下篇。
via Gautier Mari's Wander 科技评论编译