Neural text ranking models have witnessed significant advancement and are increasingly being deployed in practice. Unfortunately, they also inherit adversarial vulnerabilities of general neural models, which have been detected but remain underexplored by prior studies. Moreover, the inherit adversarial vulnerabilities might be leveraged by blackhat SEO to defeat better-protected search engines. In this study, we propose an imitation adversarial attack on black-box neural passage ranking models. We first show that the target passage ranking model can be transparentized and imitated by enumerating critical queries/candidates and then train a ranking imitation model. Leveraging the ranking imitation model, we can elaborately manipulate the ranking results and transfer the manipulation attack to the target ranking model. For this purpose, we propose an innovative gradient-based attack method, empowered by the pairwise objective function, to generate adversarial triggers, which causes premeditated disorderliness with very few tokens. To equip the trigger camouflages, we add the next sentence prediction loss and the language model fluency constraint to the objective function. Experimental results on passage ranking demonstrate the effectiveness of the ranking imitation attack model and adversarial triggers against various SOTA neural ranking models. Furthermore, various mitigation analyses and human evaluation show the effectiveness of camouflages when facing potential mitigation approaches. To motivate other scholars to further investigate this novel and important problem, we make the experiment data and code publicly available.


翻译:神经文本排名模型经历了显着的发展,并在实践中越来越被部署。不幸的是,它们也继承了一般神经模型的对抗漏洞,这些漏洞已被发现但仍未得到以前的研究充分探索。此外,这些继承的对抗漏洞可能被黑帽SEO利用来打败更好保护的搜索引擎。在本研究中,我们对黑盒神经排名模型提出了一种模仿对抗攻击。我们首先展示了目标排序模型可以通过枚举关键查询/候选项并训练排序模仿模型来透明化和模仿。利用这个排序模仿模型,我们可以精心操纵排序结果并将操纵攻击转移到目标排序模型。为此,我们提出了一种基于梯度的攻击方法,利用成对的目标函数,生成极少量令人意外的对抗触发器,这些触发器会导致预谋的失序。为了装备触发器伪装,我们添加了下一个句子预测损失和语言模型流畅性约束到目标函数中。在排名的实验结果中,我们展示了排序模仿攻击模型和对多种最先进的神经排名模型的对抗触发器的有效性。此外,各种缓解分析和人类评估显示了当面对可能的缓解方法时,伪装的有效性。为了激励其他学者进一步探讨这个新颖而重要的问题,我们公开了实验数据和代码。

0
下载
关闭预览

相关内容

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
28+阅读 · 2022年12月26日
专知会员服务
17+阅读 · 2021年9月7日
FedGraph2022 | 首届国际联邦图学习研讨会
图与推荐
2+阅读 · 2022年8月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2020年12月10日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
38+阅读 · 2020年3月10日
VIP会员
相关VIP内容
【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
28+阅读 · 2022年12月26日
专知会员服务
17+阅读 · 2021年9月7日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员