近期必读的5篇顶会SIGIR 2021【反事实推理】相关论文和代码

【导读】作为CCF推荐的A类国际学术会议，International ACM SIGIR Conference on Research and Development in Information Retrieval（国际计算机学会信息检索大会，简称 SIGIR）在信息检索领域享有很高的学术声誉，每年都会吸引全球众多专业人士参与。今年的 SIGIR 2021已经在2021年7月11-15日在线上举行。此次大会共收到了720篇长文投稿，录用151篇，长文录取率21%（去年的录取率为26.4%）；共收到了526篇短文投稿，录用145篇，短文录取率27%（去年的录取率为30%）。

SIGIR2021 Paper List: https://dl.acm.org/doi/proceedings/10.1145/3404835

为此，专知小编为大家整理了五篇SIGIR 2021 反事实推理（Counterfactual Inference）相关研究和应用，这块这几年一直比较受关注——视频时刻检索、流行度偏好、AutoDebias、情绪偏差、延时反馈

CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Deconfounded Video Moment Retrieval with Causal Intervention

作者：Xun Yang, Fuli Feng, Wei Ji, Meng Wang, Tat-Seng Chua

摘要：本文解决了视频时刻（moment）检索 (VMR) 的任务，该任务旨在根据文本query定位视频中的特定时刻（moment）。现有方法主要通过复杂的跨模态交互对query和moment之间的匹配关系进行建模。尽管它们有效，但当前的模型大多利用数据集偏差（biases）而忽略视频内容，从而导致泛化性较差。本文认为这个问题是由 VMR 中隐藏的混杂因素引起的，即时刻（moments）的时间位置（temporal location），它虚假地关联了模型输入和预测。如何针对时间位置偏差设计稳健的匹配模型至关重要，但据本文所知，尚未有针对 VMR 进行研究。为了填补研究空白，本文提出了一个因果关系启发的 VMR 框架，该框架构建了结构因果模型来捕捉query和视频内容对预测的真实影响。具体来说，本文提出了一种去混杂的跨模态匹配 (DCM) 方法来消除moment location的混杂影响。它首先解开moment表示以推断视觉内容的核心特征，然后基于后门调整（backdoor adjustment）对解开的多模态输入进行因果干预，这迫使模型公平地考虑目标的每个可能位置。大量实验清楚地表明，本文的方法可以在准确性和泛化性方面，比最先进方法，取得显着改进。

论文： https://dl.acm.org/doi/10.1145/3404835.3462823

2. Causal Intervention for Leveraging Popularity Bias in Recommendation

作者：Yang Zhang, Fuli Feng, Xiangnan He, Tianxin Wei, Chonggang Song, Guohui Ling, Yongdong Zhang

摘要：推荐系统通常面临流行偏好（popularity bias）问题：从数据角度来看，items在交互频率上表现出不均匀（通常是长尾）分布；从方法的角度来看，协同过滤方法容易通过过度推荐热门items来放大bias。在推荐系统中考虑流行偏好（popularity bias）无疑是至关重要的，现有工作主要通过基于倾向的无偏学习或因果嵌入来消除偏差效应。然而，本文认为并非数据中的所有偏差都是不好的，即某些items因其更好的内在质量而表现出更高的受欢迎程度。盲目追求无偏学习可能会去除数据中的有益模式，从而降低推荐准确性和用户满意度。本文研究了推荐中一个未探索的问题——如何利用流行偏好（popularity bias）来提高推荐准确性。关键在于两个方面：如何去除训练过程中流行度偏差的不良影响，以及如何在生成top-K推荐的推理阶段注入所需的流行度偏差。这对推荐生成过程的因果机制提出了一些疑惑。沿着这条线，本文发现items流行度在暴露项目和观察到的交互之间起到了混杂的作用，导致了偏差放大的不良影响。为了实现这一目标，本文提出了一种新的推荐训练和推理范式，称为流行偏见解混和与调整（PDA）。它消除了模型训练中混淆的流行偏差，并通过因果干预调整推荐分数。本文展示了潜在因素模型的新范式，并在来自快手、豆瓣和腾讯的三个真实世界数据集上进行了大量实验。实证研究表明，去混淆训练有助于发现用户的真实兴趣，并且根据流行度偏差进行推理调整可以进一步提高推荐准确率。

论文： https://dl.acm.org/doi/10.1145/3404835.3462875

代码： https://github.com/zyang1580/PDA

3. AutoDebias: Learning to Debias for Recommendation

作者：Jiawei Chen, Hande Dong, Yang Qiu, Xiangnan He, Xin Xin, Liang Chen, Guli Lin, Keping Yang

摘要：

推荐系统依靠评分和点击等用户行为数据来构建个性化模型。然而，收集到的数据是观察性的而不是实验性的，这会导致数据中的各种偏差，从而显著影响学习的模型。大多数现有的推荐去偏差工作，例如逆倾向评分（the inverse propensity scoring）和插补（imputation）方法，都侧重于一两个特定的偏差，缺乏可以解释数据中混合甚至未知偏差的通用能力。针对这一研究空白，本文首先从风险差异的角度分析偏差的来源，风险差异代表了预期经验风险与真实风险之间的差异。值得注意的是，本文推导出了一个通用学习框架，通过指定通用框架的一些参数，它很好地总结了大多数现有的除偏策略。这为开发用于去偏的通用解决方案提供了宝贵的机会，例如，通过从数据中学习去偏参数。然而，训练数据缺乏重要信号来说明数据是有偏的，以及无偏数据是什么样子的。为了推进这一想法，本文提出了 AotoDebias，它利用另一组（小）均匀数据，通过元学习解决双层优化问题来优化除偏参数。通过理论分析，本文推导出了 AutoDebias 的泛化界限，并证明了其获得合适的去偏策略的能力。对两个真实数据集和一个模拟数据集的大量实验证明了 AutoDebias 的有效性。

论文： https://dl.acm.org/doi/10.1145/3404835.3462919

代码： https://github.com/DongHande/AutoDebias

4. Mitigating Sentiment Bias for Recommender Systems

作者：Chen Lin, Xinyi Liu, Guipeng Xv, Hui Li

摘要：推荐系统（RS）中的偏差和去偏差最近已成为研究热点。这篇论文揭示了一种尚未探索的偏见类型，即情绪偏见。通过实证研究，本文发现许多 RS 模型对具有更多正面反馈的用户/物品组（即正面用户/物品）比对具有更多负面反馈的用户/物品组（即负面用户/物品）提供更准确的推荐。本文表明，情绪偏见与现有偏见（例如流行偏见）不同：积极的用户/项目没有更多的用户反馈（即，更多的评分或更长的评论）。情绪偏见的存在导致对关键用户的推荐质量低下，对小众商品的推荐不公平。本文讨论导致情绪偏差的因素。然后，为了修正情绪偏差的来源，本文提出了一个通用的去偏差框架，其中包含三种策略，体现在不同的正则化器中，可以轻松插入 RS 模型而无需更改模型架构。在各种 RS 模型和基准数据集上的实验已经验证了本文的去偏置框架的有效性。据本文所知，之前没有研究过情绪偏见及其去偏见。本文希望这项工作可以帮助加强对 RS 中偏差和去偏差的研究。

论文： https://dl.acm.org/doi/10.1145/3404835.3462943

5. Counterfactual Reward Modification for Streaming Recommendation with Delayed Feedback

作者：Xiao Zhang, Haonan Jia, Hanjing Su, Wenhan Wang, Jun Xu, Ji-Rong Wen

摘要：在许多流媒体推荐场景中，用户反馈可能会延迟。例如，用户对推荐优惠券的反馈包括对点击事件的即时反馈和对转化结果的延迟反馈。延迟反馈对使用标签不完整的实例训练推荐模型提出了挑战。当应用于实际产品时，挑战变得更加严峻，因为流推荐模型需要非常频繁地重新训练，并且需要在非常短的时间范围内收集训练实例。现有方法要么简单地忽略未观察到的反馈，要么在静态实例集上试探性地调整反馈，从而导致训练数据存在偏差并损害学习推荐的准确性。在本文中，本文提出了一种新颖且理论上合理的反事实方法来调整用户反馈和学习推荐模型，称为 CBDF(Counterfactual Bandit with Delayed Feedback)。CBDF 将具有延迟反馈的流推荐作为顺序决策问题制定，并使用批量bandit对其进行建模。为了解决延迟反馈的问题，在每次迭代（episode）时，都会采用反事实重要性采样模型来重新加权原始反馈并生成修改后的反馈。基于修改后的反馈，学习批量bandit以在下一次迭代中进行在线推荐。理论分析表明，修改后的奖励在统计上是无偏的，并且学习到的bandit策略享有次线性的后悔界限。实验结果表明，CBDF 在合成数据集、Criteo 数据集和来自腾讯微信应用的数据集上的表现优于最先进的基线方法。

论文： https://dl.acm.org/doi/10.1145/3404835.3462892

成为VIP会员查看完整内容