Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search
基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化
摘要:在线广告是一种以互联网为载体,帮助广告主触达目标消费者,从而实现商业诉求的广告形式。在线广告通常通过实时竞价的方式决定胜出者。电商搜索广告是一种主流的在线广告:消费者在电商平台表达搜索请求,触发相关广告主的实时竞价以及平台流量分配,并带来可能的成交行为。在高度动态的电商市场,每天通常有数百万的广告主,这些广告主诉求各异,经由上千亿次的实时竞价竞争接近百亿次的用户曝光。如何在如此大规模的电商流量场景下,通过优化实时竞价,满足广告主多样化目标诉求是一个颇具挑战的问题。学术界和工业界已经深入研究了单广告主视角的竞价优化问题,这些研究往往即假设其他竞争者不改变出价,这一强假设往往不成立,导致策略在运用于多广告主真实竞价时往往表现较差。少量现有工作从多广告主视角,利用多智能体强化学习,通过构建一致的目标进行出价的协同优化,但他们存在如下缺陷:(1)由于信息完全共享,这些方法很难避免多广告主串谋的问题,一种显而易见的更优解是广告主串通出较低价竞价流量,导致平台收益受损;(2)在复杂动态的竞价环境中,这些策略需要较长时间收敛并且极度不稳定。此外,针对电商搜索广告竞价优化问题,以往的工作很少考虑同时优化广告主多样化的诉求目标。
针对以上问题,本文提出了一套新颖的多目标协同出价优化框架,即多智能体协同出价博弈。在该合作博弈框架中,本文通过引入一个全局的目标以优化所有广告主的总体利益,鼓励了广告主更好的协同,从而间接保护了自主出价广告主的利益,使得流量分配更加公平。为解决多广告主串谋问题,本文也额外引入了平台的收入作为约束。本文通过理论分析给出了最优出价公式的泛函形式,并设计了一种策略网络用于探索泛函出价公式中的最优参数。为寻找最优参数,本文同时设计了一种高效的多智能体进化策略搜索算法。进化策略不需要显式建模动态环境,使得求解过程具有更好的鲁棒性。淘宝搜索广告平台上广泛的离线评测和在线A/B测试,都显示本文的方法显著优于现有最新的工作。该模型已经上线部署到淘宝搜索广告平台,每天服务上百万广告主的实时竞价优化,使得整体大盘效率指标以及广告主自身诉求均有5%以上提升。
论文下载: https://www.zhuanzhi.ai/paper/96bacab511dabf1b4b213f1e229d58bb