In this paper, we investigate the problem about how to bid in repeated contextual first price auctions. We consider a single bidder (learner) who repeatedly bids in the first price auctions: at each time $t$, the learner observes a context $x_t\in \mathbb{R}^d$ and decides the bid based on historical information and $x_t$. We assume a structured linear model of the maximum bid of all the others $m_t = \alpha_0\cdot x_t + z_t$, where $\alpha_0\in \mathbb{R}^d$ is unknown to the learner and $z_t$ is randomly sampled from a noise distribution $\mathcal{F}$ with log-concave density function $f$. We consider both \emph{binary feedback} (the learner can only observe whether she wins or not) and \emph{full information feedback} (the learner can observe $m_t$) at the end of each time $t$. For binary feedback, when the noise distribution $\mathcal{F}$ is known, we propose a bidding algorithm, by using maximum likelihood estimation (MLE) method to achieve at most $\widetilde{O}(\sqrt{\log(d) T})$ regret. Moreover, we generalize this algorithm to the setting with binary feedback and the noise distribution is unknown but belongs to a parametrized family of distributions. For the full information feedback with \emph{unknown} noise distribution, we provide an algorithm that achieves regret at most $\widetilde{O}(\sqrt{dT})$. Our approach combines an estimator for log-concave density functions and then MLE method to learn the noise distribution $\mathcal{F}$ and linear weight $\alpha_0$ simultaneously. We also provide a lower bound result such that any bidding policy in a broad class must achieve regret at least $\Omega(\sqrt{T})$, even when the learner receives the full information feedback and $\mathcal{F}$ is known.


翻译:在本文中, 我们调查如何在反复背景第一次价格拍卖中进行投标的问题。 我们考虑一个在第一次价格拍卖中反复投标的单一投标人( Learner) : $t$ : 学习者每次从一个噪音分布中随机抽取 $_ t\ in\ mathb{R ⁇ d$, 并且根据历史信息和$x_ t美元来决定出价。 我们假设一个结构化的线性模式, 所有其他人的最大出价 $_ t =\ alpha_ 0\ cdot x t+z_ t$, 美元=lear_ unthb{ Rd$ 。 学习者们只能观察她是否赢, 美元=t_ t_ t_ tn_ 美元, 以美元为单位的反馈 。 学习者在每一个时间里程里程里, 以我们最不确定的分发方式 。

0
下载
关闭预览

相关内容

人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
已删除
将门创投
5+阅读 · 2019年10月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Neural Trees for Learning on Graphs
Arxiv
0+阅读 · 2021年10月28日
Arxiv
0+阅读 · 2021年10月27日
Decision Making in Star Networks with Incorrect Beliefs
VIP会员
相关VIP内容
人工智能顶会WSDM2021优秀论文奖(Best Paper Award Runner-Up)出炉
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
5+阅读 · 2019年10月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员