序列决策是机器学习应用的一种自然模型,学习器必须实时进行在线决策,同时从序列数据中学习,以便在未来做出更好的决策。经典工作专注于基于随机或对抗性数据分布的问题变体,或基于对学习器决策的反馈,这些决策可能是部分的或完整的。随着大型在线市场的迅速崛起,序列学习方法越来越多地部署在复杂的多智能体系统中,智能体可以根据自己的个人目标进行战略性优化。这为序列决策问题增加了一个新的维度,在这个维度中,学习器必须考虑到它正在学习的智能体的战略行为,这些智能体可能希望引导其未来的决策朝着有利于自己的方向发展。本文旨在从系统设计者的角度设计有效的在线决策算法,系统设计者的目标是在具有有限反馈的战略智能体环境中学习,以及战略智能体的目标是优化个人目标。
在论文的第一部分中,我们专注于重复拍卖,并设计了拍卖者可以在战略投标人存在的情况下有效学习的机制,反之,解决智能体如何在重复拍卖中投标或使用数据中毒攻击来最大化他们自己的目标。在第二部分中,我们考虑在线学习环境,其中关于学习者决策的反馈是昂贵的。本文提出一种在线学习算法,受主动学习技术的启发,可以快速前进队列中信息量更大的一小部分示例。这允许学习器获得与最优在线算法相同的性能,但仅通过查询非常小的分数的反馈。最后,在论文的第三部分,我们考虑了一个新的随机多臂匪徒学习目标,它促进了个人和群体机会的择优公平。https://smartech.gatech.edu/handle/1853/70199