赌博机论文 - 专知

会员服务 ·

赌博机

BandiK: Efficient Multi-Task Decomposition Using a Multi-Bandit Framework

Arxiv

0+阅读 · 2025年12月31日

BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization

Arxiv

0+阅读 · 2025年12月29日

Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits

Arxiv

0+阅读 · 2025年12月28日

BALLAST: Bandit-Assisted Learning for Latency-Aware Stable Timeouts in Raft

Arxiv

0+阅读 · 2025年12月24日

Pairwise Elimination with Instance-Dependent Guarantees for Bandits with Cost Subsidy

Arxiv

0+阅读 · 2025年12月19日

A Modern Introduction to Online Learning

Arxiv

0+阅读 · 2025年12月21日

Why Most Optimism Bandit Algorithms Have the Same Regret Analysis: A Simple Unifying Theorem

Arxiv

0+阅读 · 2025年12月20日

Information-directed sampling for bandits: a primer

Arxiv

0+阅读 · 2025年12月23日

Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability

Arxiv

0+阅读 · 2025年12月23日

Online Optimization Algorithms in Repeated Price Competition: Equilibrium Learning and Algorithmic Collusion

Arxiv

0+阅读 · 2025年11月24日

Conformal Bandits: Bringing statistical validity and reward efficiency to the small-gap regime

Arxiv

0+阅读 · 2025年12月10日

Online Bandits with (Biased) Offline Data: Adaptive Learning under Distribution Mismatch

Arxiv

0+阅读 · 2025年12月18日

Bandit-Based Rate Adaptation for a Single-Server Queue

Arxiv

0+阅读 · 2025年12月12日

Optimal Analysis for Bandit Learning in Matching Markets with Serial Dictatorship

Arxiv

0+阅读 · 2025年12月7日

Balancing Performance and Costs in Best Arm Identification

Arxiv

0+阅读 · 2025年12月5日

参考链接

微信扫码咨询专知VIP会员