逆向KL散度论文 - 专知

会员服务 ·

逆向KL散度

Entropy Controllable Direct Preference Optimization

Arxiv

0+阅读 · 2024年11月12日

Choosy Babies Need One Coach: Inducing Mode-Seeking Behavior in BabyLlama with Reverse KL Divergence

Arxiv

0+阅读 · 2024年10月29日

Score-Based Variational Inference for Inverse Problems

Arxiv

0+阅读 · 2024年10月8日

Rate-Constrained Remote Contextual Bandits

Arxiv

0+阅读 · 2022年4月26日

Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization

Arxiv

0+阅读 · 2022年4月22日

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences

Arxiv

0+阅读 · 2022年4月18日

Nested Variational Inference

Arxiv

0+阅读 · 2021年6月21日

Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization

Arxiv

0+阅读 · 2021年5月27日

Imitation Learning as $f$-Divergence Minimization

Arxiv

0+阅读 · 2020年5月31日

Imitation Learning as $f$-Divergence Minimization

Imitation Learning as $f$-Divergence Minimization

Arxiv

0+阅读 · 2019年5月30日

Expectation Propagation performs a smoothed gradient descent

Arxiv

0+阅读 · 2016年12月15日

Dual Discriminator Generative Adversarial Nets

Arxiv

0+阅读 · 2017年9月12日

参考链接

微信扫码咨询专知VIP会员