深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

VIP内容

推荐系统在我们的日常生活中发挥着越来越重要的作用,特别是在许多以用户为导向的在线服务中,推荐系统在缓解信息过载问题方面发挥着重要作用。推荐系统的目标是通过利用用户和物品的交互来提高匹配的准确性,识别出一组最符合用户显性或隐性偏好的对象(即物品)。

随着深度神经网络(DNNs)在过去几十年的快速发展,推荐技术已经取得了良好的性能。然而,现有的基于DNN的方法在实践中存在一些缺陷。更具体地说,他们认为推荐过程是一个静态的过程,并按照一个固定的贪心策略进行推荐; 现有的大多数基于DNN的推荐系统都是基于手工制作的超参数和深度神经网络架构;它们将每个交互视为单独的数据实例,而忽略了实例之间的关系。

在本教程中,我们将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展,包括深度强化学习(DRL)、自动机器学习(AutoML)和图神经网络(GNN)。

通过这种方式,我们希望这三个领域的研究人员能够对空间有更深刻的理解和准确的洞察,激发更多的想法和讨论,促进推荐技术的发展。

https://deeprs-tutorial.github.io/

成为VIP会员查看完整内容
0
56

最新论文

AlphaZero has achieved impressive performance in deep reinforcement learning by utilizing an architecture that combines search and training of a neural network in self-play. Many researchers are looking for ways to reproduce and improve results for other games/tasks. However, the architecture is designed to learn from scratch, tabula rasa, accepting a cold-start problem in self-play. Recently, a warm-start enhancement method for Monte Carlo Tree Search was proposed to improve the self-play starting phase. It employs a fixed parameter $I^\prime$ to control the warm-start length. Improved performance was reported in small board games. In this paper we present results with an adaptive switch method. Experiments show that our approach works better than the fixed $I^\prime$, especially for "deep," tactical, games (Othello and Connect Four). We conjecture that the adaptive value for $I^\prime$ is also influenced by the size of the game, and that on average $I^\prime$ will increase with game size. We conclude that AlphaZero-like deep reinforcement learning benefits from adaptive rollout based warm-start, as Rapid Action Value Estimate did for rollout-based reinforcement learning 15 years ago.

0
0
下载
预览
Top