Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
翻译:对机器代理人的好奇心是一个活跃的研究活动的焦点。对人和动物好奇心的研究,特别是特定的好奇心,已经发现了若干能给机器学习者带来重要好处,但在机器智能方面尚未很好探索的特性。在这项工作中,我们对动物和机器好奇心领域进行了全面、多学科的调查。作为这项工作的主要贡献,我们利用这项调查作为基础,提出和界定我们认为哪些是特定好奇心的五个最重要的属性:(1) 指导如何直观的参考;(2) 满足后停止;(3) 自愿接触;(4) 过渡性;和(5) 连贯的长期学习。作为这项工作的第二个主要贡献,我们展示了这些属性如何在概念强化学习工具中一起实施。我们展示了该代理物在简单、非遗传的网络-世界环境中的表现,其中包括好奇心的吸引地点和诱导的好奇心目标。我们希望,我们一个具体计算性代理在满足后停止、(3) 自愿接触、(4) 透明性、 以及(5) 连贯的长期学习中的行为方式,同时更新了科学- 科学- 领域选择的逻辑- 学习具体地、 学习科学- 和科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 科学- 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 目的的 的 的 目的- 解释- 解释- 解释- 解释- 解释- 解释- 解释- 解释- 解释- 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 解释性 的 解释性 解释性 解释性 解释性 解释性 解释性 性 性 解释性 的 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性