论文摘要: 本文考虑了对未知环境进行有效探索的问题,这是人工智能的一个关键挑战。我们提出了一个“学习探索”框架,可以从各种环境中学习政策。在测试时,由于存在来自相同分布的未知环境,该策略旨在推广探索策略,以有限的步骤访问最大数量的唯一状态。我们特别关注在许多重要的实际应用程序(例如软件测试和地图构建)中遇到的具有图结构状态空间的环境。我们将此任务表述为强化学习问题,其中“探索”特工因过渡到以前未见过的环境状态而受到奖励,并使用图形结构化的内存来编码特工的过去轨迹。实验结果表明,我们的方法对于探索空间图非常有效;并且当解决领域特定程序和实际移动应用程序的覆盖率指导的软件测试所面临的挑战性问题时,它的性能要优于人类专家人工设计的方法。
论文目录: