Inverse reinforcement learning for video games
深度强化学习在很多电子游戏中都超越了人类表现,但都需要人类手动设计一个奖励函数。通常,对目标行为做示范比设计奖励函数要容易。反向强化学习算法可以在低维连续控制环境中,从示范中推断出奖励,但在高维的视频游戏中,这种方法少有人用。在我们的CNN-AIRL基准环境中,我们对目前的对抗反向强化学习进行修正,用CNN作为生成器和判别器。为了稳定训练,我们对奖励进行正则化,并提高判别器训练数据集的尺寸。
地址:https://arxiv.org/abs/1810.10593
A mathematical theory of semantic development in deep neural networks
大量研究都解释了人类语义知识的获取、组织、应用和神经表示都有着显著的规律,所以这里有一个基本概念问题,即空针神经网络获取、组织、应用这些知识的能力是怎样的?为了解决这个问题,我们通过数学方法分析了深度线性网络在学习时的非线性活动,我们找到了对这些在语义认知中出现的各种现象的解释。
地址:https://arxiv.org/abs/1810.10531
Fast and accurate object detection in high resolution 4K and 8K video using GPUs
机器学习在计算机视觉上取得了很大成功,比如目标检测。但是传统的模型都是在相对较低的分辨率图像上完成的。随着设备的进步,出现了大量高分辨率的数据。我们提出了一种方法,对每张图像或视频进行两次状态评估,每个状态上我们会用YOLO v2进行快速目标检测。
地址:https://arxiv.org/abs/1810.10551