每日论文 | 反向强化学习在电子游戏中的应用；用数学理论解释语义现象；在4k和8k视频上进行目标检测 - 专知

会员服务 ·

0

每日论文 | 反向强化学习在电子游戏中的应用；用数学理论解释语义现象；在4k和8k视频上进行目标检测

2018 年 10 月 27 日 论智

1

Inverse reinforcement learning for video games

深度强化学习在很多电子游戏中都超越了人类表现，但都需要人类手动设计一个奖励函数。通常，对目标行为做示范比设计奖励函数要容易。反向强化学习算法可以在低维连续控制环境中，从示范中推断出奖励，但在高维的视频游戏中，这种方法少有人用。在我们的CNN-AIRL基准环境中，我们对目前的对抗反向强化学习进行修正，用CNN作为生成器和判别器。为了稳定训练，我们对奖励进行正则化，并提高判别器训练数据集的尺寸。

地址：https://arxiv.org/abs/1810.10593

2

A mathematical theory of semantic development in deep neural networks

大量研究都解释了人类语义知识的获取、组织、应用和神经表示都有着显著的规律，所以这里有一个基本概念问题，即空针神经网络获取、组织、应用这些知识的能力是怎样的？为了解决这个问题，我们通过数学方法分析了深度线性网络在学习时的非线性活动，我们找到了对这些在语义认知中出现的各种现象的解释。

地址：https://arxiv.org/abs/1810.10531

3

Fast and accurate object detection in high resolution 4K and 8K video using GPUs

机器学习在计算机视觉上取得了很大成功，比如目标检测。但是传统的模型都是在相对较低的分辨率图像上完成的。随着设备的进步，出现了大量高分辨率的数据。我们提出了一种方法，对每张图像或视频进行两次状态评估，每个状态上我们会用YOLO v2进行快速目标检测。

地址：https://arxiv.org/abs/1810.10551

登录查看更多

3

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【斯坦福大学博士论文】统计模型的代数与机器表示，224页pdf

专知会员服务

34+阅读 · 2020年6月18日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

每日论文 | 进行精确目标检测的边界框回归新方法；让强化学习在动态系统上更稳定的方法；对图片进行端到端的人类姿势估计

每日论文 | 进行精确目标检测的边界框回归新方法；让强化学习在动态系统上更稳定的方法；对图片进行端到端的人类姿势估计

论智

7+阅读 · 2018年9月26日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

我用Python实现了12500张猫狗图像的精准分类

我用Python实现了12500张猫狗图像的精准分类

51CTO博客

4+阅读 · 2018年1月12日

【论文】深度学习的数学解释

【论文】深度学习的数学解释

机器学习研究会

10+阅读 · 2017年12月15日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

ViZDoom Competitions: Playing Doom from Pixels

ViZDoom Competitions: Playing Doom from Pixels

Arxiv

5+阅读 · 2018年9月10日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Face Detection Using Improved Faster RCNN

Arxiv

6+阅读 · 2018年2月6日

VIP会员

相关主题

逆强化学习

深度强化学习

相关VIP内容

【斯坦福大学博士论文】统计模型的代数与机器表示，224页pdf

专知会员服务

34+阅读 · 2020年6月18日

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约认知战概念报告》

《预测促成大规模货运无人机的技术趋势与影响》报告

美海军放弃星座级转而采用国家安全巡逻舰设计

《北约作战弹性概念》报告

相关资讯

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

每日论文 | 进行精确目标检测的边界框回归新方法；让强化学习在动态系统上更稳定的方法；对图片进行端到端的人类姿势估计

每日论文 | 进行精确目标检测的边界框回归新方法；让强化学习在动态系统上更稳定的方法；对图片进行端到端的人类姿势估计

论智

7+阅读 · 2018年9月26日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

我用Python实现了12500张猫狗图像的精准分类

我用Python实现了12500张猫狗图像的精准分类

51CTO博客

4+阅读 · 2018年1月12日

【论文】深度学习的数学解释

【论文】深度学习的数学解释

机器学习研究会

10+阅读 · 2017年12月15日

相关论文

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

ViZDoom Competitions: Playing Doom from Pixels

ViZDoom Competitions: Playing Doom from Pixels

Arxiv

5+阅读 · 2018年9月10日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Face Detection Using Improved Faster RCNN

Arxiv

6+阅读 · 2018年2月6日

大家都在搜

朱克爱德华兹家族

大型语言模型

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员