torcs强化学习的图像生成低纬表示重建效果 - 专知

会员服务 ·

0

torcs强化学习的图像生成低纬表示重建效果

2017 年 9 月 30 日 CreateAMind

在强化学习的问题中，策略网络学习到的是从状态空间到动作空间的映射。
状态空间和动作空间的大小决定了策略学习和探索的难易程度。
因此，高维的有噪音的图像作为状态输入之前需要有representation learning 的预训练的过程。首先训练一个神经网络将图像编码成有意义的低维隐变量，之后将这个训练好的网络嵌入到强化学习的策略网络之前处理图像数据。
VAE的编码器可以学习一个低维的隐变量，但是以像素级的重建误差作为损失函数，最后输出的图像真实度较低。考虑结合GAN，计算原始图像在discriminator 的某一层的输出和原始图像经过encoder->generator->discriminator 在同一层的输出的误差作为特征级重建误差。联合训练VAE和GAN。
以上训练的隐变量知识与图像相关，并不一定包含强化学习决策需要的信息，因此增加一个从隐变量到reward的输出，使隐变量也能包含强化学习需要的信息。

上图from commaai paper

commaai的生成模型进行生成torcs道路画面，左侧为生成图像，右侧为实际游戏图像，两个画面为一个epoch的1万次循环训练的效果，下面跨度98个epoch中挑选了部分图片；生成效果的显现很快，很快生成的图像变得很清晰，但是大概在60epoch左右图像开始变模糊，后又恢复。

1

2 出现天空

3

4

5 画面大结构出现

6

7 车的画面也生成了，右侧第一张

8

9

0

1

2

3

1

2 有些清晰了

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

招聘信息请公众号回复招聘

登录查看更多

1

相关内容

隐变量

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【论文笔记】基于自编码器的通用性文本表征

【论文笔记】基于自编码器的通用性文本表征

专知

7+阅读 · 2019年8月31日

GAN用于无监督表征学习，效果依然惊人……

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【学界】自动化所在高清真实图像生成领域获得新突破

【学界】自动化所在高清真实图像生成领域获得新突破

GAN生成式对抗网络

3+阅读 · 2018年9月27日

AI+安防前沿算法解读：在无监督数据的情况下，生成自然人体图像

AI+安防前沿算法解读：在无监督数据的情况下，生成自然人体图像

AI掘金志

4+阅读 · 2018年8月7日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Recurrent Fusion Network for Image Captioning

Recurrent Fusion Network for Image Captioning

Arxiv

3+阅读 · 2018年7月31日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

GANE: A Generative Adversarial Network Embedding

Arxiv

5+阅读 · 2018年5月21日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

相关主题

变分自编码

相关VIP内容

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【CVPR2020】我们能用强化学习来学习图模型推断的启发规则吗?

专知会员服务

43+阅读 · 2020年5月5日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

【DeepMind-Nando de Freitas】强化学习教程，102页ppt，Reinforcement Learning

专知会员服务

84+阅读 · 2019年11月15日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【论文笔记】基于自编码器的通用性文本表征

【论文笔记】基于自编码器的通用性文本表征

专知

7+阅读 · 2019年8月31日

GAN用于无监督表征学习，效果依然惊人……

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【学界】自动化所在高清真实图像生成领域获得新突破

【学界】自动化所在高清真实图像生成领域获得新突破

GAN生成式对抗网络

3+阅读 · 2018年9月27日

AI+安防前沿算法解读：在无监督数据的情况下，生成自然人体图像

AI+安防前沿算法解读：在无监督数据的情况下，生成自然人体图像

AI掘金志

4+阅读 · 2018年8月7日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

基于GAN的极限图像压缩框架

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Recurrent Fusion Network for Image Captioning

Recurrent Fusion Network for Image Captioning

Arxiv

3+阅读 · 2018年7月31日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

GANE: A Generative Adversarial Network Embedding

Arxiv

5+阅读 · 2018年5月21日

Improving GAN Training via Binarized Representation Entropy (BRE) Regularization

Arxiv

4+阅读 · 2018年5月9日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

大家都在搜

大型语言模型

久别重逢话双塔

国防科技创新

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员