【直播】马腾宇，陶大程在 ICLR 2020 上做了什么研究？

2020 年 4 月 23 日 AI科技评论

ICLR 2020 会议召开进入倒计时。

但AI科技评论「ICLR 系列直播」仍不间断，且频次逐渐加大。

为满足各位同学的需求，本周五我们将举办两场直播……嗯，都是大神团队！

在4月24日（本周五）上午10:00整，我们将推出马腾宇等人在 ICLR 2020 上发表工作的直播分享。分享嘉宾为罗雨屏博士，来自普林斯顿大学，Sanjeev Arora 教授的学生，是马腾宇的直系师弟。这篇论文的三位作者分别来自普林斯顿大学、加州伯克利分校和斯坦福大学。

在4月24日（本周五）晚 20:00整，我们推出的直播分享，为国际著名学者陶大程教授团队发表在ICLR 2020 上的工作。分享嘉宾为陶大程学生何凤翔博士，来自悉尼大学，目前是优必选悉尼大学人工智能中心成员。

直播内容介绍如下：

【直播一】

直播主题：通过负采样从专家数据中学习自我纠正的策略和价值函数

直播时间：2020年4月24日（周五）上午 10:00 整

论文名称：Learning Self-correctable Policies And Value Functions From Demonstrations With Negative Sampling.

分享人：罗雨屏博士

简介：普林斯顿大学计算机系在读博士，导师Sanjeev Arora 教授，研究方向为机器学习、强化学习。

摘要：模仿学习（imitation learning）初始化后再强化学习是一个能节约样本的解决复杂的控制任务的方法。然而从样例数据中学习会有一个严重的问题：协变量偏差，这会让学到的策略有复合误差。我们引入了保守推断价值函数这个概念，能保证得到一个自纠正的策略。我们设计了一个算法：负采样价值迭代，能够有效学出这样能保守推断的价值函数。负采样价值迭代能够在机器人模拟环境中纠正行为克隆策略的错误。我们还提出了一个算法，用负采样价值迭代来初始化强化学习，该算法对比之前的算法，样本效率有了明显的提升。

【直播二】

直播主题：分段线性激活函数塑造了神经网络损失曲面

直播时间：2020年4月24日（周五）晚 20:00 整

论文：Piecewise Linear Activations Substantially Shape the Loss Surfaces of Neural Networks

主讲人：何凤翔博士

简介：澳大利亚悉尼大学一年级博士生，优必选悉尼大学人工智能中心成员，师从陶大程院士。研究方向为机器学习理论及其应用。

摘要：神经网络损失曲面几何结构极其复杂，但可能是深度学习理论的基础。讲者将分享最新的研究成果，分析分段线性激活函数如何塑造神经网络损失曲面。

如何参加？

扫码关注[ AI研习社顶会小助手] 微信号，发送关键字“ICLR 2020+直播”，即可进群观看直播和获取课程资料。

疫情拉开了大家的距离，但是学术交流是不会就因为疫情被阻挡的，我们愿架起这座学者之间的桥梁，以最短路径，让更多学者能更快的参与其中，促进学术交流，让知识真正流动。为此，AI科技评论出品【ICLR 2020】专题，约你“云参会”！

阅读原文，直达“ICLR 2020”专题。

登录查看更多

相关内容

陶大程

关注 0

陶大程，澳大利亚科学院院士、新南威尔士皇家学院院士、京东探索研究院院长、ACM/AAAS/IEEE Fellow、欧洲科学院外籍院士、京东集团高级副总裁、悉尼大学数字科学研究所顾问兼首席科学家。连续7年入选科睿唯安“全球高被引科学家”；在 Guide2Research.com 评选的“计算机科学与电子学”类H指数最佳科学家排行榜上，世界排名第53。荣获IEEE Computer Society Edward J McCluskey技术成就奖、IEEE ICDM研究贡献奖、悉尼科技大学校长奖章和校长杰出研究贡献奖，两度荣获澳大利亚尤里卡奖，被《澳大利亚人报》列入“终身成就排行榜”。

【ICML2020】对比多视角表示学习

专知会员服务

53+阅读 · 2020年6月28日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

AAAI 2020最佳论文公布，华盛顿大学、AllenAI、NTU、清华、港大等斩获

专知会员服务

51+阅读 · 2020年2月8日