ICLR 2020 会议召开进入倒计时。
但AI科技评论 「ICLR 系列直播」仍不间断,且频次逐渐加大。
为满足各位同学的需求,本周五我们将举办两场直播……嗯,都是大神团队!
1.
在4月24日(本周五)上午10:00整,我们将推出马腾宇等人在 ICLR 2020 上发表工作的直播分享。分享嘉宾为罗雨屏博士,来自普林斯顿大学,Sanjeev Arora 教授的学生,是马腾宇的直系师弟。这篇论文的三位作者分别来自普林斯顿大学、加州伯克利分校和斯坦福大学。
在4月24日(本周五)晚 20:00整,我们推出的直播分享,为国际著名学者陶大程教授团队发表在ICLR 2020 上的工作。
分享嘉宾为陶大程学生何凤翔博士,来自悉尼大学,目前是优必选悉尼大学人工智能中心成员。
直播主题:通过负采样从专家数据中学习自我纠正的策略和价值函数
直播时间:2020年4月24日(周五)上午 10:00 整
论文名称:Learning Self-correctable Policies And Value Functions From Demonstrations With Negative Sampling.
简介:普林斯顿大学计算机系在读博士,导师Sanjeev Arora 教授,研究方向为机器学习、强化学习。
摘要:模仿学习(imitation learning)初始化后再强化学习是一个能节约样本的解决复杂的控制任务的方法。然而从样例数据中学习会有一个严重的问题:协变量偏差,这会让学到的策略有复合误差。我们引入了保守推断价值函数这个概念,能保证得到一个自纠正的策略。我们设计了一个算法:负采样价值迭代,能够有效学出这样能保守推断的价值函数。负采样价值迭代能够在机器人模拟环境中纠正行为克隆策略的错误。我们还提出了一个算法,用负采样价值迭代来初始化强化学习,该算法对比之前的算法,样本效率有了明显的提升。
直播时间:2020年4月24日(周五)晚 20:00 整
论文:Piecewise Linear Activations Substantially Shape the Loss Surfaces of Neural Networks
简介:澳大利亚悉尼大学一年级博士生,优必选悉尼大学人工智能中心成员,师从陶大程院士。研究方向为机器学习理论及其应用。
摘要:神经网络损失曲面几何结构极其复杂,但可能是深度学习理论的基础。讲者将分享最新的研究成果,分析分段线性激活函数如何塑造神经网络损失曲面。
扫码关注[ AI研习社顶会小助手] 微信号,发送关键字“ICLR 2020+直播”,即可进群观看直播和获取课程资料。
疫情拉开了大家的距离,但是学术交流是不会就因为疫情被阻挡的,我们愿架起这座学者之间的桥梁,以最短路径,让更多学者能更快的参与其中,促进学术交流,让知识真正流动。为此,AI科技评论出品【ICLR 2020】专题,约你“云参会”!