每日三篇 | 可视化神经网络损失曲面;BN层原理;频率无关词嵌入

2018 年 12 月 12 日 论智

1

Visualizing the Loss Landscape of Neural Nets

Hao Li、Zheng Xu、Gavin Taylor、Christoph Studer、Tom Goldstein等在NIPS 2018上发表了可视化神经网络损失曲面的工作,通过可视化方法揭示了神经网络架构设计(例如跳层连接)和训练参数选择的作用。

地址:http://papers.nips.cc/paper/7875-visualizing-the-loss-landscape-of-neural-nets

2

How Does Batch Normalization Help Optimization?

虽然BN(批归一化)现在已经是很常用的神经网络构件,但是关于它的理论研究其实还不怎么充分。提出BN的论文标题为Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批归一化:通过降低内部协方差偏移加速深度网络训练),但是BN降低内部协方差偏移这个观点很多人不怎么认可。MIT的Shibani Santurkar、Dimitris Tsipras等在NIPS 2018上口头报告的这篇论文主张,BN非但没有降低内部协方差偏移,反而增加了内部协方差偏移。BN之所以有效,是因为BN使损失平面更平滑了,和内部协方差偏移无关。

地址: http://papers.nips.cc/paper/7515-how-does-batch-normalization-help-optimization

3

FRAGE: Frequency-Agnostic Word Representation

这项在NIPS 2018发布的北大和微软亚洲研究院的合作研究指出,当前在多种任务上学习到的词嵌入存在词频偏差:语义上相似的罕见词和常见词在嵌入空间中的距离可能很远。他们提出了一种简单而有效的对抗训练方法,通过模糊高频词嵌入和低频词嵌入的界限缓解这一问题。该方法在词相似性、语言建模、机器翻译、文本分类等自然语言处理任务上取得了超越基线的表现。

地址:http://papers.nips.cc/paper/7408-frage-frequency-agnostic-word-representation

星标 论智,每天获取最新资讯

登录查看更多
23

相关内容

非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
102+阅读 · 2020年6月28日
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
专知会员服务
73+阅读 · 2020年5月21日
专知会员服务
19+阅读 · 2020年3月29日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
多伦多大学“神经网络与机器学习导论(2018年春季)
人工智能头条
14+阅读 · 2018年4月3日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
最近流行的激活函数
计算机视觉战队
6+阅读 · 2017年11月27日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关论文
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
8+阅读 · 2018年1月19日
Top
微信扫码咨询专知VIP会员