13小时2600赞,特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

2019 年 4 月 26 日 专知

【导读】Andrej Karpathy是特斯拉自动驾驶神经网络主管,曾是李飞飞的徒弟。他今天发布了博客《A Recipe for Training Neural Networks》介绍了神经网络训练的各种技巧,在Twitter上仅13小时就获得了2600+赞和833转发。


Andrej Karpathy是特斯拉自动驾驶神经网络主管,曾是李飞飞的徒弟。他的主页上有关于他经历的介绍:

2017-now: Director of AI at Tesla Neural Networks for the Autopilot 
2016-2017: Research Scientist at OpenAI Deep Learning, Generative Models, Reinforcement Learning 
Summer 2015: DeepMind Internship Deep Reinforcement Learning group 
Summer 2013: Google Research Internship Large-Scale Supervised Deep Learning for Videos 
2011-2015: Stanford Computer Science Ph.D. student Deep Learning, Computer Vision, Natural Language Processing. Adviser: Fei-Fei Li. 
Summer 2011: Google Research Internship Large-Scale Unsupervised Deep Learning for Videos 
2009-2011: University of British Columbia: MSc Learning Controllers for Physically-simulated Figures. Adviser: Michiel van de Panne 
2005-2009: University of Toronto: BSc Double major in Computer Science and Physics 


Andrej Karpathy今天发布了博客《A Recipe for Training Neural Networks》:

https://karpathy.github.io/2019/04/25/recipe/


《A Recipe for Training Neural Networks》大致目录如下:

  • 掌握数据

  • 建立端到端训练/评价框架和哑基准线

    • 固定随机种子

    • 简化

    • 在评估中添加重要数字

    • 在初始阶段验证损失

    • 初始化

    • 人类基准线

    • 设置一个独立于输入的基准线

    • 过拟合一个batch

    • 验证减少训练损失

    • 网络传播前可视化

    • 可视化预测动态

    • 使用反向传播来获得依赖关系:

    • 泛化特例

  • 过拟合

    • 选择模型

    • Adam是安全的

    • 一次只复杂化一个

    • 不要相信学习率衰减默认值

  • 正则化

    • 获取更多数据

    • 数据增强

    • 有创意的增强

    • 预训练

    • 坚持监督学习

    • 更低的输入维度

    • 更小的模型

    • 减小批尺寸

    • Dropout

    • 权重衰减

    • 早停法

    • 尝试大模型

  • 调参

    • 随机网格搜索

    • 超参优化

  • 继续压榨

    • 集成

    • 放着让它训练


请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“RTNN”就可以获取《A Recipe for Training Neural Networks》下载链接~


原文截图:


参考资料:

https://karpathy.github.io/2019/04/25/recipe/


-END-

专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!530+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
18

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
10分钟搞懂反向传播| Neural Networks #13
AI研习社
3+阅读 · 2018年1月7日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
单线程cpu1小时收敛的赛车自动驾驶训练
CreateAMind
5+阅读 · 2017年7月24日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
相关资讯
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
10分钟搞懂反向传播| Neural Networks #13
AI研习社
3+阅读 · 2018年1月7日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
单线程cpu1小时收敛的赛车自动驾驶训练
CreateAMind
5+阅读 · 2017年7月24日
Top
微信扫码咨询专知VIP会员