特斯拉前AI总监变身网红,详解反向传播,引上万网友围观

2022 年 8 月 22 日 新智元



  新智元报道  

编辑:David 桃子
【新智元导读】特斯拉前AI总监离职后,在YouTube上开启教学路,连前boss都来推销他的课程了。

离开特斯拉后,Andrej Kalpathy摇身变成了一名网红老师。

如今,特斯拉前AI总监Kalpathy在YouTube上更新自己的视频,已经有1万多人订阅。

截至目前,他已经上传了5个视频,其中4个都是关于文本到图像生成模型演示视频。


其中,流量最高、最有影响力的便是长达2个半小时的讲课视频。

更新奇的是,连前boss马斯克都来推销他的视频了:「赶紧涨粉啊!」


2个半小时课程讲了啥?


作为自动驾驶领域技术大牛,他开的课可谓是干货满满。

就连Andrej Kalpathy本人称赞,这是8年来领域内对神经网络和反向传播的最佳讲解。


不仅自推,还在视频下方打起了赌:
只要你懂Python,对高中学过的求导知识有些印象的话,看完这个视频你就能够理解反向传播和神经网络核心要点。

要是不能的话,我就吃一只鞋。


说得这么神奇,快来看看这个课程上,Kalpathy传授了什么知识。

毕竟2个半时长,先来理清下整个视频中关键part:

他先对micrograd进行了概述。micrograd是Kalpathy在2020年开源的一个项目,目前已经有2.3k星。


这是一个微型Autograd引擎,可以在动态构建的DAG上实现反向传播,并在其之上使用类PyTorch的API实现小型神经网络库。它们别分只用了100行和50行代码来构建。

然后,Kalpathy介绍了只有一个输入的简单函数的导数、具有多个输入的简单函数的导数、启动 micrograd 的核心Value对象及其可视化的方法,同时还举了2个手动反向传播的例子。

从1小时10分开始,Kalpathy又介绍了:

为单个操作实现反向传播
为整个表达式图实现反向函数
修复一个节点多次出现的反向传播错误
使用更多操作替换tanh激活函数
用PyTorch实现上述操作,并与micrograd进行比较
用 micrograd 构建一个神经网络库 (MLP)
创建一个微型数据集,编写损失函数
收集神经网络的所有参数
手动做梯度下降优化,训练网络

最后,Andrej Kalpathy做了一个课堂总结,此外还探究了PyTorch中tanh激活函数的反向传播机制。


对于Andrej Kalpathy回归,网友纷纷表示称赞。

很开心你能再次回到教学模式,你的CS231n绝对是一个非常出色的课程。它和吴恩达的Coursera课程是我们早期向所有学生推荐的2个主要课程。


李飞飞高徒


这位Andrej Karpathy,是一个不折不扣的技术大牛。之前他就是马斯克亲自出马,从OpenAI挖到特斯拉的。

在今年7月宣布从特斯拉离职之前,一共在特斯拉干了5年多,在职期间全面执掌特斯拉自动驾驶业务,直接向马斯克汇报。

Karpathy师出名门,在2009年于多伦多大学获得计算机科学和物理学双专业学士学位,而后在2011年于英属哥伦比亚大学获得硕士学位,研究是物理模拟数字的控制器。


在斯坦福读博的时候,Karpathy师从李飞飞,共同研究卷积/递归神经网络架构及其在计算机视觉、自然语言处理及其交叉领域的应用。

师徒二人还一起设计了斯坦福大学的视觉识别卷积神经网络的新课(CS231n),Karpathy亲自担任首任主讲。

而这正是斯坦福开设的第一门深度学习课程!学生人数也从2015年的150名增长到2016年的330名,再到2017年的750名。

现在,斯坦福大学的CS231n已经成为深度学习初学者,尤其是CV方向的初学者必看的一门基础课。除了大牛李飞飞的「明星效应」,Karpathy从课程设计到出任主讲,亲力亲为,贡献良多。


上学期间,他还跑去谷歌实习了——两次,还是出国的那种,在谷歌参与了深度学习与计算机视觉项目。


2015年,他又去DeepMind的深度强化学习团队实习了一波。

毕业之后,Karpathy于2016年入职OpenAI并担任研究科学家,负责计算机视觉、生成建模和强化学习方面的深度学习。

「斯坦福博士生、李飞飞高徒、前OpenAI研究员及创始人之一」,这些头衔也让他在硅谷声名鹊起。


果然,在OpenAI只干了一年半,他就被马斯克挖去了特斯拉,接替苹果前高管 Chris Lattner,担任特斯拉人工智能和自动驾驶视觉总监(Director of AI and Autopilot Vision)。


由于Karpathy本人十分喜欢研究神经网络,他在闲暇之余写了不少技术博客,并在Javascript中开发了多个深度学习库(如ConvNetJS、RecurrentJS、REINFORCEjs、t-sneJS)。

甚至,还被戏称为ImageNet的「人肉参考」。


此外,他一有时间就会去维护自己「用爱发电」的arxiv-sanity,一个可以在过去6年里搜索和整理近10万篇关于机器学习arXiv论文的网站。


看起来,有些人对学术的热爱是刻在基因里的。从特斯拉离职刚刚一个月的Karpathy,此次重回Youtube开频道,上来就是一副要大办学术讲座的样子,也就丝毫不奇怪了。

最后,感兴趣的小伙伴们可以响应一下马院士的号召,去关注一波,毕竟现在Karpathy粉丝还不多,属于「初级网红」,以后真要是火起来,也能当个老粉呢。

不过话说回来,要想向马斯克说的涨粉最快,不如上传一段自己吃鞋的视频?

参考资料:
https://www.benzinga.com/news/22/08/28529260/whats-former-tesla-ai-director-andrej-kalpathy-up-to-these-days-and-elon-musk-is-rooting-for-his-for


登录查看更多
0

相关内容

反向传播一词严格来说仅指用于计算梯度的算法,而不是指如何使用梯度。但是该术语通常被宽松地指整个学习算法,包括如何使用梯度,例如通过随机梯度下降。反向传播将增量计算概括为增量规则中的增量规则,该规则是反向传播的单层版本,然后通过自动微分进行广义化,其中反向传播是反向累积(或“反向模式”)的特例。 在机器学习中,反向传播(backprop)是一种广泛用于训练前馈神经网络以进行监督学习的算法。对于其他人工神经网络(ANN)都存在反向传播的一般化–一类算法,通常称为“反向传播”。反向传播算法的工作原理是,通过链规则计算损失函数相对于每个权重的梯度,一次计算一层,从最后一层开始向后迭代,以避免链规则中中间项的冗余计算。
【Manning2022新书】TensorFlow实战,680页pdf
专知会员服务
101+阅读 · 2022年10月9日
【经典书】线性代数,286页pdf
专知会员服务
125+阅读 · 2021年2月28日
【2020新书】Ruby 3 编程: 从小白到专家,598页pdf
专知会员服务
29+阅读 · 2020年12月17日
【新书】傻瓜式入门深度学习,371页pdf
专知会员服务
183+阅读 · 2019年12月28日
PyTorch 源码解读之 torch.autograd:梯度计算详解
极市平台
0+阅读 · 2022年6月23日
一文搞懂反向传播
机器学习与推荐算法
16+阅读 · 2020年3月12日
PyTorch 官方推荐了一份 60 分钟的深度学习指南
技术最前线
19+阅读 · 2019年10月17日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月22日
Arxiv
28+阅读 · 2021年9月18日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2019年9月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年11月22日
Arxiv
28+阅读 · 2021年9月18日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
15+阅读 · 2019年9月30日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
23+阅读 · 2017年3月9日
Top
微信扫码咨询专知VIP会员