特斯拉前AI总监变身网红，详解反向传播，引上万网友围观

会员服务 ·

特斯拉前AI总监变身网红，详解反向传播，引上万网友围观

2022 年 8 月 22 日 新智元

新智元报道

编辑：David 桃子

【新智元导读】特斯拉前AI总监离职后，在YouTube上开启教学路，连前boss都来推销他的课程了。

离开特斯拉后，Andrej Kalpathy摇身变成了一名网红老师。

如今，特斯拉前AI总监Kalpathy在YouTube上更新自己的视频，已经有1万多人订阅。

截至目前，他已经上传了5个视频，其中4个都是关于文本到图像生成模型演示视频。

其中，流量最高、最有影响力的便是长达2个半小时的讲课视频。

更新奇的是，连前boss马斯克都来推销他的视频了：「赶紧涨粉啊！」

2个半小时课程讲了啥？

作为自动驾驶领域技术大牛，他开的课可谓是干货满满。

就连Andrej Kalpathy本人称赞，这是8年来领域内对神经网络和反向传播的最佳讲解。

不仅自推，还在视频下方打起了赌：

只要你懂Python，对高中学过的求导知识有些印象的话，看完这个视频你就能够理解反向传播和神经网络核心要点。

要是不能的话，我就吃一只鞋。

说得这么神奇，快来看看这个课程上，Kalpathy传授了什么知识。

毕竟2个半时长，先来理清下整个视频中关键part：

他先对micrograd进行了概述。micrograd是Kalpathy在2020年开源的一个项目，目前已经有2.3k星。

这是一个微型Autograd引擎，可以在动态构建的DAG上实现反向传播，并在其之上使用类PyTorch的API实现小型神经网络库。它们别分只用了100行和50行代码来构建。

然后，Kalpathy介绍了只有一个输入的简单函数的导数、具有多个输入的简单函数的导数、启动 micrograd 的核心Value对象及其可视化的方法，同时还举了2个手动反向传播的例子。

从1小时10分开始，Kalpathy又介绍了：

为单个操作实现反向传播

为整个表达式图实现反向函数

修复一个节点多次出现的反向传播错误

使用更多操作替换tanh激活函数

用PyTorch实现上述操作，并与micrograd进行比较

用 micrograd 构建一个神经网络库 (MLP)

创建一个微型数据集，编写损失函数

收集神经网络的所有参数

手动做梯度下降优化，训练网络

最后，Andrej Kalpathy做了一个课堂总结，此外还探究了PyTorch中tanh激活函数的反向传播机制。

对于Andrej Kalpathy回归，网友纷纷表示称赞。

很开心你能再次回到教学模式，你的CS231n绝对是一个非常出色的课程。它和吴恩达的Coursera课程是我们早期向所有学生推荐的2个主要课程。

李飞飞高徒

这位Andrej Karpathy，是一个不折不扣的技术大牛。之前他就是马斯克亲自出马，从OpenAI挖到特斯拉的。

在今年7月宣布从特斯拉离职之前，一共在特斯拉干了5年多，在职期间全面执掌特斯拉自动驾驶业务，直接向马斯克汇报。

Karpathy师出名门，在2009年于多伦多大学获得计算机科学和物理学双专业学士学位，而后在2011年于英属哥伦比亚大学获得硕士学位，研究是物理模拟数字的控制器。

在斯坦福读博的时候，Karpathy师从李飞飞，共同研究卷积/递归神经网络架构及其在计算机视觉、自然语言处理及其交叉领域的应用。

师徒二人还一起设计了斯坦福大学的视觉识别卷积神经网络的新课（CS231n），Karpathy亲自担任首任主讲。

而这正是斯坦福开设的第一门深度学习课程！学生人数也从2015年的150名增长到2016年的330名，再到2017年的750名。

现在，斯坦福大学的CS231n已经成为深度学习初学者，尤其是CV方向的初学者必看的一门基础课。除了大牛李飞飞的「明星效应」，Karpathy从课程设计到出任主讲，亲力亲为，贡献良多。

上学期间，他还跑去谷歌实习了——两次，还是出国的那种，在谷歌参与了深度学习与计算机视觉项目。

2015年，他又去DeepMind的深度强化学习团队实习了一波。

毕业之后，Karpathy于2016年入职OpenAI并担任研究科学家，负责计算机视觉、生成建模和强化学习方面的深度学习。

「斯坦福博士生、李飞飞高徒、前OpenAI研究员及创始人之一」，这些头衔也让他在硅谷声名鹊起。

果然，在OpenAI只干了一年半，他就被马斯克挖去了特斯拉，接替苹果前高管 Chris Lattner，担任特斯拉人工智能和自动驾驶视觉总监（Director of AI and Autopilot Vision）。

由于Karpathy本人十分喜欢研究神经网络，他在闲暇之余写了不少技术博客，并在Javascript中开发了多个深度学习库（如ConvNetJS、RecurrentJS、REINFORCEjs、t-sneJS）。

甚至，还被戏称为ImageNet的「人肉参考」。

此外，他一有时间就会去维护自己「用爱发电」的arxiv-sanity，一个可以在过去6年里搜索和整理近10万篇关于机器学习arXiv论文的网站。

看起来，有些人对学术的热爱是刻在基因里的。从特斯拉离职刚刚一个月的Karpathy，此次重回Youtube开频道，上来就是一副要大办学术讲座的样子，也就丝毫不奇怪了。

最后，感兴趣的小伙伴们可以响应一下马院士的号召，去关注一波，毕竟现在Karpathy粉丝还不多，属于「初级网红」，以后真要是火起来，也能当个老粉呢。

不过话说回来，要想向马斯克说的涨粉最快，不如上传一段自己吃鞋的视频？

参考资料：

https://www.benzinga.com/news/22/08/28529260/whats-former-tesla-ai-director-andrej-kalpathy-up-to-these-days-and-elon-musk-is-rooting-for-his-for

登录查看更多

相关内容

反向传播

关注 354

反向传播一词严格来说仅指用于计算梯度的算法，而不是指如何使用梯度。但是该术语通常被宽松地指整个学习算法，包括如何使用梯度，例如通过随机梯度下降。反向传播将增量计算概括为增量规则中的增量规则，该规则是反向传播的单层版本，然后通过自动微分进行广义化，其中反向传播是反向累积（或“反向模式”）的特例。在机器学习中，反向传播（backprop）是一种广泛用于训练前馈神经网络以进行监督学习的算法。对于其他人工神经网络（ANN）都存在反向传播的一般化–一类算法，通常称为“反向传播”。反向传播算法的工作原理是，通过链规则计算损失函数相对于每个权重的梯度，一次计算一层，从最后一层开始向后迭代，以避免链规则中中间项的冗余计算。

【Manning2022新书】TensorFlow实战，680页pdf

专知会员服务

106+阅读 · 2022年10月9日

不可错过！CMU陈天奇等硬核课《深度学习系统：算法与实现》，附Slides与视频

专知会员服务

58+阅读 · 2022年10月6日

不可错过！2022伯克利新课-《全栈深度学习2022》课程视频及ppt免费分享

专知会员服务

89+阅读 · 2022年8月19日

【特斯拉 AI 高级总监 Andrej Karpathy最新博客】2055年深度神经网络会怎么样？:33年前DNN和33年后DNN，Deep Neural Nets: 33 years ago and 33 years from now

专知会员服务

11+阅读 · 2022年3月14日