昨日,我们跟大家分享了谷歌大脑负责人 Jeff Dean 在两年间回答了 26 个关于谷歌大脑和机器学习未来的一部分问题,本篇为下篇,将为你带来后续全部解答及看法。查看上篇请戳我。
转载自 AI 科技评论编译文章(公众号:AI科技评论)
谷歌大脑、DeepMind 、谷歌量子人工智能实验室( Quantum A.I. lab )三者之间的关系是怎么样的?尤其是:
三个团队之间的沟通和合作状况如何?
在决定路线图之类的大事的时候,你们会把其它团队的研究也作为考虑因素,还是你们就只是各做各的、不管别人?
我们没怎么和量子人工智能实验室合作过,原因是他们研究的东西和我们做的研究区别非常大。
我们和 DeepMind 一样,都有 “ 构建智能机器 ” 的研究远景,我们会关注对方的研究成果,我们也在很多不同的研究项目中有合作。比如,AlphaGo 项目一开始是一个谷歌大脑和 DeepMind 合作的研究项目( Chris Maddison 在谷歌大脑团队实习的时候发起的 ),后来 DeepMind 的研究员们在早期研究的基础上,加上了表现优秀而且非常重要的从自我对局中学习的强化学习的内容,把它发展成了一个真正的系统。
Continuous Deep Q-Learning with Model-based Acceleration 也是一项合作研究的成果。这里我不得不承认,伦敦和山景城之间的时差让深入的合作变得有点痛苦。谷歌大脑的成员经常去 DeepMind 那边访问,反过来也一样。还有 2016 年 DeepMind 从 Torch 更换为 TensorFlow 期间,好几位谷歌大脑的成员在 DeepMind 待了好几周,帮他们解决转换中的问题。
在机器学习运用于医疗保健方面,我们和 DeepMind 都有项目正在进行中,这样我们也就会定期开会仔细讨论研究路线图以及下一步怎么做。
所以总的来说,谷歌大脑和量子人工智能实验室之间:没什么合作。谷歌大脑和 DeepMind 之间:很多不同形式的合作。
在你们看来,谷歌大脑和 DeepMind 的区别在哪里?如果有人想加入其中一个,有哪些情况是他需要知道的吗?你们和 DeepMind 的合作多吗?
我们和 DeepMind 的合作和互动很多,具体可以看我刚才的回答。
如果要比一比的话,谷歌大脑和 DeepMind 的目标很相似,都是制造智能机器。肯定需要通过一定的研究才能达成目的,那么我们和 DeepMind 就在研究方式上有一些区别;不过我觉得两个团队的人做的工作都很精彩,也有一些互补之处。不同之处具体有下面这些:
DeepMind 倾向于在人为控制的环境中做大多数研究,这样的环境包括模拟电脑游戏或者围棋这样的比赛,相比之下谷歌大脑倾向于更多地在真实的、来自现实世界的问题和数据上进行研究。
对谷歌大脑来说,研究路线图是由研究员们各自的兴趣和大家一致认为有值得探索的登月式的领域共同决定的,因为我们觉得这样定下来的路线图能够给有智慧的机器带来新的能力。DeepMind 则是先决定制造一般意义上的有智慧的系统都需要解决哪些问题,然后根据这些问题形成自上而下的路线图。
我们更注重让世界级的机器学习研究者和世界级的系统工程师配合工作,这样能够大规模地解决困难的机器学习问题。建造大规模的工具和基础设施( 比如 TensorFlow )来支持我们自己的研究和整个研究生态、以及与谷歌的硬件设计团队一起协作,帮他们确认他们设计的硬件解决了正确的问题,也是我们的研究重点。
我们的办公地点在山景城,这就带来一个好处是可以和很多不同的产品团队紧密协作,把研究成果送到其它产品团队以及广大的谷歌用户手中。
DeepMind 的招聘流程和谷歌的招聘流程是各自独立的,而且也有比较大的不同。
说了这么多,不过你加入两个里的哪一个都很好,毕竟两个团队做的都是前沿的机器学习研究,也会对世界产生巨大的影响。
卷积深度学习网络模型需要消耗大量的电力和计算资源,比人类大脑的能源效率要低多了,这种状况也常常被人们作为 “ 应该多从人脑学习学习 ” 的理由。那么:
这样对比公平吗?如果公平的话,你觉得这种根本的区别是什么原因造成的?
能源效率是谷歌大脑团队目前的研究目标或者将来的研究目标之一吗?如果是的话,你可以说说对这个问题的其它方面的好点子吗?
Jeff Dean:
要说能源效率的话,生物大脑的能源效率确实比目前的机器要高得多,而且计算能力也要多好多。不过,这种区别差别其实没有表面上那么糟糕,原因是,真实的大脑需要差不多 20 年的时间来 “ 训练 ” ,相比之下,机器学习的研究人员就特别的没耐心,我们想只花一周就拿到结果。如果我们愿意让实验周期变成 20 年而不是一周的话,我们的能源效率也可以提升很多很多。不过显然我们更喜欢很短的实验周期,即便我们需要付出能源效率的代价。
你们觉得这个领域下一个最大的难关是什么?
目前我们倾向于建造能够完成一个或者很少的几个特定任务的机器学习系统( 有时候真的是解决了很难的问题,比如从一个语言翻译到另一种语言 )。我觉得我们真正需要建造的是,一个机器学习系统,然后它可以解决成千上万种不同的问题,而且可以从解决这些问题的经验中自动学习、解决新的问题;这个过程中模型内不同的部分是根据任务的不同而部分稀疏激活的。想清楚如何做这件事会遇到很多的困难。
你认为反向传播在未来 10 年内都还会是神经网络训练的主要算法吗?
我觉得是的。从 1980 年代到现在,反向传播都一直是神经网络训练的主要算法。很多人都试着找一些别的、效果更好的方法,然而反向传播还有如此的生命力,这就是它很可能继续保持重要地位的证据。
不过,随机梯度下降这样的优化神经网络的一阶方法很可能在未来10年内被别的什么东西取代掉。比如James Martens and Roger Grosse 发表的 Optimizing Neural Networks with Kronecker-factored Approximate Curvature 看起来就很有希望。
首先谢谢你们白忙之中抽出时间来做这次 AMA ,我们非常感激有这样的机会!作为一个爱好者,我发现接触神经网络训练最大的障碍不一定是知识,更多地可能是来自硬件上。我在自己的 MacBook 上用 CPU 训练模型慢得要命,而且那时候我没法用 NVIDIA GPU 。从我的角度看,一个爱好者要么需要自己有一块 GPU ,要么从 GCP 这样的云服务提供商那里租一块 GPU 来训练模型。那么:
对于数学科学家、开发者这样的最终用户来说,你觉得新 TPU 在价格和训练/推理速度方面是怎么样的?
你觉得机器学习硬件未来 5 年的发展如何?15 年呢?
用 NVIDIA 1080Ti 挖以太坊的矿工一个星期可以挣差不多 28 美元,在 AWS 上租同样的 GPU 算力要花 284 美元左右。你觉得有没有可能给 GPU 计算建立一个类似 AirBnB 的市场,把机器学习爱好者和游戏玩家/矿工们连接起来?
我们坚信,给机器学习研究者提供更多的计算资源能够让他们完成更多事情、尝试更多需要消耗计算力的点子,并且更快地进步。云TPU就会是一种很棒的按需购买的方式,让人们能够获得巨大的计算力。目前我们没有开始收费( 除了 TensorFlow Research Cloud ,它是供愿意公开研究成果的研究者们免费申请的 )。
我们觉得机器学习硬件在未来 5 到 10 年、乃至更长的时间内都会是一个非常有意思的领域。以后对更高的计算量会有更多的需求,为低精度的线性代数运算专门优化过的硬件也可以给今天的绝大多数深度学习模型带来更高的速度,所以创造为机器学习优化过的硬件会带来优秀的性能和更好的能源效率。有不少大公司和许许多多的创业公司都在这个领域内研究着不同的方案,很值得期待。专门优化过的硬件可以是用于靠电池供电的便携设备的超低功耗的机器学习硬件,也可以是大型数据中心里的机器学习超级计算机。
量子计算如果未来应用在机器学习中,你们觉得总的来说会是什么样的?对深度学习会有什么特别的影响吗?
我个人的想法是,中短期来讲( 比如未来 10 年内 )量子计算对深度学习基本不会有什么大的影响。对于其它的机器学习方法来说,量子计算有可能会有影响,如果机器学习方法可以利用量子计算的好处、然后以足够大的规模运行从而对实际问题做出大的改善的话。我觉得为了满足深度学习的需求而设计的新型硬件平台( 类似 TPU 这样的 )对深度学习的影响要大得多。不过我对量子计算也不算多懂啦。
机器学习的发展除了目前热门的深度学习、人工智能神经网络之外,还有哪些别的方面值得注意?
机器学习领域作为一个整体,在过去的五六年时间里表现出了惊人的成长速度。现在很多人都想学机器学习,NIPS 和 ICML 会场也是爆满,等等。深度学习当然是人们充满了兴趣的原因之一,不过当更多的人进入这个领域以后,更多的研究成果会出现,而且不仅限于深度学习。比如,强化学习、非凸函数的优化技巧、高斯过程、深度非凸模型的理解等等许许多多的领域也吸引了很多注意力。各种各样的用在机器学习问题中的计算机系统也吸引了许多兴趣,建造适用于机器学习的专用硬件也是( 由深度学习驱动的,不过这些硬件也很可能可以帮助其它类型的机器学习算法 )。
你们觉得差分隐私会在未来的机器学习研究中起到什么样的作用?
我们团队目前没有研究这个,不过我赞同这是一个很有意思的研究领域,也有很大的潜力。
顺便说点别的,我这几年读的书里有一本特别喜欢的《 Beyond Boundaries : The New Neuroscience of Connecting Brains with Machines and How It Will Change Our Lives 》,作者是 Miguel Nicolelis ,是杜克大学的神经科学家。我喜欢这本书有一个原因是因为这本书有点像他的实验室里过去二十年的大事记,而且每一章的实验和结果都越来越让人钦佩,看完了以后整个人都觉得 “ 天啊,5 年甚至 10 年以后这些东西都还是很精彩的 ” 。
你们觉得进化计算( 基因算法、神经进化、创造性研究等等 )未来有可能在商业/主流 AI 中得到使用吗?( 尤其是带有很多不可微的组件所以反向传播没办法用的那些问题里 )以及,深度学习按理来说要比以前的实现人工智能的方法更好,因为它本质上去掉了机器学习中的特征工程,可是我觉得这些工程方面的努力现在全都跑到了架构工程方面,我们看到很多人花时间用手工试错的方法找 CNN 、LSTM 、RNN 中的最优超参数。那我能不能这样想,在未来的某个时候,架构工程也会被某种系统化的方法取代?我觉得这件事本质上是不可微的,那么进化计算能在这个方面帮到忙吗?
我确实认为进化学习在未来会占有一席之地。实际上我们也已经开始尝试想要发现一些模型结构方面的革命性的方法( 不过现在还处在很早的阶段所以没有什么可以公开的结果 )。我觉得如果要让这些方法在大型的模型中也能发挥作用的话,可能需要庞大的计算能力才能支持。可以想想现在的模型训练,每轮训练在几百台计算机上花几天时间,这对我们的大模型都不是一件常见的事,那么给这种大小的模型做好几代的进化就肯定还会变得格外的困难。
你觉得机器学习会成为一个真正意义上的随拿随用的商用工具吗?门外汉可以从平台上选一种算法,然后用算法去跑他们的数据,就在 AWS 、TensorFlow 、Algorithimia 这样的可以随时部署的平台上这样。如果是的话,短期内就会到来吗?如果不是的话,为什么呢?
我觉得会的。在很多情况下,谷歌的机器学习研究员开发出了新的、有意思的算法和模型,它们可以很好地解决某一类问题。创造出这些新算法、新模型需要对机器学习有相当的知识和见解,但是一旦证明了这些新算法和模型可以在某个领域发挥很好的作用,那么把同一个整体方案拿来解决完全不同领域的相关问题往往是一件简单的事情。
另外,从研究的角度我觉得有一个很有潜力的领域是,在学习解决某些问题的时候,还能同时学到适当的模型结构的算法和方案。( 这和目前多数的深度学习研究都不一样,目前基本都是人类指定了要选用的模型结构,然后优化过程在确定的模型结构下调整里面的连接的权重,但是学习过程中并不会引入新的神经元或者新的连接 )。
如果我们能够开发出高效的模型来做这些事情的话,对基本没有机器学习知识的人来说就真的是开启了直接应用机器学习的大门。
你估计我们离通用 AI 还有多远?10 分是明天就到了,1 分是还有 50 年的话,1 到 10 分你打几分?
我打6分。不过我不想跟你们讨论这个评分是线性的还是对数的。
< 完 >
关于 EGO极客邦科技旗下的高端技术领导者社群,汇聚全国超过 400 位技术大牛,其中不乏「饿了么」、「知乎」、「同程旅游」、「得到」、「喜马拉雅」、「新浪微博」等著名企业的 CTO 及技术 VP 。EGO 致力于组建全球最具影响力的技术领导者社交网络,联结杰出的技术领导者学习和成长。
第二季会员招募现已结束,欢迎添加 E 小欧( EGOWinner )微信了解第三季会员招募及更多 EGO 详情。加入 EGO ,与更多技术领导者同侪学习。
点击「 阅读原文 」即刻报名!