新智元报道
来源:ZDNet
编辑:元子
传统机器学习正在凸显它的不足。
传统的机器学习研究模式需要获取特定任务的大型数据集,然后利用这个数据集从头开始训练模型。面对数据量不足的新任务时,这种方式显然无法胜任。
如何使神经网络不仅能够从一个学习任务,概括到另一个学习任务?而且随着时间的推移,不断提高通用新任务的概括能力?
最近,伯克利大学人工智能实验室,Sergey Levine教授和同事切尔西·芬恩博士、领先的机器学习理论专家Sham Kakade及其学生、华盛顿大学的Aravind Rajeswaran,进行了一些非常有趣的工作。
Levine教授多年来一直致力于将机器人技术,更多地转向一种综合“学习”方法:即让机器人或智能体,学会“学习”(Learning to learn),即“元学习”。
元学习中,神经网络在某种意义上是对某些任务进行预先训练的,然后允许它实现一种技能转移,使用新的、不同于训练好的数据进行测试。此举的目标,是训练计算机能够处理前所未有的新任务。
要完成我们开头描述的新挑战,需要将所需的数据量尽可能的减少,以应对神经网络面临的一些新任务,例如可能没有大量可用的训练数据,或者没有大量已标记的训练数据。
在arXiv的一篇“在线元学习”论文中,作者描述了实现的可能性。(链接地址在文末)。与在线元学习并行的是,计算机正在学习如何及时扩展其对实例的理解,从某种意义上提高其理解能力。
此项研究已经与Levine的其他工作相呼应,例如哪些更接近机器人技术本身的成果。
在线元学习的诞生之前,Levine和他的团队在2017年开发了一个广泛的系统,称为“模型无关的元学习(MAML)”。
这种方法可以匹配任何使用梯度下降算法训练的模型,并能应用于各种不同的学习问题,如分类、回归和强化学习等。
但MAML有一个弱点:它的概括能力在初始预训练后基本停止,随着时间的推移,失去了适应能力。
为了解决这个问题,作者借鉴了另一条长长的研究线索:在线学习。
在线学习中,神经网络通过比较每个新任务的参数中,不同的可能设置之间的差别,来进行不断优化。
该神经网络寻求以这种方式找到其参数的解决方案,将任务的实际性能与最佳性能之间的差异,即最小化“regret”。
作者提出了“follow the meta-leader”算法,这是一个将“元学习”这个术语与最成功的“在线学习”算法相结合的词汇。
值得一提的是,“follow the leader”的,最早是在20世纪50年代,Jim Hannan为博弈论领域。
智能体被赋予一系列任务,这些任务在一轮又一轮不断的进行。例如经典MNIST数据集中的数字图像,或者对场景中的对象执行“姿势预测”,或对物体进行分类。
每轮结束之后,智能体试图通过fine-tune,使得其随时间发展的权重或参数,达成regret最小化的目的。
而所有这一切都通过经典的神经网络优化方法,随机梯度下降来实现。作者将这些任务与先前的方法相比后,展示了了一些令人印象深刻的基准测试结果。
论文最后得出的观点是:这种方法在某种意义上说,是站在一种更偏自然过程的角度,来实现理想的现实世界学习过程,因为它包含“与不断变化的环境相互作用的智能体”。
正如作者提到,这个事实“应该利用流算法的经验来掌握手头的任务,并且在未来学习新任务时变得更加熟练。”
但是,万事都不是完美的。在线元学习也有一些弱项,算力就是一个非常典型的例子。
将来需要进行一些改进以维护过去任务的数据,从而得出一些使用“更便宜算力”的算法。
可扩展性也是一个非常大的问题。作者说虽然这种方法可以有效地按顺序,学习近100项任务而不会对计算或内存造成重大负担,但可扩展性仍然是一个问题。
而像mirroe下降这样,不能存储所有过去经验的流算法,是否能成功也是一个未知数
在线元学习论文:
https://arxiv.org/abs/1902.08438
参考链接:
https://www.zdnet.com/article/a-berkeley-mash-up-of-ai-approaches-promises-continuous-learning/
【加入社群】
新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号:aiera2015_2 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名 - 公司 - 职位;专业群审核较严,敬请谅解)。