作者:加拿大多伦多 indus.ai 公司的机器学习工程师 George Seif
谷歌AI团队终于发布了AutoML的测试版,一些人说这项服务将完全改变我们搞深度学习的方式。
谷歌的AutoML是一种新的云软件套件,包含诸多机器学习工具。它基于谷歌在图像识别领域最先进的研究成果:神经架构搜索(NAS)。NAS实际上是一种算法,如果为它馈送特定的数据集,它就能搜索针对该数据集执行某项任务效果最佳的神经网络。AutoML还是一套机器学习工具,让用户可以轻松训练高性能深度网络,无需用户对深度学习或AI有所了解,你只需要标记数据!谷歌将使用NAS找到最适合你特定数据集和任务的网络。谷歌已经表明了它的方法如何获得远胜于手动设计的网络的性能。
AutoML完全改变了整个机器学习领域,因为对于许多应用而言,根本不需要专业技能和知识。许多公司只需要深度网络就可以完成较简单的任务,比如图像分类。那样它们就不需要聘请5名机器学习博士,只需要能处理移动和组织数据这项任务的人员。
如此说来,AutoML是让任何公司或个人都能轻松搞AI的致胜法宝吗?!
别这么快下结论。
想使用谷歌的AutoML用于计算机视觉,每小时需要花费20美元。这也太贵了!在花钱试用之前,你甚至无法确信会获得比自己手动设计的网络高得多的准确性。在过去,无论是在谷歌还是在AI社区,大家都偏爱开源,能够与所有人共享知识,谷歌怎么靠这项专有技术来赚钱倒值得拭目以待。
这正是谷歌的AutoML会失败的地方:开源。
这时候AutoKeras(https://github.com/jhfjhfj1/autokeras)闪亮登场,这个开源的python软件包是用非常易于使用的深度学习库Keras编写的,它由德州农工大学的数据实验室(DATA LAB)开发的。AutoKeras使用ENAS(https://arxiv.org/abs/1802.03268),这是一种高效的、最新的神经架构搜索方法。你只要使用pip install autokeras,就可以快速轻松地安装软件包,之后就可以针对自己的数据集执行自己的架构搜索,而且免费。
由于所有代码都开源,如果你想做一些定制工作,甚至可以调整一些参数。它完全用Keras编写,所以代码易于理解和钻研,让开发人员可以快速创建准确的模型,让研究人员可以更深入地钻研架构搜索方法。
AutoKeras拥有优秀的开源项目应具备的所有要素:快速安装、易于运行、大量示例、易于修改,甚至可以看到NAS最终发现的网络模型!如果你更喜欢TensorFlow或Pytorch,这里(https://github.com/melodyguan/enas)和这里(https://github.com/carpedm20/ENAS-pytorch)也有相应的资源!
我绝对建议试一试AutoKeras或任何其他实现版本,AutoML的这个替代者的费用便宜得多。也许谷歌正在AutoML的底层为开源内容做更多的工作,但考虑到NAS模型和手动设计的模型之间的性能差异非常小,我怀疑人们会为了只高出一点的性能愿意支付这么高的价格。
深度学习和AI是非常强大的技术,我们不应该设立这么高的付费墙把它隐藏起来。是的,谷歌、亚马逊、苹果、Facebook和微软都是需要赚钱才能生存和竞争的企业。可是在当前研究论文公开,我们有深度学习库可以用来快速复制方法的形势下,明明很容易开源,却试图阻止人们使用并不明智。
这里还有一个可能更重大的问题:知识本身被隐藏起来。AI领域近期的其中一个可喜的动向就是,研究界大多数人士决定在Arxiv之类的网站上迅速公布工作成果,与业界人士共享、征求反馈。更重要的是,越来越盛行的趋势是,将研究代码发布在Github上供复制,在研究和实际应用中进一步使用算法。不过,我们还是看到这类研究成果被藏在付费墙后面保护起来。
共享科学知识有助于进步,并促进所有人的总体知识。有一点是可以肯定的:知识应该是开源的,这样对所有人来说更有利。