新智元原创
作者:张易
【新智元导读】AI 领域人才难求,收入水平水涨船高。那么,作为刚刚接触或打算进军AI 和机器学习领域的开发者们,又应该如何在这一领域起步呢?英特尔从他们对人工智能的理解、机器学习的工作流、AI 在一些领域的发展状况等几个方面给出了一些相关的见解和建议。
前两天,新智元报道了美国雇主评价网站 Glassdoor 公布的一份2017年度 “美国薪酬最高企业 Top 25”,其中显示,AI公司多数职位年薪超10万美元。
在 Glassdoor 网站上,可以看到,根据员工匿名提交的16个报告估计的人工智能从业者的薪酬范围,平均薪酬总额(包括基本薪资、奖金等)超过10万美元的职位有人工智能研究科学家、人工智能工程师主管、人工智能与过程控制主管、高级人工智能工程师等,其他职位的平均薪酬总额也在61k~93k美元之间。
国内的AI 相关职位薪酬如何?我们来看一份几家主流招聘网站上 AI 相关技术岗位的抓取结果:
在总共231份样本中,年薪60万人民币以上的职位达到了56个。
可以看到,AI相关的技术岗位中,30万-60万的年薪占据主流。在所有 231 份样本数据中,只有24份年薪在 30万以下。其中,30-60万年薪88份,60-100万25份,100万以上年薪31份,年薪面议63份。这里还有一个局限在于,很多年薪数百万的岗位不会被猎头发布出来。
上图显示,AI领域目前在招的初级岗位较多,行业很缺资深人士。231份招聘岗位需求中:1-3年工作经验要求占比62%,4-5年的21.7%,6-10年只占比15.8%。
AI 领域人才难求,收入水平水涨船高。那么,作为刚刚接触或打算进军AI 和机器学习领域的开发者们,又应该如何在这一领域起步呢?针对这个很多开发者都比较关注的问题,英特尔软件与服务事业部在其 AI 开发者社区里分享了几篇文章,给出了一些相关的见解和建议。
首先,英特尔介绍了它自己对于人工智能的理解,认为人工智能是一种解决方案。
站在开发者的角度上,我们不妨暂时抛开 AI 丰富的内涵,借用一下英特尔对AI 的定义。英特尔并未将人工智能看作最终结果和定义人类理解能力的方式,而是将其视为解决人类问题的计算工具。英特尔认为人工智能的目标并不是要定义实现人类智能水平需要哪些条件,或必须要让机器通过某些基准的“智能”水平测试,而是要采取四个步骤:感知、推理、行动、适应,即对输入进行分析(感知),得出结果(推理);然后根据结果选择适当举措(行动),并根据实施成效改进输入的收集和选择方式,进而改进针对这些输入的计算(适应)。
英特尔这一四步走方案不同于那些大费周章,旨在确定机器是否具备人类智能水平的方案,它可满足开发者通过编程创建出色的人工智能解决方案的所有需求。
尽管人们对人工智能有很多不同看法,而且实现人工智能的技术也是多种多样,但机器智能的关键在于,它必须能够感知、推理和行动,然后再根据经验进行适应。
感知—从大量数据中发现和识别有意义的对象或概念。比如识别出交通信号灯;判断组织是肿瘤还是正常组织。
推理—了解更大范围的背景环境信息,并制定实现目标的计划。如果目标是避免碰撞,汽车必须根据车辆行为、距离、速度和路况计算碰撞的可能性。
行动—推荐出或直接启动最佳的行动方案。根据车辆和路况的分析,汽车可以执行刹车、加速或准备安全机制等行动。
适应—最后,我们必须能够根据经验调整每个阶段的算法,对它们进行重新训练,使它们变得更智能。自动驾驶汽车的算法应该进行再训练,以识别更多盲点,考虑更多的环境变量,并根据以前的事件调整应对措施。
今天,人工智能的最大能力仍处于“感知”阶段,同时其在推理和行动方面的能力也在持续增强。它使用的多数技术都涉及到数学或统计算法,包括回归、决策树、图论、分类、聚类等。然而,有一种深度学习算法正在快速兴起,它能利用深度神经网络模拟人类大脑神经元的基本功能。英特尔指出,机器学习和深度学习,是今天的开发者让机器能够具备智能或执行人工智能的两种主要方式。
在机器学习中,学习使用算法基于数据构建模型,并随着数据量的增加而不断改进。机器学习有四种主要类型:监督式学习、非监督式学习、半监督式学习和强化学习。在监督式机器学习中,算法通过处理和分类大量的标记数据来学习如何识别数据。在非监督式机器学习中,算法能够以超过人类大脑的速度,快速识别大量未标记数据中的模式和类别。
深度学习是机器学习的一个子集,是指多层神经网络从大量数据中进行学习。
根据英特尔对人工智能的理解,即它要能感知、推理和行动,然后根据经验进行适应。但它运作起来到底是什么样子呢?下面是英特尔分享的机器学习在通常状况下的工作流:
数据采集—首先,您需要大量数据。这些数据来源有很多,包括可穿戴设备中的传感器以及其他设备,还有云和 web。
数据聚合和管理—收集数据后,数据科学家将对数据进行聚合和标记(在监督式机器学习中)。
模型开发—接下来,将数据用于开发模型,然后对其进行精确度训练并针对性能进行优化。
模型部署和评分—将模型部署在应用中,用于针对新数据进行预测。
使用新数据产出的结果做更新—随着数据量的增加,模型的精细度和准确度将得到不断优化。例如,在自动驾驶汽车的行驶过程中,应用将通过传感器、GPS、360 度视频捕捉等功能获取实时信息,然后使用这些信息来更好地预测即将发生的场景。
根据这些定义和理解,针对开发者应该从哪个领域着手这个问题,英特尔给出了一些建议,原文如下:
医疗行业
影像分析 – 医疗初创公司正在努力开发能帮助解读X 射线、MRI、CAT 等生成的医疗影像的技术。
Dulight* – 这是一种可穿戴设备,可帮助视障人士识别食物、货币等。
汽车领域
自动驾驶汽车 – 人工智能可帮助自动驾驶汽车识别路标、行人及其他车辆。
车载信息娱乐 – 改进的语音识别功能可帮助司机更有效地与音乐、地图等功能或应用进行交互。
工业
维修和维护 – 人工智能系统可预测维修需求,并改进预防性的维护。
精准农业 – 借助高效的施肥方法,人工智能可帮助提升农作物产量,优化其上市时间。
销售和上市时间 –人工智能可预测出在一年的不同时节,产品在特定地区的销售速度和销量,以及从效率的角度出发,推测出在特定时间,是要将产品转化为库存,还是应该直接发运给客户。
体育产业
提高竞技表现 – 人工智能系统可帮助指导运动员加强锻炼、保持营养均衡以及提高竞技技能。
预防伤病 – 用于改善器材设计,优化战略战术,甚至预测规则的要求,以保障运动员的安全。
金融
创建算法以处理投资产品组合,执行股票交易等。
英特尔认为人工智能领域的扩展意味着开发者可以将自己在人工智能领域的知识,运用到其感兴趣的行业中。当其在探索人工智能的世界时,要认真思考一下自己感兴趣的其他领域有哪些,以及如何以有意义的方式,使用人工智能为该领域做出贡献。在这方面,创意是永无止境的。
对于开发者来说,选择一个合适的开源深度学习框架也能够大大降低进入 AI 世界的门槛。比如英特尔的 BigDL,对于现在已经比较熟悉大数据,特别是数据分析应用的开发者们来说,就是一个不错的选择。
BigDL 是针对ApacheSpark的分布式深度学习库。使用BigDL,用户可以像编写标准的Spark程序那样来编写深度学习应用程序,并可以直接运行在现有的 Spark 或Hadoop 集群之上。
BigDL全面支持深度学习,包括(通过Tensor)数值计算和高层次的神经网络;此外,用户可以使用BigDL加载预先经过培训的Caffe或Torch模型到Spark 程序中。
为实现高性能,BigDL在每个Spark任务内使用英特尔MKL和多线程的编程。因此,它比原封不动的开源Caffe,Torch或单节点至强处理器上的TensorFlow性能上有数量级的提升(可以比拟主流GPU的性能)。
BigDL可以有效地横向扩展,以匹配“大数据规模”的能力执行数据分析,因为它有效利用了Apache Spark(闪电般快速的分布式的数据处理框架),有效实施了Spark上的同步SGD和 all-reduce通信。
人工智能正快速为各行各业带来革新,并日益成为重要的竞争优势之源。对于有志于这个领域的人来说,不论是寻找相关的技术工作职位,还是准备自己创业,现在都是最好的时机。
3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。
点击阅读原文,查阅文字版大会实录
访问以下链接,回顾大会盛况:
阿里云栖社区:http://yq.aliyun.com/webinar/play/199
爱奇艺:http://www.iqiyi.com/l_19rrfgal1z.html
腾讯科技:http://v.qq.com/live/p/topic/26417/preview.html