编译:Bot
来源:Data Science Central
编者按:近年来,人工智能、大数据等概念一片火热,数据科学家超越传统程序员岗位,迅速在高薪榜单上占据一席之地。那么,数据科学究竟是什么?它和其他学科,如机器学习、数据挖掘等在本质上又有什么区别?为了解答这个问题,作者Vincent Granville早年写了一篇学科对比,虽然它们在应用中的界限往往很模糊,但这篇文章还是给出了一个较为客观的区分。
以下是论智对原文的编译:
数据科学、数据挖掘、机器学习、统计学、运筹学……它们的区别在哪里?
为了搞清这个问题,本文分析了一些交叉学科的差异和共同点,有时这些差异主要源于学科历史发展,有时它们又是真实而微妙。为了更清楚地做区分,我还列举了一些典型岗位及相关行业,以供各位读者参考。
首先,我想先谈谈什么是数据科学。
数据科学是一门新兴的学科,与之相关的工作岗位包括数据科学家(data scientist)、首席科学家(chief scientist)、高级分析师(senior analyst)、分析总监(director of analytics)等。它几乎涵盖了所有行业和领域,尤其是数据分析、搜索技术、市场营销、欺诈检测、天文学、能源行业、健康护理服务、社交网络、金融、法医学、国防、移动通信和天气预报。
鉴于数据科学应用面较广,它涉及的项目种类也十分丰富,有创建分类(文本挖掘、大数据)、大数据集群应用、推荐引擎、统计评分、根本原因分析、自动竞价、预知恐怖袭击或流行病等。无论是机器间端到端的通信,还是对生产模式的实时监控,数据科学已经成为自动化过程中不可缺少的重要工具。
和大多数其他分析行业不同,数据科学家被认为是一类集良好的商业头脑和深厚的专业领域知识于一身的人,这也是他们更倾向于成为企业家的原因之一。因为数据科学是一门十分宽泛的学科,数据科学家也有多种类型。一些高级数学科学家在多个领域钻研精深,并积累了大量深厚的、广泛的、专业的业务经验和学科技术,他们确实是招聘者可遇不可求的独角兽。但在现实中,比起这些知识面较广的人才,招聘主管和不明真相的企业高管往往更青睐切入点更狭窄的应聘者,而他们其实是现在高等教育的副产品——有利于建立学术孤岛。事实上,真正的数据科学是孤岛的破坏者。那些独角兽人才(如此描述可能不当,这个群体数量并不稀少,有些甚至顶着风险投资家的头衔)通常在公司中担任顾问和高管。而初级数据科学家则更专注于数据科学的某一个方面,结合在学校中学到的知识,用一些热门技术(Hadoop、Pig、Cassandra)解决一些实际问题。
计算机科学
计算复杂性、图论和网络拓扑、分布式体系结构(如Hadoop)、数据管道(数据流的优化和内存分析)、数据压缩、计算机编程(Python、Perl、R)以及处理传感器和流数据(设计自动驾驶汽车)。
统计学
实验设计、多变量测试、交叉验证、随机过程、采样和无模型置信区间,但不包括和大数据诅咒相关的p-value和模糊测试。
机器学习和数据挖掘
数据科学确实完全覆盖这两个领域。
运筹学
数据科学覆盖大部分运筹学知识,尤其是其中旨在优化数据分析作出决策的全部技术。
商务智能
设计/制造/识别绝佳指标和关键绩效指标、创建BI数据库、仪表盘设计和可视化效果、数据驱动战略、优化决策和投资回报率……这些都是数据科学涉及的内容。
机器学习
机器学习是一门非常流行的数据密集型计算机科学学科。它是数据科学的一部分,并和数据挖掘息息相关。机器学习的主要内容是设计算法(如数据挖掘),但它的重点在于为生产模式建立原型算法,帮助自动化系统(如报价、广告)不断自我更新,让它在不断训练、重复训练、更新训练集、交叉验证中发现新规则(欺诈检测)。Python现在是ML开发的主流语言。机器学习核心算法的具体应用包括聚类和监督分类、规则体系和评分技术,它有一个接近人工智能的子域——深度学习。
数据挖掘
数据挖掘是一门通过设计算法来从规模庞大、非结构化的数据集中提取信息(文本挖掘),并将之转换为可理解结构的学科。它也被称为挖矿(nugget discovery),比如当一个矿工挖完50万行数据后只挖到一大堆僵尸网络。数据挖掘涉及的技术一般包含模式识别、特征选择、聚类、监督分类和一些统计技术,它对找到原因或是一些具有解释性的信息没什么兴趣。因此,这门学科是数据科学内的一个组成部分,和统计学会有交叉,但更注重计算机工程应用,而不是数学科学。数据挖掘的矿工一般比较喜欢Rapid Miner之类的开源软件。
预测模型
预测模型本身并不是一门学科,它是预测分析中的一个过程,用于为将来的行为建立一个统计模型。它通常用统计模型基于过去的数据预测未来,但也有例外。预测分析是数据分析的一个分支,用于预测可能性和趋势,它的根在统计学。
统计学
统计学是一门应用广泛的学科,目前它常被应用在调查(通常是用SPSS软件进行)、理论学术研究、银行和保险业分析、统计编程、社会科学、全球气候问题、经济研究、临床试验(医药行业)、医学统计学、流行病学、生物统计学等领域。在美国,招收统计学专业毕业生的好单位主要是人口普查局、IRS、CDC、EPA、BLS、SEC和EPA等。其中,安全部门的统计学岗位薪酬待遇好,就业稳定有保障,而医药行业虽然待遇也不错,但就职后会面临外包公司和公司合并等外因带来的强大压力。
论智君在这里想补充一下国内的就业情况,一般来说,国内统计学就业主要集中在政府和金融机构,但其实这些岗位的要求和统计学专业知识有不小差距,就是不是很对口。如今很多毕业生把数据挖掘列为心目中的首选岗位,但由于开设这些岗位的公司对应聘者的计算机水平也有较高要求,因此转行也不易。
在美国,由于统计学多年来已经形成了一套固定的模式,因此创新力不足,也渐渐难以适应新数据,开始沦落为一个小学科。它原本占有的“半壁江山”正被数据科学、工业统计、运筹学、数据挖掘、机器学习蚕食。现在许多还活跃在数据领域的专业人士,他们其实也经历了由10年前的统计学家到近几年的数据科学家或数据分析师的转变。近年来,统计学也有了一些新发展,它的一些子学科包括统计计算、统计学习(类似机器学习)、计算统计数据(类似数据科学)、数据驱动(无模型)推断、体育统计和贝叶斯统计(MCMC)。SVM、结构方程模型等也是一些相关的新技术。
工业统计
工业统计培养的是需要在工程项目中经常进行产量优化或负载平衡等统计计算的工程师,他们不是统计学家,但无一不具备良好的统计能力(如系统分析员)。这个学科涉及的都是非常实用的数据,它的框架比传统统计更接近六西格玛,主要应用于质量控制和运营研究。工业统计常用的技术有时间序列、方差分析、实验设计、生存分析、信号处理(滤波、去噪、去卷积)、空间模型、模拟、马尔可夫链、风险和可靠性模型。
数学优化
数学优化旨在用单纯形法、傅立叶变换(信号处理)、微分方程和Matlab等软件解决业务优化问题。这一领域的应用数学家现在大多供职于一些大公司(如IBM)、研究机构、国家安全部门(密码学)和金融行业(竞争对手:物理系、工程专业学生)。虽然培养的是数学家,但他们的工作方式和统计学家如出一辙:数学家用最小二乘法差值或外推;统计学家则用线性代数预测模型拟合。这两个概念是相通的,而且完全依赖于同一种数学工具(虽然叫法不同)。和运筹学相比,数学优化更接近统计学,而国家安全部门等组织之所以更愿意招收数学家而不是数据科学家只是出于机构招聘传统考量。
精算学
这是一门只用于研究处理保险业及其他金融业中各种风险问题的定量方法和技术的学科,比如基于用户的健康水平计算死后保险费、预测极端自然事故(如洪水、天气事件)需要支付的保费。近年来精算师使用的传统模型常被证明是错误的,许多事故的支出远高于预期。确切地说,其实精算师也算是统计学家,但由于种种原因,他们身上的统计学家标签已经被忽略了。这是一个非常稳定的岗位,每个精算师的工资会随资历不断上升,但同时他们也有非常严格的职业限制和规范,就像律师一样,为了提高自己的工资水平、降低业内的竞争压力,他们会把大多数人拦在合格线之外。
HPC
HPC,即高性能计算,它其实也不是一门学科,但确实是数据科学家、大数据从业人员、计算机科学家和数学家都不得不关注的一个领域,因为它可以重新定义他们的计算范式。如果量子计算取得突破性进展,那HPC将彻底改变现有的算法设计和实现方式。当然,提到HPC时,我们不应把它与Hadoop和Map-Reduce混淆:HPC和硬件相关,而Hadoop与软件相关(尽管严重依赖网络带宽和服务器配置)。
运筹学
运筹学,简称OR,是一门在几十年前从统计学中分离出来的学科。它们仿佛一对孪生兄弟,在各自的领域内(INFORMS和ASA)有非常紧密的合作。运筹学常用于决策和优化传统运营方式:库存管理、供应链、定价。它是传统大型企业的心头好,而新兴的小型公司更喜欢用数据科学来解决这些问题。现在,许多运营研究分析师正在转型成为数据科学家,因为和OR相比,数据科学有更多创新,前景也更好。此外,OR能解决的问题数据科学也能解决,它在经济计量问题、军事国防等领域的应用上也和六西格玛过于重叠了。汽车交通优化是运筹学在现代社会应用的一个成功案例,它通过模拟、通勤者调查数据、传感器数据和统计建模优化交通设计方案。
六西格玛
六西格玛是一种管理策略,它是由当时在摩托罗拉任职的工程师比尔·史密斯于1986年提出。可以说,比起一门学科,它更像是一种思维方式,或者说,一种商业哲学。六西格玛现在被传统大型公司用于质量控制和优化工程流程,它在LinkedIn上拥有27万会员,口号是:把你的努力集中在20%的时间里,并产生80%的价值。应用简单的统计数据,六西格玛的这个思路在于消除业务流程中的差异来源,使它们更可预测并提高质量。许多人认为六西格玛是旧的东西,即将被淘汰。这也许是可能发生的,但实践也告诉我们,最基本的概念往往是最坚不可摧的:因为这些也是所有数据科学家的基本概念。
从某些角度看,六西格玛是一种更适合业务员分析师的学科,因为非专业人士如果用黑盒工具来解决统计问题,那会导致灾难。
Quant
Quant旨在为金融行业设计数学模型,它能为华尔街解决高频交易或股市套利等问题。Quant工程师使用的语言一般是C ++和Matlab,他们大多来自各大高校,通过服务金融业赚取大量资金,当然,由于投资回报速度太快、数额惊人,这些工作往往很不稳定。美国次贷危机爆发后,大量工程师被解雇,他们中的很多现在正在解决点击套利、广告优化和关键词招标等问题,也有从事能源贸易的,其中少数从业者有统计学、数学优化和工业统计背景。
人工智能
人工智能又回来了。它和数据科学的交叉点在模式识别(图像分析)和自动化(有人会描述为“智能”)系统设计,例如在机器对机器通信模式中识别正确的关键词。无论是对于人工智能还是数据科学,智能搜索还是一个大问题。早前,神经网络因为多年没有进展险些过气,依靠深度学习的重大突破,近几年人工智能迎来了第二春,与之相对的是,由人工智能引发的神经科学热这些年来一直发展良好。
计算机科学
比起差异,数据科学和计算机科学更多的是内容的重合,其中包括Hadoop和的map-reduce实现、算法和计算复杂性、可扩展算法、数据管道及相关问题,如如网络拓扑图、随机数生成、加密、数据压缩、以及隐写术。
计量经济学
关于计量经济学从统计学中分离出来的原因,业界还没有一个成熟的说法。事实上,许多统计学的分支确实因为不再那么通用纷纷“分家”,开始发展自己的工具,而计量经济学就是其中之一。事实上,在短期内这个学科在本质上还是用时间序列模型,如自回归过程进行大量统计,他还和运筹学和数学优化严重重叠。计量经济学专业的人才都没有强大的统计背景,他们最常用的工具,或许也是唯一工具是Excel。
数据工程
在大型企业中,数据工程师这个职位一般是由软件工程师(开发人员)或架构师(设计师)代劳的(小公司则是数据科学家),这是计算机科学下的一个应用领域,主要负责让各种数据在内存中(in-memory、near-memory)更容易被处理,并传输给用户(包括大数据消费者,如数据科学家)。目前数据工程一个岌岌可危的分支是数据仓库,因为它是静态的、孤立的,随着NoSQL、NewSQL和图形数据库相继崛起,它正在快速丧失优势。
商务智能
商务智能专业的人才专注于设计仪表盘、选择指标、并将数据报告和第三方情报以电子邮件的形式发送/呈现给管理层,一个典型的职位是业务分析师。商务智能一般有一个MBA学位,要求学生学会先进的统计数据方法,如时间序列,但这一专业培养的人才大多是对基础统计资料做轻量分析,只要会用计算机维护数据库和筛选数据就可以了。他们常用的工具有Excel、Brio、Birt、Micro-Sreategy和Business Objects(作为最终用户运行查询)等。尽管这些工具的功能日渐完善,但除非他们学会编程,否则这些分析师在决策、信息提取、可视化演示、KPI设计和各种收益率计算上无法和数据科学家竞争。
数据分析
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,它旨在用统计方法分析大数据,并从中提取概括总结。它涵盖的应用领域十分广泛,包括欺诈检测、广告组合模型、归因建模、销售预测、交叉销售优化(零售)、用户细分、客户流失分析、计算顾客长期价值和收购成本等。除大公司外,数据分析师大多是一个基层岗位,他们的知识水平和经验比数据科学家狭窄,也不需要设计企业前景,工作职责是向数据科学家或主管分析报告。但在一些大公司,数据分析师III这样的职位是非常高级的。
业务分析
业务分析的内容和数据分析差不多,但它主要集中在业务层面,如公司财政、营销或投资回报等。数据分析师和数据科学家在职场上很热门,但业务分析师不是。
此外,近年来也涌现出健康分析、计算化学和生物信息学等学科,但本文不对它们多做探讨。
原文地址:https://www.datasciencecentral.com/profiles/blogs/17-analytic-disciplines-compared