从达尔文的《维特鲁威人》,理解数据科学复兴的意义

2017 年 7 月 10 日 IBM中国 Rob Thomas

本文作者为 Rob Thomas,同时也是《科技公司的终结》和《大数据革命》的作者,IBM Analytics 总经理,范德堡大学和佛罗里达大学校友。



“如果人们知道我为获得成功付出的辛勤劳动,我的成功就没那么精彩了。”

- 米开朗基罗


复兴意味着重生。各种因素同时汇集在一起,就可能触发一次重生。在分析领域,我们正看到各种因素汇集在一起:经济衰退、出色的技能重获和前所未有的数据访问能力。这些因素的结合正在激发数据科学获得重生,同时专家领导模式已经成为过去式。历史是一位伟大的老师,证明这种复兴并不是与原型完全背道而驰。



15 世纪初叶,意大利发生了文艺复兴。文艺复兴时期的艺术家打破了简单风格的惯例,为表现主义的新时代提供了启迪。最终,文艺复兴成为一种新的思考方式,形成了一个艺术创新大放异彩的时期。


14 世纪末,佛罗伦萨发展成为一座富裕的城市,富人使用他们的财富雇佣当地的技师。自然而然地,这种运动引发了竞争,进而激发了人们的创造力。这一过程一直延续到 15 世纪,当时美第奇家族在佛罗伦萨掌权,利用他们的金钱和影响力让这一运动延续下来。到了 15 世纪,文艺复兴从其发源地佛罗伦萨快速传播到意大利的其它地方,然后再传播到欧洲的其它地方。


尽管这一时期人们创作了无数的艺术杰作,但或许同文艺复兴关系最紧密的是素描作品《维特鲁威人》(Vitruvian Man)。该作品将一个圆圈和一个正方形相结合,并将人放在中间,象征着天与地的组合。这个想法最初是由作家维特鲁威提出的,该作品也是以他命名的。但是,据说是达芬奇首次以一种正确的解剖学方式用图画解释了这一想法。这提醒我们,提出最初想法的人并非总是能在历史上留下深刻印迹的人。


数据科学领域的现代复兴也与一种新的思考方式密切相关,与许多年前的意大利文艺复兴有许多相同之处:


1) 它受经济发展的推动,因为计算、存储、数据的低成本为一种全新的技师启蒙运动提供了资金。


2) 新的技师可以是任何人,而不只是少数富人或受过某一学科训练的人。数据科学中的专家模式正在终结。


3) 数据和科学的应用与融合,正被人们结合到现代社会对未来的愿景中:通过应用机器学习和深度学习变得越来越智能。


如果不具备一些既有的条件,意大利的文艺复兴和数据科学的复兴都不会发生。在这两种情况中,市场条件允许人们发挥创造力,并充当着未来创新的始发点。对于佛罗伦萨的工匠们而言,随着他们开始理解科学及其应用,就能根据他们的想象开发出新的技术(想想莱昂纳多早期的直升机画作)。与之类似的是,如今的数据科学复兴正在决定每个行业的成功者和失败者,通过应用新技术,只有适者才能生存。




如今,打算利用数据科学的组织本能地知道他们需要做什么,只有一个指定的路线图才能领导组织实现成功并获得领导者地位。大多数企业都想实现飞跃,开始迅速构建模型并选择算法。对于某些企业,这是个不错的起点。但对其他企业而言,这一步可能迈得太大了。


查理∙芒格讲过一架飞机飞过地中海上空,前往异国的故事。飞行员的声音从对讲机中传来,“刚刚发生了一件恐怖的事,我们必须在水上迫降。飞机漂浮的时间足以让我们打开舱门并让所有人出去。我们必须有序地完成此工作。所有会游泳的人站到飞机的右翼上,所有不会游泳的人站到左翼上。”


飞行员继续说,“右翼上的人会在两英里远的地方找到一座小岛。飞机下沉时,请游到岛上,你们会很安全。我们要感谢左翼上的人今天同我们一起飞行。”


大多数组织感觉好像他们已被遗弃在飞机的左翼上。没有人进行指导,没有人提供帮助。只有一堆显而易见的挑战。机器学习问题就是数据问题。数据科学将从根本上改变、自动化和优化所有行业。但是,它需要从最基本的东西开始:数据和分析的基本要素。



数据策略是数据科学的一个推动因素,因为所有数据在被送入模型之前都是无用的。数据和分析的 5 个基本要素为数据科学的复兴创造了合适的既有条件。


这 5 个基本要素是:



开源是全面分析策略的关键推动因素开源是创新和速度的保障,而且与开放平台之上的创新联系紧密。开源是一个永恒的创新社区。


统一治理是获取洞察和保证合规的必要条件。统一治理对待数据就像图书馆对待图书一样。组织、编目、屏蔽、保护、存档和让所有资产能立即找到。数据图书馆提供洞察,但也要遵守重要的法规(比如 GDPR)。


混合数据管理让组织为多重云的世界做好准备。它让内部部署和私有云数据投资与公有云部署保持一致。无论关注非结构化数据还是结构化数据,数据管理的未来都是私有云和公有云的结合,并且二者间实现了无缝集成。


可视化就是指数据发现。理解数据资产,以用户期望的格式呈现它们,并让人们能处理和探索数据。这是动态和实时的,而不是静态的。


机器学习和数据科学是所有分析基本要素的组成部分。随着组织不断增强并自动完成决策制定和操作过程,这会成为“惊喜”时刻的源头。构建、部署和训练模型。随着新数据的加入不断学习。机器学习和数据科学必须驻留在数据所在的地方,这样才能发挥最大的影响。


每个人、每个部门和每个组织的起点都是不同的。但这 5 个基本要素是一致的。它们是成功实现复兴的既有条件。虽然许多组织在每个领域都采取了一些行动,但大部分行动都是在前一个时代并且针对前一个时代执行的。



我们正在进入一个全新的简单时代。分析和数据科学方法必须简单:在 15 分钟内安装并运行。在上一个包含漫长、昂贵项目的时代,IT 部门代人受过。在这个新时代,IT 不再是业务变革的受害者。相反,像 15 世纪意大利美第奇家族一样,IT 领导并推动这次复兴运动。


数据科学正逐步成形,其中以机器学习用例最为突出。许多企业开始利用机器学习赢得竞争,并且利用可重复的模式获得成果。举例而言,在一家制药公司通常参与的市场中,需 12~14 年才能让新药上市,平均成本是 26 亿美元。在这个案例中,应用数据科学和机器学习让成本降低了 70%。在两个不同的数据集上对算法进行了训练:一个是各种化学物质的毒性,另一个是已批准药物的已知副作用。通过这两个数据集,该算法能以合理的准确度预测药物的毒性。


现在已涌现出许多用例。以下是我目前看到的 10 个最重要的用例:



这里唯一不变的就是变化。我估计 10 大用例将每隔 6~12 个月演变一次。



前面已经提到,尽管达芬奇第一次正确地画出了维特鲁威人,但历史表明他不是独自提出此想法的。秘诀在于让几何形状偏离中心,这一秘诀被传到了 Giacomo Andrea da Ferrara 那里。Giacomo Andrea 的版本经过重重提炼,最终取得了成功。他和达芬奇是同事,曾一起用餐,而且被看到一起出现。但是,历史只记住了达芬奇的版本。


关键在于对行动的偏爱。达芬奇采取了行动,而其他人只是重复且仅停留在实验阶段。复兴是一次行动号召,而不是反思号召。现在正是让数据科学复兴的绝佳时机



点击下方“阅读原文”,了解有Watson之后的世界。

↓↓↓ 
登录查看更多
0

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
336+阅读 · 2020年6月24日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
240+阅读 · 2020年6月16日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
295+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
Gartner 报告:人工智能的现状与未来
InfoQ
13+阅读 · 2019年11月29日
【NLP】NLP未来发展趋势&ACL 2019回顾
产业智能官
5+阅读 · 2019年8月27日
【数字化】2019年全球数字化转型现状研究报告
产业智能官
28+阅读 · 2019年7月8日
理解五个基本概念,让你更像机器学习专家
云栖社区
5+阅读 · 2018年11月29日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
11+阅读 · 2018年9月28日
Arxiv
5+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
336+阅读 · 2020年6月24日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
240+阅读 · 2020年6月16日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
295+阅读 · 2019年12月23日
2019中国硬科技发展白皮书 193页
专知会员服务
78+阅读 · 2019年12月13日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
相关资讯
Gartner 报告:人工智能的现状与未来
InfoQ
13+阅读 · 2019年11月29日
【NLP】NLP未来发展趋势&ACL 2019回顾
产业智能官
5+阅读 · 2019年8月27日
【数字化】2019年全球数字化转型现状研究报告
产业智能官
28+阅读 · 2019年7月8日
理解五个基本概念,让你更像机器学习专家
云栖社区
5+阅读 · 2018年11月29日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员