回顾数据科学的早期发展历史,我们会发现有两个主题密切相连:大数据意味着计算机的使用频率增加;统计学家很难将纸张上所写算法用计算机实现。由此,数据科学得以出现。不过在发展之初,因为没有精致的工具、神奇的范式,也没有新科学做它的支撑,“数据科学”这个词并不太流行,直到20世纪80年代,它才开始通过数据挖掘的方式得到发展。随着时间脚步的行进,数据的科学化处理达到了新的高度,而数据科学则在1996年叩响了学术界的大门。进入21世纪后,互联网的出现使得可用的数据量剧增,数据科学领域终于得以蓬勃发展。到2020年,每秒钟大约会产生1.7兆的新信息,而这些庞大的数据,为数据科学的应用创造了肥沃的土壤,进而使得一个又一个奇迹的创造成为可能。
目前,各行各业都已经孕育出基于大数据的、可以深刻广泛影响人们生活的技术,比如计算广告、推荐系统、现在正在蓬勃发展的无人驾驶汽车等等。总之,“大数据”和“数据科学”成为了当前最流行的词汇之一。那么,在进入21世纪后迅速发展的短短二十年中,数据科学领域有哪些里程碑事件或突破性技术值得铭记呢?下面让我们来一一盘点。
数据挖掘其实是一个逐渐演变的过程。电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,不过,它有投资大、效果不甚理想等不足,80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。80年代末,一个新的术语——数据库中的知识发现,简称KDD(Knowledge discovery in database)——出现,它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
2001年,Garner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业生产产生深远影响的五大关键技术”之首。同时,它还入选了《麻省理工科技评论》发布的2001年“全球十大突破性技术”,被认为在未来5年将对人类产生重大影响。由于数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。因此,数据挖掘前景非常广阔,目前已被证明有着广泛惊人的应用。但是,数据挖掘还牵扯到隐私问题和数据库被滥用的风险
,它必须受到规范
约束,应当在适当的说明下使用。如果数据是收集自特定的个人,则会出现一些涉及保密、法律和伦理的问题。
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。随着2004年前后谷歌GFS、MapReduce两篇论文的诞生,为该问题提供了可行的解决方案。Nutch的开发人员完成了相应的开源实现HDFS和MapReduce,并从Nutch中剥离成为独立项目Hadoop,到2008年1月,Hadoop成为Apache顶级项目,迎来了它的快速发展期。
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像加载这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。
20世纪90年代中期到21世纪00年代中期是机器学习发展的黄金时期,主要标志是学术界涌现出一批重要成果,比如,基于统计学习理论的支持向量机、随机森林和Boosting等集成分类方法,概率图模型,基于再生核理论的非线性数据分析与处理方法,非参数贝叶斯方法,基于正则化理论的稀疏学习模型及应用等等。这些成果奠定了统计学习的理论基础和框架。
而深度学习作为机器学习的分支,自2006年以来受到持续性关注。2006年,受Hinton的革命性的深度信念网(Deep Belief Networks,DBNs)的引导,Hinton、Bengio、Ranzato与LeCun的三篇文章将深度学习带入热潮,将其从边缘学科变为主流科学与技术。目前深度学习在计算机视觉、语音识别、自然语言处理等领域取得了巨大的成功。
自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩。 目前,深度学习是当今最有活力的机器学习方向,在计算机视觉、自然语言理解、语音识别、智力游戏等领域的颠覆性成就,造就了一批新兴的创业公司。
2012年6月,据媒体报道,Google X部门通过1.6万片处理器构建了一个庞大的系统,用于模拟人类的大脑神经网络。借助“谷歌大脑”,无需接受人类的任何培训和指令,就可以利用内在算法从海量数据中自动提取信息,学会如何识别猫咪。
无人驾驶汽车和增强现实眼镜是Google X最著名的两个项目,但作为谷歌最神秘的部门,这里的研究远不止此——早在几年前,他们就成立了专门的团队,模拟人脑的运行方式。为了研究机器学习,谷歌的科学家将1.6万片电脑处理器连接起来,创造了全球最大的神经网络之一。它不需要借助大批研究人员帮助电脑标明事物之间的差异,只要为算法提供海量的数据,“神经元”与“神经元”之间的关系将会发生变化,让数据自己说话。组成“神经网络”的机器具备自动学习、识别数据的能力,在新的输入中找出与学到的概念对应的部分,达到识别的效果。 在看过数百万张图片后,谷歌的虚拟大脑将自己构建出一张理想的猫的图片,利用不同层级的存储单元成功提炼出猫的基本特性。有科学家认为,这似乎是在控制论层面模拟了人类大脑视觉皮层的运作方式。
谷歌的科学家和程序员指出,互联网上充斥着猫咪视频算不上什么新闻,但这种模拟的效果还是令他们大吃一惊。与之前的任何项目相比,该神经网络的效果都要好得多:面对2万种截然不同的物体,它的辨识能力几乎翻了一番。目前,Google正在将该虚拟人脑用于提升语音识别的准确率。据介绍,Google X团队曾和谷歌语音识别团队有过一次合作,5天内在800个机器上进行训练,就单字错误检出率而言,该系统已让Google的语音识别准确率提升了25%,这相当于研究语音识别20年的成果。未来,这项机器学习技术还可以用于实用型计算机视觉、拦截垃圾邮件,甚至自动驾驶汽车等领域。
在2003年全世界制造了5EB的数据量时,人们就逐渐开始对大数据的处理进行重点关注。发展到2011年,全球每天新增的数据量就开始呈指数级增长,用户对于数据的使用效率也在不断提升,数据服务商也就开始需要从多个纬度向用户提供服务。2012年,我们进入数据驱动的时代,掌握数据就能掌握发展方向,因此人们对于数据可视化技术的依赖程度也不断加深。大数据时代的到来对数据可视化的发展有着冲击性的影响,试图继续以传统展现形式来表达庞大的数据量中的信息是不可能的,大规模的动态化数据要依靠更有效的处理算法和表达形式才能够传达出有价值的信息,因此大数据可视化的研究成为新的时代命题。
我们在应对大数据时,不但要考虑快速增长的数据量,还需要考虑到数据类型的变化,
这种数据扩展性的问题需要更深入的研究才能解决;互联网的加入增加了数据更新的频率和获取渠道,并且实时数据的巨大价值只有通过有效的可视化处理才能体现。于是,在过去就受到关注的动态交互的技术已经向交互式实时数据可视化发展,是如今大数据可视化的研究重点之一。除了大量的使用交互新技术以外,一些前卫的软件如DataFocus也开始引入自然语言处理技术,增强数据分析的易用性,将数据可视化推向深入。
2014年,Ian Goodfellow等人发布论文,提出了新型生成对抗网络GAN,它受启发于博弈论中零和博弈的思想,包含两个模块:判别模型和生成模型,二者不断博弈,使生成器学习真实的数据分布,而判别模型的目的是尽量正确判别输入数据是来自真实数据还是来自生成器。为了取得游戏胜利, 这两个游戏参与者需要不断优化, 各自提高自己的生成能力和判别能力, 这个学习优化过程就是寻找二者之间的一个纳什均衡。Ian Goodfellow发明出GAN后,获得Facebook首席科学家Yann LeCun、NVIDIA创办人黄仁勋、Landing.ai创办人吴恩达等大牛的赞赏,吸引了诸多的机构及企业开始研究。在中国部分,学术机构致力于研究GAN理论的近一步改良及优化,比如中科院自动化所研究人员受人类视觉识别过程启发,提出了双路径GAN(TP-GAN),用于正面人脸图像合成,而商汤香港中大联合实验室在国际学术大会上发表多项GAN相关研究成果。
GAN具有大量的实际用例,如图像生成,艺术品生成,音乐生成和视频生成。此外,它还可以提高图像质量,图像风格化或着色,面部生成以及其他更多有趣的任务。目前,GAN 已被用于创造听起来十分真实的语音,以及非常逼真的假图片。这项技术已经成为了在过去十年最具潜力的人工智能突破,帮助机器产生甚至可以欺骗人类的成果。未来,GAN 可能对计算机图形学产生冲击或挑战,因为目前已经有各种变体或进阶版出现,而且在诸多研究人员及企业的投入下仍然有许多的可能性,例如从二维的图片进展到三维的视频等等。
自20世纪50年代起,
语音识别
技术开始出现在我们身边。那时贝尔实验室的工程师创建了一款可以识别单个数字的系统。不过,语音识别只是完整语音接口技术的一部分。语音接口包含传统用户接口的所有方面:它能呈现信息并为用户提供一种操控方式。在语音接口中,操控或者一些信息的呈现都将通过语音实现。在一些如按钮或显示屏等传统的用户接口上,也可以配置语音接口这一选项。对于大部分人而言,遇到的第一款语音接口设备很有可能是移动电话,或者是个人电脑上非常基础的将语言转换成文字的程序。然而,这些设备的运行都非常缓慢、识别不精确且可识别的词汇有限。
进入2010年代,随着计算能力和算法性能的显著提高,以及云技术和
大数据
分析的应用,语音识别效果有了显著的提升。而机器学习的进步更使语音识别软件在精确性方面上一个台阶,这也将计算机的应用推得更广。同时,越来越多的公司都在涌进语音接口市场,从亚马逊、Intel到微软谷歌,几乎每一个大科技公司都在研发会话用户接口,此外还有很多初创企业也在从事相关研究。2016年,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率低至5.9%的突破 ,创造了当时该领域内错误率的最低纪录。这意味着微软语音识别系统已经能够像人一样识别谈话中的词汇,极具里程碑式的意义。同年在《麻省理工科技评论》“十大突破性技术”盘点中,语音接口技术便成功入选。麻省理工科技评论认为:通过该技术,可将语音识别和自然语言理解相结合,为全球互联网市场创造切实可用的语音接口。语音识别将成为人机交互的重要方式。
2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件,其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。而进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法完胜AlphaGo,再一次刷新了人们对深度强化学习的认知。
强化学习是一种人工智能方法,能使计算机在没有明确指导的情况下像人一样自主学习。如今,强化学习正在迅速发展,并逐步将人工智能渗透到除了游戏之外的各个领域。除了能够提升自动驾驶汽车性能,该技术还能让机器人领会并掌握以前从未训练过的技能。
近几年来,深度学习技术被证明是一种用来识别数据模式的极其高效的方式。
在国内,以科大讯飞为例,这家公司已经针对强化学习在多个方向展开了研究和应用,包括人机对话系统、智能客服系统、机器辅助驾驶、机器人控制等方向,都已有了应用研究。例如,在传统的任务完成型对话系统中,用户需要在一次交互过程中把自己的需求描述清楚,这样的交互不是自然的。在讯飞的AIUI交互系统框架中,引入了多轮交互的思想,由一个深度强化学习(马尔库夫决策过程)模型来引导用户输入需求,从而快速、自然流畅地完成用户任务。同时,许多工业机器人制造商也将目光投向了强化学习技术,测试该技术在无手工编程情况下训练机器执行新任务的效果。在国外,Google公司的研究人员也正与DeepMind合作,试图利用深度强化学习技术使其数据中心更加节能。
多年以来,数据科学已经从一个小众市场发展成为完整的领域,可用于分析的数据也呈爆炸式增长,组织和企业正在收集和存储比以往更多的数据。
所以,云计算进入了数据科学领域。
云计算使任何地方的任何人都可以访问几乎无限的处理能力。诸如Amazon Web Services(AWS)之类的云供应商提供了多达96个虚拟CPU内核和高达768GB的内存。可以将这些服务器设置在一个自动扩展组中,按所需的计算能力启动或停止数百个服务器而不会产生太多延迟。除了计算之外,云计算公司还为数据分析提供了完善的平台。Google Cloud提供了一个称为BigQuery的平台,该平台是无服务器计算且可扩展的数据仓库,使数据科学家能够在单个平台上存储和分析PB级的数据。BigQuery也可以连接到其他用于数据科学的谷歌云服务。使用则创建数据流传输管道,使用则在数据上运行Hadoop或Apache Spark,或使用BigQuery ML在庞大的数据集上构建机器学习模型。随着数据科学的成熟和数据量更加巨大,我们最终可能会完全在云上完成数据科学。
在深度学习研究领域取得重大突破之后,自然语言处理(NLP)已牢固地进入数据科学领域。
数据科学最初是对纯原始数据的分析,因为这是处理数据并将其收集在电子表格中最简单的方法。如果需要处理任何类型的文本,通常都需要将其分类或以某种方式转换为数字。然而,将一段文本压缩为一个数字是非常困难的。自然语言和文本包含了丰富的数据和信息,由于缺乏将这些信息表示为数字的能力,因此我们常常会失去很多有用的信息。深度学习在NLP中取得的巨大进步推动了NLP与常规数据分析的全面集成。现在,神经网络可以快速地从大量文本中提取信息,能够将文本分为不同的类别、确定关于文本的情感、并对文本数据的相似性进行分析。最后,所有这些信息都可以存储在单个数字特征向量中。
目前,NLP已成为数据科学中的强大工具。巨大的文本数据存储,不仅可以是一个单词的答案,还可以包含完整的段落,可以转换为数值数据以进行标准分析。现在,我们可以探索更为复杂的数据集。
即便在当今的数字时代,数据科学仍然需要大量的手工作业。存储、清理、可视化和探索数据,最后对数据进行建模以获得实际结果。为了解决这些低效问题,在过去几年,分析供应商已开始开发能够完成整个工作流程并集成到一个端到端平台的产品,这些平台被视为数据科学的操作系统。这带来的重大创新是,它们首先实现了大量数据处理部分的自动化。其次,它们可以很容易地跟踪所有开发的模型及其参数。它们使得将算法和模型投入生产变得更加容易。例如,Alteryx拥有一个智能且易于使用的数据科学平台,该领域的其他参与者包括KNIME,RapidMiner和H2O.ai。此外,还有一些分析公司更进一步,将自动化机器学习系统集成到平台中。这样一来,只需要一些最小干预的系统,就可以放弃数据并获取集合模型。这些系统带来的最大优势是,它们可以向更广泛的受众开放预测分析,帮助非技术人员解决客户流失等简单的预测问题。
2019年,用于自动模型设计和训练的自动化机器学习(AutoML)迎来蓬勃发展,我们看到了自动化市场动力的激增,很多机器学习解决方案都在推动由人工引导的自动数据分析,以便在整个项目生命周期中实现更深入的AutoML。从简单的拖放、通过按钮单击向导创建基本模型到复杂的特征工程、模型搜索、超参数调整、部署、模型管理和监控,AutoML 的功能差异很大——结果的质量也存在巨大差异。
中台的概念最早可追溯至二战期间美军的一套强有力的作战系统,而中台思想进入中国,则应该追溯到2014年,阿里巴巴访问芬兰游戏企业Supercell后,正式将其采用美军作战系统的“中台”(“大中台、小前台”)作为企业战略,并将其结合阿里现有工具从战略地位、组织架构、人才管理等多方面自上而下进行布局;将支持类的业务放在中台,扮演平台支撑角色,通过打破原来树状结构,使小前台距一线更近,业务全能,更加快速决策、敏捷行动,中国化“中台”也由此诞生。马云的芬兰出访,为中国企业首次引入了“中台”的概念,在此基础上发展起来的“数据中台”,则和我国特有的“数据市场”环境有着密切联系,是因地制宜的“中国产物”。数据中台也从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算和数据的力量,完成企业的数字化转型。
自2016年之后,数据量已经从PB级别迈向了EB级别。随着越来越多的企业把业务流程上云,日益增长的数据存储和仍然稀缺的数据应用就成为了企业的主要矛盾之一,而且,这种矛盾需要从业务、技术、组织几个不同的领域一起来探寻数据的解决方案。数据中台就是这一系列解决方案的基础设施。站在企业的角度上,数据中台更多地指向企业的业务目标,即帮助企业沉淀业务能力,提升业务效率,最终完成数字化转型。目前,数据中台没有确切的定义,但一个合格的数据中台需要具备数据模型能力,AI算法模型能力和数据业务化能力。2019年被成为数据中台元年,不仅有行业内对于中台定义的百家争鸣,更有华为、腾讯、万科、京东等诸多行业头部企业带动了对数据中台落地实践的探索热潮。即使在资本寒冬背景下,细分领域中,以建设中台为发展核心的创业型服务商也频频受到资本青睐。据不完全统计,2019年,国内约有500余家大型头部企业正在尝试建设数据中台,如中信云网、百果园、兴业银行、万科集团等已经开始取得落地效果。相关研究表明,中国目前有超过 80% 的企业仍然处于较为初级的数字化转型阶段。未来的商业,数据智能是源动力。数据中台,已然成为企业数字化转型的关键,或者说是必经之路。
回顾这二十年的变化,我们不得不承认数据科学是一个发展非常快的领域,没有人知道数据和技术的融合竟然能够设计这样一个精彩的世界。展望未来,随着云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,数据科学领域将继续沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭。而5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是数据科学未来发展的方向之一。此外,于2018年5月生效的GDPR(《通用数据保护条例》)让越来越多的用户开始注重个人数据安全问题。随着数据科学的发展,我们将继续看到围绕数据的隐私和安全协议的转变,包括流程、法律以及建立和维护数据安全性和完整性的不同方法。如果网络安全成为2020年的流行语,也不足为奇。
——END——