【UC伯克利郁彬老师最新论文】数据科学的三原则:可预测性、可计算、稳定性

2019 年 1 月 25 日 专知
【UC伯克利郁彬老师最新论文】数据科学的三原则:可预测性、可计算、稳定性

【导读】加州大学伯克利分校统计系及电气工程与计算机科学系校长教授郁彬发表了最新论文《数据科学三原则:可预测性、稳定性和可计算性》。





郁彬,加州大学伯克利分校统计系及电气工程与计算机科学系校长教授,加州大学伯克利分校统计系前系主任。她同时是北京大学微软统计与信息技术教育部-微软重点实验室的创办者及联席主任。她与基因组学、神经科学、医学领域科学家合作进行跨学科研究,开发了统计和机器学习方法/算法和理论,并与领域知识以及量化批判思维结合以解决这些领域中的数据问题。


郁彬教授是美国国家科学院和美国艺术与科学学院两院院士。2006年当选Guggenheim Fellow,2011年受邀在ICIAM(The International Council for Industrial and Applied Mathematics,国际工业与应用数学大会)作特邀演讲,2012年作了伯努利协会的图基纪念演讲(Turkey Memorial Lecture of the Bernoulli Society),2016年作IMS(Institute of Mathematical Statistics,数理统计协会)Rietz演讲。郁彬教授曾于2013-2014年出任IMS主席,也是IMS、ASA(American Statistical Association,美国统计协会)、AAAS(American Association for the Advancement of Science,美国科学促进会)和IEEE(Institute of Electrical and Electronics Engineers,电气和电子工程师协会)的会士。


个人主页:statistics.berkeley.edu/~binyu



作为新兴科学,数据科学需要基本的概念与原则的支撑,以便人们交流和传递经验。同时,数据科学的三原则彼此紧密关联。预测是检验现实的有效方法,而好的预测都隐含着一个假设:过去和未来之间是可以平稳过渡的,即稳定性。稳定性(相对于数据和模型的扰动)也同时是数据驱动结果可解释性和可重复性的最低要求,它与不确定性评估密切相关。如今预测和计算已经成为机器学习的基石,而机器学习或者说统计的前沿之一是逐渐注重解释性。同时,稳定性是科学可重复性的最低要求,目前的统计发现普遍存在着错误和虚假问题,使得稳定性变得越来越重要。而可预测性和稳定性都需要建立在可行的计算算法基础之上,因此可计算性也是十分重要的。

【论文下载】

 请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“PCS2019” 就可以获取本文的下载链接~ 

  • 专知《深度学习:算法到实战》2019年全部完成欢迎扫码报名学习!




-END-

专 · 知

专知《深度学习:算法到实战》课程全部完成!465位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!


请加专知小助手微信(扫一扫如下二维码添加),咨询《深度学习:算法到实战》参团限时优惠报名~

欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
7

相关内容

数据科学(英語:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。 它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。 数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

有噪声矩阵补全的目的是估计一个低秩矩阵只给出部分和损坏的项。尽管在设计有效的估计算法方面取得了实质性的进展,但如何评估所获得估计的不确定性以及如何对未知矩阵执行统计推断(例如,为一个未见的条目构造一个有效的和短的置信区间)仍在很大程度上不清楚。这篇报告向有噪声矩阵补全的推理和不确定性量化迈出了一步。我们开发了一个简单的方法来补偿广泛使用的凸估计量和非凸估计量的偏差。所得到的去偏估计量承认了近乎精确的非渐近分布特征,这进而使得诸如缺失项和低秩因子的置信区间/区域的最优构造成为可能。我们的推理过程不依赖于样本分裂,从而避免了数据效率的不必要损失。作为一个副产品,我们得到了对我们的去偏估计的估计精度的一个清晰的表征,据我们所知,这是第一个可证明实现完全统计效率(包括前置常数)的可控算法。本文的分析建立在凸和非凸优化之间的密切联系上。

成为VIP会员查看完整内容
0
31

【导读】来自苏黎世联邦理工学院的Afonso S. Bandeira教授撰写了《数据科学数学基础》新书书稿,共170页pdf。现今在许多科学领域的实验、观察和数值模拟产生了大量的数据。这种快速增长预示着“以数据为中心的科学”时代的到来,这需要新的范式来处理如何获取、处理、分布和分析数据。与此同时,人工智能的发展将给技术、科学和工业的许多领域带来革命。本课程将涵盖用于开发算法的数学模型和概念,这些算法可以处理数据科学、机器学习和人工智能带来的一些挑战。

成为VIP会员查看完整内容
0
75

工程领域大数据和人工智能原则

—推动工程领域负责任的大数据和人工智能创新和应用

近年来,大数据和人工智能技术快速发展,其应用广泛落地,已经为我们的生产和生活带来显著的贡献,在辅助个人能力提升,改善人民生活 品质,促进经济和社会发展,应对全球重大挑战(如:气候变化,粮食短 缺等)及促进落实联合国可持续发展目标等方面带来巨大机遇。特别是在工程领域,作为第四次工业革命的主要驱动力之一,大数据和人工智能正 在推动研发、规划、设计、制造、测试、操作和维护等方面的革新,并可 提高生产力及工程项目的质量、安全和效率,同时减少碳排放,降低物耗、能耗和成本。此外,它们还有助于打击腐败、维护工程操守。

在带来前所未有的机遇的同时,大数据和人工智能也带来了许多技术和伦理挑战。我们必须全面分析、认真应对,以释放其造福人类的潜能。技术上,尽管近年来取得了相当大的进展,但仍有许多难题亟待解决:数 据可用性仍需提升;数据采集、存储、检索、传输、分析和可视化技术仍需改进甚至革新。同样,人工智能远不完美,例如:机器学习需要大量的 人力来标记监督学习所需的训练数据。此外,我们正面临隐私侵犯、决策 不透明、偏见歧视、技术滥用、数字鸿沟等伦理挑战。这些问题正引起越来越多的公众关注,并引发了社会上的一些忧虑。

工程师群体,作为大数据和人工智能创新和应用的主要实践者,有责 任和义务以造福人类为目推动大数据和人工智能的创新和应用。为了推动负责任的大数据和人工智能创新和应用,在工程实践中,工程师和工程界 应将有利于人类和地球的可持续发展作为首要标准,并遵循以下原则:

有益于人与环境

必须致力于尊重、维护人的尊严和自主,保障人权;遵循文化、社会和 法律规范;维护文化延续性与生态多样性,为全球社会和环境谋福利;促 进大数据和人工智能有益于人的运用,以增强人的感知、认知和解决问题的能力,实现可持续发展。

包容、公平、公众意识和公众赋能

注重包容性,使人类社会的全体成员参与其中并共享数据和人工智能带来的社会和经济利益,关注儿童、残疾人等弱势群体;消减数据源的偏 见,并寻求开发检测和纠正已有和潜在歧视的方法;积极参与到提高公众 对大数据和人工智能的发展和影响的认识中;赋能公众,以使每个人从大数据和人工智能的创新和应用中获益,并能应对潜在问题,如失业问题。

尊重隐私和数据完整性的开放和共享

及时地、全面地、负责任地公开和共享数据、元数据、数据产品和信息,以充分发挥和利用数据的价值;尊重人对数据的访问权、分享权及受 益权;在数据收集、披露和使用过程中,保护用户的隐私;辅助提升人们 对数据的访问、分享、使用及控制能力,尤其是维护其身份数据的能力;以知情同意为原则使用私人数据;积极采集、存储和保护第一手工程数据, 确保数据完整性和质量,同时避免数据被盗,滥用和损坏。

透明性

从数据生成到使用结束,最大限度地提高数据的可追溯性;关注人工智能系统的输入/输出的可验证性以及其的判断和决策的可解释性;努力为 所有利益相关方提供可理解的解释和信息,宣传人工智能产品和服务可能产生的影响;了解并提供开发和部署中的人工智能系统的能力和局限。

问责制

遵守法律法规和技术标准;明确在开发、部署和使用大数据和人工智能应用的过程中的责任,确保全生命周期里的责任可追溯;践行责任,以 获得全社会对大数据和人工智能的信任。

维护和平、安全性

牢记维护世界和平的使命;设法发现和解决潜在风险,其中包括对生命、财产安全的危害;确保应用的安全可靠;充分考虑人工智能系统全运 营周期中的风险,确保其使用周期中的安全可靠和可验证;在现实场景下 进行充分前期测试,以确保其符合目标规格;与所有利益相关者密切合作以保证并进一步提升应用的质量、安全性和可靠性。

协同合作

理解可持续发展目标间的关联性,以及协同合作在实现可持续发展目标中的重要作用;促进所有利益相关方跨学科、跨部门合作和国际合作, 通过负责任的大数据和人工智能创新和应用,加快可持续发展目标的实现。

成为VIP会员查看完整内容
0
57

【导读】加州大学伯克利分校统计系及电气工程与计算机科学系校长教授郁彬发表了最新论文《真实数据科学,Veridical data science》。

可预测性、可计算性和稳定性(PCS)是数据科学的三个核心原则。它们将预测和复制的科学原理嵌入到数据驱动的决策中,同时认识到计算的中心作用。基于这些原则,我们提出了PCS框架,包括工作流程和文档(在R Markdown或Jupyter Notebook中)。PCS框架旨在跨科学、社会科学、工程、商业和政府领域的负责任的、可靠的、可复制的和透明的分析。它可以作为科学假设生成和实验设计的推荐系统。特别地,我们建议(基本)PCS推论用于数据结果的可靠性度量,将统计推论扩展到当前数据科学实践需要的更广泛的范围。

成为VIP会员查看完整内容
0
35

摘要:

本文将优化描述为一个过程。在许多实际应用中,环境是如此复杂,以致于无法制定一个全面的理论模型,并使用经典算法理论和数学优化。采取一种稳健的方法是必要的,也是有益的,方法是应用一种不断学习的优化方法,在观察到问题的更多方面时从经验中学习。这种将优化视为一个过程的观点在各个领域都很突出,并在建模和系统方面取得了一些惊人的成功,现在它们已经成为我们日常生活的一部分。

作者介绍:

Elad Hazan是普林斯顿大学计算机科学教授。他于2015年从Technion毕业,当时他是该校运筹学副教授。他的研究重点是机器学习和优化的基本问题的算法设计和分析。他的贡献包括合作开发用于训练学习机器的AdaGrad算法,以及第一个用于凸优化的次线性时间算法。他曾(两次)获得2012年IBM Goldberg最佳论文奖,以表彰他对机器学习的次线性时间算法的贡献。2008年,他还获得了欧洲研究理事会(European Research Council)的一笔拨款、玛丽•居里(Marie Curie)奖学金和谷歌研究奖(两次)。他是计算学习协会的指导委员会成员,并担任COLT 2015的项目主席。

https://www.cs.princeton.edu/~ehazan/

成为VIP会员查看完整内容
0
124

讲座题目

大时间序列预测的理论与实践:Forecasting Big Time Series: Theory and Practice

讲座简介

时间序列预测是业务流程自动化和优化的一个关键组成部分:在零售业,根据对不同地区未来需求的预测来决定要订购哪些产品以及在哪里存储这些产品;在云计算中,服务和基础设施组件的估计未来使用量指导容量规划;仓库和工厂的劳动力调度需要对未来的工作量进行预测。近年来,预测技术和应用的范式发生了变化,从基于计算机辅助的模型和假设到数据驱动和全自动化。这种转变可以归因于大量、丰富和多样的时间序列数据源的可用性,并导致一系列需要解决的挑战,例如:我们如何建立统计模型,以便有效地学习从大量和多样的数据源进行预测?在观测有限的情况下,我们如何利用“相似”时间序列的统计能力来改进预测?对于构建能够处理大量数据的预测系统有什么意义? 本教程的目标是提供解决大规模预测问题的最重要方法和工具的简明直观概述。我们回顾了三个相关领域的研究现状:(1)时间序列的经典建模,(2)包括张量分析和深度学习的现代预测方法。此外,我们还讨论了建立大规模预测系统的实际方面,包括数据集成、特征生成、回溯测试框架、误差跟踪和分析等。

讲座嘉宾

Christos Faloutsos 现任职务于卡内基梅隆大学 (Carnegie Mellon University)电子和计算机工程教授,研究领域:图和流的数据挖掘,分形、自相似与幂律,视频、生物和医学数据库的索引和数据挖掘,数据库性能评估(数据放置、工作负载特征)。

成为VIP会员查看完整内容
0
64

图(Graph)是一种重要的数据结构,它由节点V(或称为顶点,即个体),与边E(即个体之间的联系)构成。图数据的典型例子有网页链接关系、社交网络、商品推荐等。由于图的巨大表现能力,在图上的研究,近年来备受瞩目。清华大学的唐杰老师,近日在自己的个人主页上更新了关于图表示学习方面的PPT,阐述了他在图表示学习领域方面的工作进展。

作者简介:

唐杰,清华大学计算机科学与技术系教授。2006年在清华大学计算机科学与技术系获得博士学位。研究兴趣包括人工智能、数据挖掘、社交网络、机器学习和知识图谱,重点是设计挖掘社交和知识网络的新算法。发表学术论文200余篇,拥有专利20项。曾任CIKM ' 16的PC联合主席,WSDM ' 15, KDD ' 18的副主席,ACM TKDD的代理主编,IEEE TKDE、IEEE TBD和ACM TIST的编辑。我是AMiner.org学术社交网络分析与挖掘项目的负责人,该项目已经吸引了来自世界220个国家和地区的1000多万个独立IP访问。

成为VIP会员查看完整内容
0
84

作者Fanny Yang是UC伯克利大学的博士生,主要研究方向为统计与优化交叉领域算法,同时致力于生物医学与机器学习问题研究。近期,在校内做了论文报告,并公开发布了他的博士论文。

成为VIP会员查看完整内容
20190102_Statistics meets Optimization Computational guarantees for statistical learning algorithms.pdf
0
18
小贴士
相关论文
Hyper-Parameter Optimization: A Review of Algorithms and Applications
Tong Yu,Hong Zhu
12+阅读 · 2020年3月12日
Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation
Shao-Yuan Lo,Hsueh-Ming Hang,Sheng-Wei Chan,Jing-Jhih Lin
8+阅读 · 2018年9月17日
HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification
Naganand Yadati,Madhav Nimishakavi,Prateek Yadav,Anand Louis,Partha Talukdar
10+阅读 · 2018年9月7日
MAT-CNN-SOPC: Motionless Analysis of Traffic Using Convolutional Neural Networks on System-On-a-Programmable-Chip
Somdip Dey,Grigorios Kalliatakis,Sangeet Saha,Amit Kumar Singh,Shoaib Ehsan,Klaus McDonald-Maier
3+阅读 · 2018年7月5日
Hierarchical Graph Representation Learning with Differentiable Pooling
Rex Ying,Jiaxuan You,Christopher Morris,Xiang Ren,William L. Hamilton,Jure Leskovec
7+阅读 · 2018年6月26日
Kevin Scaman,Francis Bach,Sébastien Bubeck,Yin Tat Lee,Laurent Massoulié
7+阅读 · 2018年6月1日
Babak Hosseini,Barbara Hammer
3+阅读 · 2018年5月2日
Xinlei Chen,Li-Jia Li,Li Fei-Fei,Abhinav Gupta
3+阅读 · 2018年3月29日
Anand Gupta,Hardeo Thakur,Ritvik Shrivastava,Pulkit Kumar,Sreyashi Nag
3+阅读 · 2017年11月25日
Top