18位华人学者当选美国统计学会会士 | 专访最年轻华人业界fellow付灏达

2019 年 8 月 6 日 新智元





  新智元报道  

编辑:张佳

【新智元导读】近日,美国统计学会授予59位成员ASA Fellow称号,有18位华人获此殊荣。其中,美国礼来制药公司高级研究顾问付灏达成为100年来工业界最年轻的华人fellow。一起来看看他的故事。


美国统计学会(American Statistical Association,简称ASA),是全美最主要的为统计学以及相关专业所设立的组织机构。其于1839年波士顿成立,是美国历史第二悠久的迄今仍在运作的专业组织。

 

近日,美国统计学会(American Statistical Association,简称ASA)授予59位成员ASA Fellow称号,有18位华人获此殊荣,其中,美国礼来制药公司(Eli Lilly and Company)高级研究顾问Haoda Fu(付灏达)成为100年来工业界最年轻的华人fellow。

 


美国统计学会是全美最主要的为统计学以及相关专业所设立的组织机构,于1839年波士顿成立,至今已有近180年的历史,是世界上最大的数学科学组织,拥有众多会员。

 

ASA Fellow评选制度也已有一百多年的历史了,根据官方资料,有0.33%的会员会被选为ASA Fellow。当选人需要对统计领域有长期的杰出贡献。每年每个ASA Fellow可以提名最多两名候选者,然后提交申请材料,其中包括其他至少三名ASA Fellow推荐信。推荐材料与推荐信提交美国统计学会,委员会根据候选者论文质量,对统计届贡献等标准进行评估。

 

拥有5个核心背景的斜杠青年


付灏达


付灏达在河北廊坊长大。高中的时候,付灏达非常喜欢数学,积极参加数学竞赛,他也很喜欢写程序,还参加了信息学奥林匹克。

 

用付灏达自己的话说:“一方面我对数学很感兴趣,另一方面我的父亲做一些关于统计方法的应用, 他对我影响很大,他说未来各种决策都需要基于数据,学统计很有前途。”

 

1998年,付灏达考入南开大学数学科学学院概率统计系。本科毕业后,付灏达考取托福和GRE并申请美国的奖学金,鉴于当时数学基础课与统计课成绩很不错,申请的大部分学校都拿到了奖学金,10多个offer在手,他最后选了University of Wisconsin – Madison的统计系。当年,UW-Madison统计系在全美排名前三。

 

Madison是美国北方一座小城,依山傍水,非常漂亮,唯一的美中不足就是冬天很冷。当时读博士,系里要求他们选其他系的课做为辅修,付灏达选了同一个楼里的计算机系,这样,不用在寒风中走很远就能上辅修课了。

 

Madison计算机系也是美国计算机系传统强系,付灏达就选了很多关于优化与机器学习的课程。优化算法是人工智能的核心,这对付灏达今后职业选择很有帮助。

 

就这样,一个具有数学、统计、计算机科学、优化算法、机器学习等核心背景的斜杠青年诞生了。

 

2007年,顺利拿到统计博士学位与计算机专业辅修的付灏达进入美国礼来制药公司研发部门。

 

因为本身对算法感兴趣,即便工作了付灏达也一直坚持做科研,发表了90多篇统计方法、人工智能、医疗领域相关论文。现在,付灏达负责公司人工智能与机器学习部门。 

 

统计学P值真的有意义吗?


今年3月,新智元报道过一篇《大学统计学白上了?800多科学家联名反对“统计学意义”,P值该废了》,在网络中引起了很大的反响。文章号召科学家放弃追求 “统计学意义”,并且停止用统计学中常见的P值作为判断标准。

 

统计学出身的付灏达也给出了自己的见解:首先,P值属于统计推断的一种方法。统计学研究的范围很广泛,包括如何收集数据(实验设计)、如何估计、如何推断。现在很多搞人工智能仅仅局限在估计问题,比如找到分类函数、回归函数。进一步的统计推断很有必要,这样可以让我们更好的了解我们学习到的推断函数是否可靠。

 

在付灏达看来,无论是不是用P值,我们要更多的推广与研究统计推断的思想与方法在人工智能方面的应用。对于P值,应该具体情况具体分析。我们很多时候用P值来进行决策(Go/No-Go Decision)。这个时候有可能并不是最优的。我们在做一个决策的时候,最关键的是决策后的结果。比如进行一项投资,如果决定投资,有多少可能性成功,另外一个方面如果决定不投资,是否真的剩下钱而不是失去一个正确的机会。那这个时候阳性预测值(Positive Predictive Value)与阴性预测值(Negative Predictive Value)就与咱们所关心的问题更加相关。在这方面贝叶斯方法可能更加适合。P值是一种靠反绎法(Proof by Negation)的证明,是一种统计推断方法,而不是唯一一种方法。比如在证明一个人有罪的时候,大家就先假定无罪,然后用事实推翻。很多时候是有效也是有用的。

 

人工智能其实就是统计学


统计学和人工智能究竟有什么关系?


统计学是一门从数据中发现规律的学科,对人工智能算法至关重要。诺贝尔经济学奖得主托马斯·萨金特(Thomas J. Sargent)在于北京举办的世界科技创新论坛上表示:人工智能其实就是统计学。付灏达虽然不完全同意他的说法,但也认同确实很有一定的道理。

 

统计学对人工智能发展有过、有着决定性的贡献。比如,现在很多机器学习数据竞赛中(比如Kaggle Competition)基本上有两个算法是最有效的,在非结构性数据中(比如图像识别),深度学习算法比较有效,在结构性数据中,XGBoost算法非常成功,其实三分之二以上的获奖结果中都用到了XGBoost算法。关于XGBoost算法发展历史,其实就很好的诠释了统计与机器学习算法的关系。

 

1990年左右,计算机科学家提出一个问题,能否用投票算法(majority voting)提高机器学习准确率。对这个想法直到1997年,才有人提出有效的方法AdaBoost, 虽然当时被看作最好的机器学习算法之一,但有的时候效果并不理想,大家也不知道为什么。

 

直到4年后,三名统计学家发表了一篇论文,从原理上阐述了AdaBoost算法本质是可加模型(stagewise additive model)与指数损失函数(exponential loss function)的结合。这篇统计学家的文章提供了很好的理论支持与解释。正是这样,大家发现指数损失函数对极值敏感,而且可以有更好的方法改进学习速度。这就是Gradient Boosting Machine算法的由来。

 

后来又由计算机学家继续提高算法效率,就能为了后来的XGBoost算法。统计学家使得Boosting算法发生了一个从技术到科学的一个飞跃。现在深度学习也在这个历史的转折点, 很多时候还没有很好的理论支持,这也是深度学习继续发展的屏障。还有很多领域人工智能与机器学习需要统计知识,比如对各种类型数据的分析,生存数据,recurrent events是很常见的数据,但都需要更好的机器学习算法的支持。因果分析(causal inference)也是一个很重要的领域。统计学家做出了很多贡献与研究。统计推断也可以帮助人们更好的了解算法的可信度。当然,统计学家也有很多要像计算机学家学习的地方。互相学习,学会跨界。

 

AI算法在医疗领域有很广阔的应用前景


现如今,AI算法被不断的运用在医疗领域,今年付灏达被评为ASA Fellow也是因为人工智能方面的贡献。他感兴趣的方向主要集中在这4点:自动控制理论,推荐系统,模式识别,增强学习。 

 

推荐系统算法在各个领域将会有很深刻的影响,比如精准理疗。现在可穿戴设备医疗设备,基因技术,EMR数据整合都可以更好更全面的获得病人的数据 (Contextual Information)。我们获得这些数据的最终目的是要产生Actionable Insights指导病人获得更好疗效(Better Outcomes)。

 

人工智能增强学习算法,就是一种算法学习如何在不同的情况下如何给出最优方案来提高疗效。Alpha Go就是一种增强学习的算法,类似的算法也可以应用于医疗领域。这方面AI算法很有优势,数据算法可以让我们看到以前看不到的规律,进而能提供更好的个性化治疗。同时也有很多挑战,首先就是要更高质量的数据,所以需要各个学科的合作。

 

有些话要送给后来人

 

作为100年来工业界最年轻的华人fellow,付灏达谦称是自己比较幸运,他将自己的经验总结为3点:重视基础,不断学习,加强联系。

 

1、基础知识对融会贯通很重要。比如前面谈到优化算法,很多机器学习人工智能问题最后会变成优化问题,有很好的优化方面的知识,不仅会对应用更加得心应手,对理论了解也会更加深入。比如证明sparsity oracle property就会用到很多优化算法KKT条件的构造式证明。同样,如果写程序不了解低级语言(C/C++)也很难对高级语言(比如Python)理解的很透彻。很多人都不是很了解python list与native array到底有什么差别。 

 

2、保持一颗好奇心,不停的学习是非常重要的。Stanford著名心理学家Carol Dweck写过一本书 “Mindset: The New Psychology of Success”。她反复强调学习型心态的重要性。机器学习在人工智能领域发展速度很快,要不停的学习,去读第一手论文才能最快的掌握新的方法与动向。好多时候,兴趣是可以培养的,要学会培养自己的兴趣。比如通过构造自己的专家朋友圈,就是一种很高效的培养自己兴趣的方式。

 

3、加强联系、学会跨界。现代科学很多时候已经是跨界科学了。付灏达分享了最近读的一本书——《人类简史》,里面讲到了人类的三次革命,其中第二次是农业革命。人类社会从捕猎采集到了农业社会是个很大的进步。捕猎采集更多是个人与小团体的活动,农业需要大规模合作,是不同领域的合作。现代科学正在往这个方向发展(from hunting to farming)。比如人工智能领域,需要计算机专家、统计学家、需要数据。尤其在医疗人工智能领域,高质量数据对算法研究尤其重要。这就需要大规模合作,把自己放到一个有效的合作体系中,才能最有效的发挥价值。有效的合作就需要了解不同领域的知识,认识不同领域的人。


附:2019 ASA Fellows名单


Daniel W. Apley, Professor of Industrial Engineering and Management Sciences, Northwestern University

Huiman X. Barnhart, Professor of Biostatistics, Duke University

Derek R. Bingham, Assistant Professor, Simon Fraser University

Babette A. Brumback, Professor and Associate Chair, University of Florida

Ann R. Cannon, Watson M. Davis Professor of Mathematics and Statistics, Cornell College

Hua-Hua Chang, Professor, Purdue University

Jinbo Chen, Professor, University of Pennsylvania

Gerda Claeskens, Professor, KU Leuven

Keith N. Crank, Retired, Part-Time Consulting

Catherine M. Crespi, Professor, University of California at Los Angeles

Yingying Fan, Dean’s Associate Professor, University of Southern California

Michael P. Fay, Mathematical Statistician, National Institute of Allergy and Infectious Diseases

Haoda Fu, Senior Research Adviser, Eli Lilly and Company

Mulugeta Gebregziabher, Professor, Medical University of South Carolina

Michele Guindani, Professor, University of California at Irvine

Sebastien J-P. A. Haneuse, Associate Professor, Harvard T.H. Chan School of Public Health

Alexandra L. Hanlon, Practice Professor of Biostatistics, Virginia Tech

Miguel A. Hernan, Professor, Harvard University School of Public Health

Craig A. Hill, Senior Vice President, Survey, Computing, and Statistical Sciences, RTI International

Jianhua Hu, Professor, University of Columbia

Rebecca A. Hubbard, Associate Professor, University of Pennsylvania

Peter B. Imrey, Staff, Cleveland Clinic

Hongkai Ji, Professor, Johns Hopkins Bloomberg School of Public Health

Jiashun Jin, Professor, Carnegie Mellon University

Katerina Kechris, Professor, Colorado School of Public Health

Charles L. Kooperberg, Member and Head, Biostatistics Program, Fred Hutchinson Cancer Research Center

Eric Benjamin Laber, Associate Professor, North Carolina State University

Michael Leo LeBlanc, Member, Fred Hutchinson Cancer Research Center

Bo Li, Professor, University of Illinois at Urbana-Champaign

Jia Li, Professor, Penn State University

Yehua Li, Professor, University of California at Riverside

Jeff D. Maca, Deputy Director, Biostatistics, Bayer Pharmaceuticals

Nandita Mitra, Professor, University of Pennsylvania

Samuel Mueller, Professor, University of Sydney

Lei Nie, Acting Deputy Director, FDA

Davy Paindaveine, Professor of Statistics, Université Libre de Bruxelles

Eun Sug Park, Senior Research Scientist, Texas A&M Transportation Institute

Judea Pearl, Chancellor's Professor of Computer Science and Statistics, University of California at Los Angeles

Igor Prünster, Professor, Bocconi University

Brian James Reich, Associate Professor, North Carolina State University

Jason A. Roy, Professor of Biostatistics, Rutgers University

Cynthia Rudin, Associate Professor of Computer Science, Duke University

Joseph L. Schafer, Mathematical Statistician, US Census Bureau

Jonathan Scott Schildcrout, Professor, Vanderbilt University

John Scott, Division Director, FDA

J. Michael Shaughnessy, Professor, Portland State University

David A. Stephens, Professor and Chair, McGill University

Tim Brian Swartz, Professor, Simon Fraser University

Sally W. Thurston, Associate Professor, University of Rochester

Alexander Tsodikov, Professor, University of Michigan

Pei Wang, Professor, Icahn School of Medicine at Mount Sinai

William J. Welch, Professor, University of British Columbia

David Christopher Woods, Professor of Statistics, University of Southampton

Min Yang, Professor, University of Illinois at Chicago

Xiangrong Yin, Professor, University of Kentucky

Menggang Yu, Professor, University of Wisconsin-Madison

Lanju Zhang, Director and Research Fellow, AbbVie

Mu Zhu, Professor, University of Waterloo

Hui Zou, Professor, University of Minnesota


登录查看更多
0

相关内容

统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括: 生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
151+阅读 · 2020年6月27日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
118+阅读 · 2020年5月6日
【经典书】统计学习导论,434页pdf,斯坦福大学
专知会员服务
234+阅读 · 2020年4月29日
普林斯顿大学经典书《在线凸优化导论》,178页pdf
专知会员服务
184+阅读 · 2020年2月3日
2018 ACL fellow 出炉,5人上榜,无中国学者
专知
4+阅读 · 2018年12月18日
高二进清华,大二开公司,29岁登上福布斯亚洲领袖人物榜
人工智能机器人联盟
5+阅读 · 2017年11月18日
Arxiv
4+阅读 · 2018年2月19日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
Top
微信扫码咨询专知VIP会员