本期内容为《走进人工智能》:第4讲 大数据与小数据:幸存者偏差的启示
《走进人工智能》
大数据与小数据:幸存者偏差的启示
以数据为燃料,通过人工智能方法这一引擎从数据中获取知识、进行决策,体现数据的价值是一项充满挑战的任务。这里就会碰到一个问题,给人工智能这一引擎供应的数据燃料多少合适呢?
一般情况下,大数据支撑着当前人工智能的发展,大数据一直被奉为机器学习成功的关键钥匙。但是,人工智能不等于大数据。实际上,大数据中总存在一批“代表性小数据”,通过对小数据的分析理解,可洞察大数据所蕴含的规律。二战期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,发现返航的幸存飞机中机翼上弹痕最多,于是倾向于加强机翼的防护。然而美国哥伦比亚大学统计学教授沃德(Abraham Wald)力排众议,指出更应该加强弹痕少的飞机机尾引擎部位防护,因为这些部位一旦受到重创,很难有机会返航。事实证明,沃德教授是正确的。这个故事说明,我们可以从小数据中推知大数据所蕴含的普遍真理,只要思维推理的方法正确就可以克服“幸存者偏差”。要掌握支撑正确决策所需的“代表性小数据”,就需要提及统计中的采样技术。采样指从目标总体中抽取一部分个体作为样本,通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识,正所谓“管中窥豹、见微知著”。在采样这一理论方法尚未被大家所接受之前,人们对统计所秉承的“以偏概全”这一思想嗤之以鼻,英国前首相本杰明·迪斯雷利(Benjamin Disraeli)有一句著名的话:世界上有三种谎言,分别是谎言、该死的谎言和统计。实际上,大数据中总存在一批“代表性小数据”,通过对小数据的分析理解,可洞察大数据所蕴含的规律。获得代表性小数据的采样方法是一种重要的计算思维。马寅初曾说:“学者不能离开统计而究学,实业家不能离开统计而执业,政治家不能离开统计而施政。”实际上,国家所进行的人口普查,不就是从科学采集的代表性人口小数据中去分析举国人口状况么?
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月