AI不是万灵神药!看看普林斯顿大学的这份“假AI防骗报告”

2019 年 11 月 20 日 新智元




  新智元报道  

来源:cs.princeton.ed

编辑:小芹、大明

【新智元导读】普林斯顿大学教授最新报告《如何区分AI“万灵假药”》近日火了,很多宣称采用AI算法预测社会后果的技术,实际不比线性回归模型好多少。你怎么看AI“万灵假药”?新智元 AI 朋友圈和AI大咖们一起讨论吧。


AI不是万灵药,但越来越多的人把它说成是万灵药,在这些人的鼓吹下,更多的人可能真的会把AI当成万灵药。

 

那么,如何在周围人都在吹的氛围下冷静下来,分辨真假?近日,普林斯顿大学计算机系Arvind Narayanan副教授撰写了一份报告,题目就是《如何区分AI“万灵假药”》

报告全文要点如下:

 

1、有很多与AI无关的东西都被打上AI标签,目前已经诞生的真正的、有社会影响力的AI技术无意间充当了这些冒牌货的保护伞。


2、很多宣称采用AI算法的技术涉及对社会后果的预测。事实是,我们并不能预测未来,但当涉及AI时,这个常识似乎就我们无视了。


3、在风险行为预测上,手动评分要比AI评分靠谱得多。比如违规驾驶,人工计分,到一定程度吊销驾照,这个计分还是要交给人来做。


作者首先举了个例子。下边这个网站宣称,只用一段30秒的短视频,就能评估出你的职业前途和工作的稳定程度。听起来是不是很神奇?只要拍一段视频传上去,网站就会自动评估出多个指标,可视化呈现后给出一个综合评分。



它声称,评估分数结果和视频中的你说的内容甚至都没关系,完全是AI算法根据肢体语言、讲话的方式和风格这些东西得出的。

 

而实际上,这只是个加了外壳的“随机数生成器”。你的职业是否稳定,全看运气。

 

为什么这种包装成AI的假货这么多?

 

第一、  现在的“AI”是个时髦的保护伞,和AI沾边可以提升身价。

第二、  一些AI技术确实实现了真正的、获得大众认可的巨大进步。

第三、  大部分群众不懂AI,企业可以把任何东西贴上AI标签,再卖出去。

 

这个例子只是说明在HR领域的问题,实际上在其他领域内,这种对AI技术的故意夸大的现象可能更严重。在这份报告中,作者将现在的AI应用模式大体分为3类。

 


第一类:认知类AI技术。主要包括内容识别(包括反图片搜索)、人脸识别、基于医疗影像的辅助诊断、文本-语音转换,以及DeepFake等。作者认为,这类技术基本上属于货真价实的快速技术进步,甚至DeepFake的过于逼真表现还引发了人们在道德上的担忧。

 

作者认为,这类AI技术造假或吹牛空间不大的主要原因是结果和判断标准的确定性。无论是人脸识别还是文本-语音转换,其对错标准是非常明确的。



第二类:自动化判断类AI技术。包括垃圾邮件检测、盗版内容检测、论文自动评分、内容推荐等。这类应用尽管还远远称不上完善,但是正在进步,应用前景在逐步拓宽。

 

对于这类AI来说,判断标准开始变得有些模糊,一篇文章写得好不好,一封电邮是不是垃圾邮件,对于这些问题,不同的人可能会有不同的看法,AI会逐步学习人类的判断和推理方式,但往往免不了犯错。

 


第三类:社会后果预测类AI。包括职业表现预测、惯犯行为预测、政策预测、恐怖袭击预测等。作者认为,这类AI基本上其真实性都是值得怀疑的。

 

作者认为,在我们自己尚且不能预测未来的情况下,却要把这个任务交给AI,并根据结果来制定政策,这种选择有违常识,而且很可能造成不良后果。


AI预测社会后果?效果比线性回归好不了多少


第三类AI应用有关预测社会后果,它们大多数时候从根本上就是可疑的


  • 预测犯罪惯犯

  • 预测工作表现

  • 预测警务

  • 预测恐怖主义风险

  • 预测问题儿童


本文也主要集中在第三类AI应用,因为这部分骗子最多。


前面展示了一些工具,声称可以用来预测工作适合性。同样,保释决定是基于对累犯的算法预测做出的。此外,依据一种分析社交媒体帖子并预测恐怖主义风险的算法,有人在边境被拒之门外。


这些问题很难,因为我们无法预测未来。这应该是常识。但当人工智能涉足其中时,人们似乎决定要搁置常识。



真实、快速进步的:
  • Shazam(一款音乐识别应用)

  • 反向图片搜索

  • 人脸识别

  • 基于医学成像的医疗诊断

  • 语音转文本

  • Deepfakes


不完美、但正在改进的:
  • 垃圾邮件检测

  • 版权侵犯

  • 自动论文评分

  • 仇恨语音检测

  • 内容推荐


基本上可疑的:
  • 预测累犯

  • 预测工作成功

  • 预测警务

  • 预测恐怖主义风险

  • 预测问题儿童


当然,这与AI的用途(所有的机器人技术、游戏……不在此列)相去甚远。然而,重点是说明对于不同类型的任务,精度的限制在数量和质量上是如何不同的。


接下来将展示, 第三类应用中不管投入多少数据,都并没有真正的改进

案例:社会后果能被预测吗?


普林斯顿大学社会学家Matthew Salganik等人此前发布《脆弱家庭与儿童福利研究》,涉及457名研究人员,并形成了一个数据集,开展机器学习挑战赛。


“脆弱家庭(未婚家长与孩子组成的家庭)与孩子福利”项目跟踪研究了1998-2000年出生在美国大城市的近5000名儿童(大约四分之三是未婚父母所生),这些儿童所在的“家庭”比普通家庭面临更大的分裂和贫困的危险。研究围绕四个方面展开:(1)未婚父母,尤其是父亲的条件和能力是什么?(2)未婚父母关系的本质是什么?(3)这些家庭出生的孩子是怎样生活的?(4)政策和环境条件如何影响这样的家庭和儿童? 该项目的人口研究数据档案办公室公开提供六组相关数据。


据我所知,这是衡量社会结果可预见性的最严格的努力。



他们收集了关于每个孩子和家庭的大量数据,这些数据是基于多年来的深入访谈和多次重复的家庭观察得出的。



脆弱家庭挑战赛(FFC) 的设置与许多其他机器学习竞赛类似。任务是基于训练实例学习背景数据与结果数据之间的关系。比赛期间以准确性排行榜进行评估,并在比赛结束后基于留存数据进行评估。


从出生到9岁的所有背景数据,以及15岁的一些训练数据,他们的任务是准确预测以下关键类别的结果:


  • 孩子的平均成绩(学业成绩)

  • 孩子们的勇气(激情和毅力)

  • 家庭的物质困难(衡量极端贫困的程度)

  • 驱逐家庭(不支付租金或抵押)

  • 照顾者的裁员

  • 工作培训(如果主要照顾者将参加工作技能计划)



完美预测对应于决定系数R^2趋近于1。预测每个实例的平均值对应于R^2趋近于0(即模型根本没有学会区分实例)。


大多数人的直觉认为R^2的值在0.5到0.8之间。许多组织这次挑战的专家都抱有很高的期望。


然而,实际结果却令人大失所望R^2的值介于0.03到0.23之间


要知道:数百名专业的的AI/ML研究人员和学生参与了挑战,他们被激励去最大化预测的准确性,而且,每个家庭都被赋予了1.3万个特征。这些是表现最好的模型。



相比之下,只有4个变量的线性回归模型,所得到的结果并不比AI模型差多少(上图绿色线)。


换句话说, “AI”比简单的线性公式好不了多少!


这是症结所在。回归分析已经有一百年的历史了。



同样的发现在其他许多领域都有。


上图是一个“预测再次犯罪”的AI。注意这是正确率,而不是R^2,所以65%只比随机稍好一点。实际的准确性可能更低,因为虽然这个工具声称可以预测累犯,但实际上它预测的是再次被逮捕,因为这是有数据记录的。因此,至少算法的一些预测性能来自于能够预测的警务偏差。

观点:在预测社会后果方面,人工智能并不比仅使用几个特征的人工评分好多少。


这是一个可以证伪的观点。当然,如果出现相反的证据,我愿意改变我的想法,或者给这个说法加上适当的说明。但鉴于目前的证据,这似乎是最谨慎的观点。



驾照上的扣分可以被看作是预测事故风险的一种方法。一些研究发现,这样的系统校准得相当好。我们早就知道,在很多领域,如果我们真正想做的只是预测(通常不是),那么简单的公式比人类的预测更准确,即使是经过多年训练的专家。


Daniel Kahneman 解释说,这是因为人类的预测往往是“嘈杂的”:给定相同的输入,不同的人(甚至是同一个人在不同的时间)会做出截然不同的预测。使用统计公式则消除了噪音。



人工智能在预测社会后果方面的危害:
  • 对个人数据的需求

  • 权力从领域专家大规模转移到不负责任的科技公司手中

  • 缺乏可解释性

  • 影响干预

  • 准确性流于表面

  • ……


与人工评分规则相比,人工智能预测有很多缺点。


最重要的是缺乏可解释性 。想象一下这样一个系统,当你每次被交警拦下时,交警将你的数据输入电脑,而不是从驾照上扣分。大多数时候你可以自由驾驶,但突然某天,黑盒系统告诉你,你不能再开车了。不幸的是,我们今天在很多领域都有这样的系统。


总结


  • 人工智能擅长某些任务,但无法预测社会后果。

  • 我们必须抵制意图混淆这一事实的巨大商业利益。

  • 在大多数情况下,手动评分规则同样准确,更加透明,值得考虑。



新智元AI朋友圈详细使用教程,8000名AI大玩家和实践者都在这里!

登录查看更多
0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
Yann Lecun 纽约大学《深度学习(PyTorch)》课程(2020)PPT
专知会员服务
179+阅读 · 2020年3月16日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
AI换脸朱茵变杨幂,技术背后细思极恐
大数据技术
7+阅读 · 2019年3月1日
王飞跃教授:生成式对抗网络GAN的研究进展与展望
算法与数学之美
12+阅读 · 2019年2月16日
美国顶尖 AI+教育公司,都在研究些什么?
硅谷第一线
4+阅读 · 2019年1月18日
全球最大AI独角兽诞生中国,商汤科技凭什么?
商业周刊中文版
5+阅读 · 2018年4月9日
盘点2017年度AI领域大事件
大数据文摘
5+阅读 · 2017年12月9日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
11+阅读 · 2018年1月15日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关资讯
AI换脸朱茵变杨幂,技术背后细思极恐
大数据技术
7+阅读 · 2019年3月1日
王飞跃教授:生成式对抗网络GAN的研究进展与展望
算法与数学之美
12+阅读 · 2019年2月16日
美国顶尖 AI+教育公司,都在研究些什么?
硅谷第一线
4+阅读 · 2019年1月18日
全球最大AI独角兽诞生中国,商汤科技凭什么?
商业周刊中文版
5+阅读 · 2018年4月9日
盘点2017年度AI领域大事件
大数据文摘
5+阅读 · 2017年12月9日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
相关论文
Top
微信扫码咨询专知VIP会员