Uber 自动驾驶车辆伤人致死
神经网络“教师”提高 AI 能力
10 万 + 开发人员调查显示出人们对人工智能的担忧
百度与丰田、伯克利研究人员组织自驾车赛挑战赛,由百度新公布的自驾车数据集支持
微软发布深度学习框架的“Rosetta Stone”
进化对 AI 代理设计带来的潜在危险
Allen AI 发布“ARC”挑战赛,叫板当今最优秀算法
据今日凌晨外媒报道,上周日(18 日)晚上 10 点,美国亚利桑那州 Tempe(坦佩市)一名女子被优步自动驾驶汽车撞伤,之后不幸身亡。路透社报道称,这是全球首例自动驾驶车辆致人死亡的事件,或对该项新技术的引入形成冲击。一名优步发言人称,优步将暂停其在美国和加拿大的自动驾驶项目。
Tempe 警察部门报告称,事发时,尽管有一名司机坐在方向盘后面,但是,这辆车当时正处于自动控制模式,当时行驶车速为每小时 38 英里,而该地区限速为每小时 35 英里,而且没有尝试刹车。该车当时正朝北行驶,而该女子正在从距人行横道 100 码(约 91 米)的地方从西往东走。据《财富》北京时间 3 月 20 日报道,亚利桑那州坦佩警察局局长西尔维亚·莫伊尔(Sylvia Moir)表示,初步调查显示,在致一名行人死亡的交通事故中,Uber 可能不存在过错。他表示,Uber 自动驾驶汽车配备的摄像头拍摄的视频显示这次交通事故过错在受害者本人——今年 49 岁的伊莱恩·赫茨伯格(Elaine Herzberg),而非 Uber。“根据受害人横穿马路的方式,无论是有人还是自动驾驶模式,要避免这起交通事故是极其困难的。”
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
事故的具体原因还在调查之中。
DeepMind 的研究演示了如何通过预先训练的“教师”agent 向另一个 agent 传输知识,以提高其性能。该技术显著提高了训练 AI agent 的速度,并且有证据表明,被传授知识的 agent 获得了比未经过传授的 agent 更高的性能。该技术可以两种方式“传授知识”:单一教师和多教师;与预期相符,通过多名专业“教师”进行预训练的 agent 比单一“教师”训练的 agent 性能更高。
奇怪而微妙:这种方法的一些特点对开发更加复杂的人工智能代理似乎有所帮助:在一项任务中,DeepMind 需要在找出如何使用短期记忆来获得高分方法的 agent 上进行测试。 '学生'代理人(只有两个卷积层)通常无法学会使用存储器,因此无法突破某个分数上限,但研究人员创建的一个由专业“多教师”训练的'学生'代理人,却可以完成这个任务。“这可能令人惊讶,因为这个启动机制仅指导“学生 agent”如何采取行动,但它不会限制“学生”如何构建其内存状态。“学生”只能通过根据 respawn 之前的信息来预测“教师”的行为,这似乎是驱动短期记忆形成的充足的监督信号。研究人员写道,我们发现这与最好的人类教育工作者的教导方式非常相似:不告诉学生思考什么,而是简单地让学生怎么学习,来取得丰硕的成果。
为什么它很重要:这样的趋势表明,科学家可以通过使用这种预先训练的技术来更好地评估新代理,从而加快研究进度。这进一步证实了人工智能研究的一个关键输入将从预先标记的静态数据集转换为计算的概念。但应该指出,这里的数据是研究人员可以访问的程序性、可修改的模拟器的隐式数据。更远地说,这意味着我们可以通过不同的“教师”组合来训练复杂的代理人,这些代理人的能力远远超过他们任何一位先辈(forebear),使总体之和大于各部分性能。
阅读更多:https://arxiv.org/abs/1803.03835。
... 开发人员认为他们危险但令人兴奋,那谁应该为他们负责呢?...
开发者社区 StackOverflow 发布了其社区年度调查结果,今年的话题是关于 AI 的:
开发人员认为人工智能的“威胁”是什么:工作岗位自动化程度提高(40.8%)
开发人员认为人工智能“令人兴奋”之处是什么:人工智能可能超越人类智慧(28%)
谁应该为 AI 带来的后果负责:
开发人员或创建 AI 的人员:47.8%
政府或其他监管机构:27.9%
不同的人有不同的担忧:技术专家表示相比于单一性,他们更关心 AI 带来的公平问题,而设计师和移动开发人员则更关心单一性。
阅读更多:https://insights.stackoverflow.com/survey/2018/。
...“ApolloScape”为自动驾驶研究人员增加了中国自动驾驶的数据,另外,百度表示其已加入伯克利的“DeepDrive”自驾车人工智能联盟...
一项新的竞赛和数据集可能会给研究人员提供一种更好的方法,以衡量自动驾驶汽车的功能和研究进展。
数据集:来自百度的'ApolloScape'数据集包含约 200,000 RGB 的图像,并带有相应的逐像素语义注释。每个框架都由 25 个语义类组成,包括:汽车、摩托车、人行道、交通锥、垃圾桶、植被等信息。每幅图像的分辨率均为 3384 x 2710,每两张图像之间间隔一米。截至 2018 年 3 月 8 日,百度已发布 8 万张图片。
在这里阅读关于数据集的更多信息 http://apolloscape.auto/scene.html。
更多信息:ApolloScape 研究人员将在中国的 IEEE 智能车辆研讨会上讨论自动驾驶汽车话题 http://www.2018iv.org/SS07.html。
竞赛:这项名为'WAD'的新赛事将给人们一个在 ApolloScape 数据集和 Berkeley DeepDrive 数据集(DeepDrive 数据集包含 100,000 个视频剪辑,每个视频剪辑大约 40 秒长,每个剪辑的注释包含一个关键框架)上开发 AI 系统的机会。该赛事的现金奖金约为 10,000 美元,研究人员正在征集有关这些研究技术的论文:可驱动区域分割(能够找出场景对应的标签以及哪些是安全区域);道路物体检测(分辨出道路伤的物体);将学习从一个语义领域转移到另一个语义领域,特别是将 Berkeley 数据集(在美国加利福尼亚州拍摄)训练转移到 ApolloScape 数据集(在中国北京拍摄)。
阅读更多关于'WAD'比赛的信息 http://wad.ai/challenge.html。
... GitHub repo 演示了几种不同的基本操作方法...
微软发布了一个 GitHub repo,其中包含了 Caffe2,Chainer,CNTK,Gluon,Keras(后端 CNTK / TensorFlow / Theano),Tensorflow,Lasagna,MXNet,PyTorch 和 Julia-Knet 等在不同框架中应用的相似算法。这个 repo 旨在让用户在一种框架中使用一种算法后,即可以使用这些知识来了解其他框架。
“我们今天发布的完整 1.0 版 repo 就像是一个深度学习框架的 Rosetta Stone,展示了在不哦那个框架中端对端模型构建的过程,”研究人员在一篇博客文章中写道,该文章还提供了一份 CNN 和 RNN 训练时间的粗略基准测试结果。
阅读更多:Comparing Deep Learning Frameworks: A Rosetta Stone Approach (Microsoft Tech Net).https://blogs.technet.microsoft.com/machinelearning/2018/03/14/comparing-deep-learning-frameworks-a-rosetta-stone-approach/。
查看代码示例(GitHub)
https://github.com/ilkarman/DeepLearningFrameworks。
... 为什么 AI 安全社区能够从进化中学习...
一个由国际研究人员组成的联盟发表了一篇论文,揭示了进化算法通过一些奇怪的、令人恼火的、有趣的方法找出非显著性的解决方案,并且成功攻击了目标任务。该论文用一系列例子明确揭示了算法违背了人类监督员的意愿,包括:
翻筋斗的投机者:当研究人员试图让生物进化跳跃技能时,一些 agent 发现他们可以生成非常高的身体,然后翻筋斗,就可以获得与他们距离地面的距离成比例的奖励。
毫无意义的程序:当研究人员试图用 GenProg 发展代码来解决一个错误的数据排序程序时,GenProg 发展出了一个解决方案,该程序会返回一个空列表,因为空列表不包含任何内容,所以不会发生排序故障,进而被计为负分。
物理学黑客:在物理模拟环境中,一个机器人计算出正确的振动频率,以便在物理模拟器中的环找出地面上的摩擦缺陷,并通过缺陷进入地下。
进化发现一种方法:另一种类型的错误,是研究人员认为是不可能的假设,如一个六腿机器人能够在脚不接触地面的情况下快速行走(解决方案:它翻转过来背靠地,用腿的运动来推动自己前进)。
以及更多!
研究人员认为,进化也可能让人工智能安全中一些令人不安的问题浮出水面。 “数字进化中让人惊叹和具有创造性的成果会产生其他的交叉性影响。例如,本文中的“失控的选择等”很多例子都与人工智能安全的新兴领域息息相关,研究人员写道。 “因此,这些轶事成为了进化的证据——无论是从生物学上还是计算领域,进化都具有内在的创造性,并且经常带给我们震惊、惊喜和超越人类的智慧。”。
阅读更多:The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities (Arxiv).
https://arxiv.org/abs/1803.03453。
...Allen AI 设计常识问题来挑战当今宣称最优秀的算法...
在宣布投资 1.25 亿美元致力于发展通识人工智能研究之后,艾伦人工智能研究所又发布了一项新的“ARC”挑战,研究人员可以将数据集用于开发更智能的算法。
数据集:主要的 ARC 测试包含 7787 个自然科学问题,分为一组简单问题和一组较难问题的集合。较难问题是通过基于检索的和词语共现算法回答不正确的问题。此外,AI2 正在发布'ARC 语料库',收集了 1400 万篇与科学相关的句子,以支持 ARC 解决算法的开发。这个语料库包含与 95%与挑战赛事相关的知识,AI2 写道。
神经网络基线:AI2 还发布了三个基线模型,这些模型已经在挑战中进行了测试,在“简单问题”集合中取得了一些成功,而且没有比“较难问题”集合的表现出明显优势。这三个模型分别为可分解的关注模型(DecompAttn)、双向注意流(BiDAF)和分解图形包含模型(DGEM)。 ARC 中设计的问题旨在测试从定义、空间到代数的所有知识,并鼓励使用能够抽象和概括大数据语料库概念的系统。
测试结果:ARC 非常具有挑战性:AI2 神经网络方法(与其他)基准测试发现,在“简单”问题上的分数最高为 60%,在更具挑战性的问题上分数最高为 27%。
示例问题:“矿物的哪个属性可以通过视觉确定? (A)光泽 [正确](B)质量(C)重量(D)硬度”。
SQUAD 继承者:ARC 可能是斯坦福问题答疑数据库(SQUAD)和挑战的继任者;SQuAD 竞赛最近取得了一些里程碑,从微软、阿里巴巴到 iFlyTek 都在开发 SQUAD 解决方案,成绩接近人类表现(ExactMatch 为 82%,F1 为 91%)。对 SQUAD 主题领域研究让我们直观地了解到,SQUAD 比 ARC 测试分数高得多的原因,简而言之就是 SQUAD 更容易,后者仅将诸如“大多数教师从哪里获取教师资格?”等基本问题组合在一起,无需抽象即可从文本中检索到。
为什么它很重要:“我们发现,所有模型的测试表现都不如挑战测试集,包括两个在 SNLI 和 SQuAD 上具有高性能的神经模型,”研究人员写道。现在最大的问题是这个数据集在 Goldilocks 频谱上的位置,这是对于系统来说太容易(请参阅:Facebook 的早期内存网络测试),太难,还是正好?如果一个系统在 ARC 的较难问题集上的纷纷为 75%左右的话,那么算法在理解和知识表示方面似乎有了重要的进步。
阅读更多:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge (Arxiv).https://arxiv.org/abs/1803.05457。SQuAD scores available at the SQuAD website.
https://rajpurkar.github.io/SQuAD-explorer/。
阅读更多:SQuAD: 100,000+ Questions for Machine Comprehension of Text (Arxiv).https://arxiv.org/abs/1606.05250。
作者 Jack Clark 有话对 AI 前线读者说:我们对中国的无人机研究非常感兴趣,如果您想要在我们的周报里看到更多有趣的内容,请发送邮件至:jack@jack-clark.net。
原文链接:
https://jack-clark.net/
想看更多这类文章, 请给我们点个赞吧!