AI一周热闻：大疆无人机可进行树木分类；阿里用AI封装购物包裹

会员服务 ·

AI一周热闻：大疆无人机可进行树木分类；阿里用AI封装购物包裹

2018 年 5 月 9 日 AI前线 Jack Clark

译者 | 核子可乐

编辑 | Debra

AI 前线导读：

大疆无人机再加上一点耐心，即可完成树木分类工作
AGI 安全研究人员的定位与工作内容
为什么您的下一份阿里巴巴购物包裹可能由 AI 负责封装
Facebook 将自动翻译选项引入 Messenger
一套能够理解并解释宇宙现象的神经网络
谷歌 sim2real 迁移学习成果喜人
Facebook 公司利用图片主题标签提高图像识别准确性
TPU 在使用成本方面优于 V100 GPU，但性能基本相当
OpenAI 关于 AI 安全性的讨论

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

大疆无人机再加上一点耐心，即可完成树木分类工作

…实验证明，消费级无人机能够收集树种分类详细数据…

日本研究人员已经证明，消费级无人机摄像头的质量足以收集关于树木的 RGB 图像，并利用此类数据训练 AI 模型以实现物种区分。

技术细节：研究人员们于 2016 年年底利用无人机对日本京都上贺茂实验站的林地进行扫描，旨在收集树种数据。研究人员们选择了商用消费级无人机（大疆 Phantom 4）配合用于导航（DroneDeploy）及图像编辑（Agisoft Photoscan Professional）的专用软件。

相关成果：训练完成的最终模型将能够对六种树种中的五种进行识别，且准确度接近 90% 甚至更高。研究人员们通过复制并增加输入数据以改善分类器效能。

为何值得关注：现代人工智能最为强大的优势之一，在于其能够对任何训练数据集进行有效分类。此类研究工作指向更为光明的未来，即利用无人机及其它机器人定期扫描并分类我们周遭的世界，从而实现植物与动物管理、灾难响应以及其它新的功能应用方式。

了解更多：利用无人机机载摄像头与深度学习技术实现树木自动分类（Arxiv）。

https://arxiv.org/abs/1804.10390

AGI 安全研究人员的定位与工作内容

…AI 安全是什么，该领域进展如何，下一步发展方向又在哪里？…

澳大利亚国立大学的研究人员们（包括 Marcus Hutter）对人工智能领域开展一项调查，旨在概述各类 AGI（即通用人工智能）项目间的差异与交集。这篇论文还探讨了人们从事人工智能安全工作的原因：“如果我们希望人工智能方案能够切实追求我们所认可的目标，那么必须确保我们所设计出的 AGI 能够满足这样一项原则：有益目标不会随着系统智能度的提高而自动出现。”

问题，问题无处不在： 这篇论文当中包含对 MIRI、OpenAI、DeepMind 以及 Future of Life 研究院等机构所追求的不同 AGI 安全研究议程的全面合理描述。总结来讲，关于人工智能安全存在着多种不同问题，而 OpenAI 与 DeepMind 团队在专业研究方面存在着相当程度的交集。

政策谜团：研究人员们写道，“可以说，关于 AGI 的公共政策尚未真正出现。”他们同时指出，目前行业在建立人工智能政策方面作出了初步尝试（包括近期发布的‘Maicious Actors’报告 https://blog.openai.com/preparing-for-malicious-uses-of-ai/），他们亦观察到大部分现有公开宣传内容（美国与中国之间出现人工智能军备竞赛）与 AI 行业提出的大部分政策建议背道而驰。

了解更多： AGI 安全文献回顾 (Arxiv https://arxiv.org/abs/1805.01109）

你的下一份阿里巴巴购物包裹可能由 AI 负责封装

…中国研究人员展示了如何让 AI 学习货品装箱…

来自中国的研究人员与浙江菜鸟供应链管理公司人工智能部门利用多任务学习技术，在 3D 封冻问题（简称 BPP）方面取得了理想成果。在这项工作中，他们努力构建一套系统，旨在找到最理想的包裹堆叠方式，并通过适应算法以识别包裹外形。BPP 听起来非常乏味——毕竟其研究的重点在于如何将货品放在包裹箱内——但其对于物流及电子零售行业而言却至关重要。因此，以适应性学习方式尽可能合理地对任意数量商品进行打包，确实存在一定的现实意义。

数据：研究人员们利用一套未公开的电子商务平台及物流平台收集数据（考虑到其中一名研究人员来自阿里巴巴，因此数据也很可能来自淘宝平台），从而建立一个由 15000 个训练项目与 15000 项测试构成的商品数据集，其中各订单包含的货品数量分别为 8 样、10 样与 12 样。

实现方法：他们将此问题转化为序列到序列任务，其中项目描述以输入内容的形式馈送至 LSTM 编码器，而解码器则负责输出与货品情况相对应的结果以及装箱方法。

结果：研究人员们训练出的模型拥有远超以往方案的准确性。目前这方面的竞争性解决方案还不多，但我们不确定随时间的推移这一切是否会发生变化。

了解更多：用于解决新型 3D 包裹装箱问题的多任务选定学习方法（Arxiv）https://arxiv.org/abs/1804.06896

Facebook 将自动翻译选项引入 Messenger

…”M Translations”功能将让用户能够解决语言差异问题…

Facebook 公司在其 Messenger 当中添加了新的自动翻译服务。这类翻译功能可能会为该公司带来新的商机——“在发布后，M Translations 将能够实现英文与西班牙文互译，并直接登陆美国买卖双方的 Marketplace 聊天平台。”

了解更多：F8 大会上的 Messenger 新消息 – 应用评论功能重新开启，面向企业与开发者的多款新产品正式发布 (FB Messenger 博客)。

https://messenger.fb.com/newsroom/re-opens-app-review-launches-new-products-at-f8/

一套能够理解并解释宇宙现象的神经网络

…当粒子物理遇上人工智能…

哈佛大学的研究人员们展示了其如何利用神经网络来分析射流中的粒子运动。神经网络适用于分析此类多变量问题，因为其能够从观察到的数据当中学习概率分布，并通过持续计算对系统力的产生作出解释。研究人员们解释称，“我们围绕基础物理学理论对神经网络架构进行了训练与描述具体来讲，我们利用 UNIPR 框架与算法喷射聚类树结合起来。JUNIPR 框架由此生成了一套概率模型——而非生成模型。该概率模型让我们可以直接对单一射流的概率密度进行计算，从而定义其组成粒子的动量集合。”

结果：科学家们利用 JUNIPR 模型更好地对大规模物理实验当中产生的数据流进行分析与预测，并有望揭示更多我们尚不了解的底层系统——例如分析重离子碰撞效应。

了解更多：JUNIPR: 一套适用于粒子物理学的无监督机器学习框架 (Arxiv)。

https://arxiv.org/abs/1804.09720

谷歌 sim2real 迁移学习成果喜人

…研究人员们通过域随机化、高保真模拟与智能 Minitaur 机器人跨越现实鸿沟…

谷歌公司的研究人员们已经训练出一台简单的机器人，其能够在模拟环境当中行走，而后将学习结果迁移至真实机器人之上。这项将现代人工智能技术应用于机器人领域的成就极具现实意义，特别是考虑到以往在模拟环境下学习到的策略往往无法被成功迁移至现实场景当中。

研究人员们使用的是“Minitaur”机器人（https://www.ghostrobotics.io/），这是一台能够步行、跑动以及跳跃的四脚机器。由于缺少对应传感器，所以某些状态（例如 Minitaur 基座或腿部接触力）无法直接访问。为此，研究人员们将学习过程设计为观测马尔可夫决策流程（简称 POMDP）。研究人员们通过提高物理模拟器的分辨率以发挥其数据传输专长，并应用多种域随机化技术提升训练模型的多样化适应水平。

真实机器人成本惊人：为了提升模拟器的分辨率，研究人员们需要建立一套更强大的机器人模型。他们写道，“我们拆开了一台 Minitaur，测量尺寸、进行部件称重、找到每条传动链的重心，并将这些信息整理到 URDF（统一机器人描述格式）文件当中。”正因为这一过程极为复杂繁琐，因此将模拟环境下的学习经验引入现实场景时，才总会发生许许多多问题。

结果：研究人员们成功地训练并迁移了一系列策略，这些策略使得真实机器人得以在 Googleplex 一个铺满地毯的房间中奔跑驰骋。他们的人工智能模型学习到的运动步幅与专业手调结果基本相同，但行动功耗却明显下降：踏步功耗减少 35%，跑动功耗减少 23%。

了解更多：从模拟到现实：四路机器人如何学习敏捷运动（Arxiv）。

https://arxiv.org/abs/1804.10332

Facebook用图片主题标签提高图像识别准确性

…凭借着超过十亿张图片与一千种来自用户的主题标签，这套模型创下 ImageNet 最新得分纪录…

Facebook 公司研究人员通过 10 亿张预训练图片外加 1500 个用户主题标签，终于在 ImageNet 数据集当中创下新的图像识别得分纪录（最高准确度为 85.4%）。此外，他们还利用这种方式在 COCO 图像字幕数据集当中实现效能提升。

更多数据并不一定能带来更好的效果：研究人员们指出，在对超过 10 亿图像进行预训练时，他们最初使用 17000 个主题标签进行系统注释。然而，事实证明相同数量的图像加上 1500 个主题标签反而能够得出更好的 ImageNet 数据集识别效果。这意味着额外的弱监督信号确实能够显著提升效能，但亦要求研究人员对其进行经验性测试，以确保每周监督数据结构得以校准，并最终最大限度提高准确度。

规模：研究人员们指出，尽管采用了拥有多达 336 个 GPU 的系统，但他们仍可以进一步扩展这套模型，进而从已经上传至 Facebook 平台上的、包含 35 亿张图像的大型素材库中收集信息。

了解更多：通过对标签进行深度学习以提升先进图像识别能力（Facebook Code 博客 https://code.facebook.com/posts/1700437286678763/）

了解更多：探索弱监督预训练的限制（Facebook 研究论文）。

https://research.fb.com/publications/exploring-the-limits-of-weakly-supervised-pretraining/

TPU使用成本优于V100 GPU，但性能相当

…测试表明，异构芯片时代还远未真正到来…

RiseML（https://riseml.com/）对谷歌的定制化“TPU”芯片同英伟达 V100 GPU 进行了性能比较，结果显示 TPU 相较于传统 GPU 仅带来微弱的性能优势。

评估：研究人员们通过两种方式对芯片进行评估：首先，他们在合并数据且无数据增强条件下测量吞吐量（即每秒图像数量）。接下来，他们着眼于二者在 ImageNet 数据集处理方面的准确性与收敛性。

结果：当两套系统同时运行 TensorFLow 以实现 ResNets 时，任务规模较大条件下（1024）TPU 的吞吐量略超过 V100。然而，在使用 MXNet 框架时，英伟达芯片的吞吐量又略微反超 TPU。而当以美元成本为基础进行评估时，TPU 较 V100 更具优势（即使后者由 AWS 预留实例提供）。在测试当中，研究人员在 TPU 与 V100 上分别训练 ImageNet 分类器，并发现前者表现出更快的收敛性。除了价格因素——目前只有谷歌公司一家在提供相关服务，因此很难了解其真正成本——我们还看不到 TPU 拥有真正超越 GPU 的显著优势。这表明英伟达公司将凭借着其数十亿美元的研发投资继续领跑 GPU 在机器学习领域的发展。

了解更多：在 REsNet-50 上比较谷歌 TPU 与英伟达 V100 的性能表现（Arxiv）。

https://blog.riseml.com/comparing-google-tpuv2-against-nvidia-v100-on-resnet-50-c2bbb6a51e5e?gi=d855049eda17

关于 OpenAI

安全讨论：我们该如何确保对 AI 系统的决策过程进行追踪，但又无需访问其传感器或者具备与 AI 系统相当的智能水平？这是 OpenAI 目前最新的人工智能安全工作重点。您可以关注更多拟议辩论以评估并调整智能系统，并通过网站测试自己的判断。

了解更多：AI 安全问题辩论 (OpenAI 博客 https://blog.openai.com/debate/)。

在网站上测试您的想法。（https://twitter.com/geoffreyirving/status/992158817356955648）

麻省理工学院《技术评论》上发布了一篇关于该方法的外部研究人员观点的文章。正如我的同事 Geoffrey Irving 所言: “我喜欢文章当中所抱持的怀疑态度。在得到我们的信任之前，任何安全方法都需要经过大量的测试与琢磨。”

（https://twitter.com/geoffreyirving/status/992158817356955648）

了解更多：我们该如何确认 AI 表现？也许应该让 AI 自己看看人们的观点（麻省理工学院〈技术评论〉）。

https://www.technologyreview.com/s/611069/how-can-we-be-sure-ai-will-behave-perhaps-by-watching-it-argue-with-itself/

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果您想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：

https://jack-clark.net/2018/05/08/import-ai-93-facebook-boosts-image-recognition-by-pre-training-on-a-billion-photos-better-robot-transfer-learning-via-domain-randomization-and-alibaba-linked-researchers-improve-bin-packing-with-a/

AI前线-01.png