AI一周热闻：阿里成立半导体公司平头哥；亚马逊发布11款新产品；科大讯飞回应AI同传造假

2018 年 9 月 26 日 AI前线

作者 | Jack Clark

翻译整理 | Debra

编辑 | Natalie

AI 前线导读：
- 阿里成立“平头哥”，研究量子计算应用
- 亚马逊发布 11 款新产品，包括智能微波炉和挂钟
- AI 同传被指造假，科大讯飞回应
- 全球视野：未来将会出现卫星 - 情报联动服务
- Kindred 建立更简单的机器人测试基准
- 加州大学伯克利分校、OpenAI 等提出新元策略优化方法
- 皮尤调查：人们对自动化持悲观态度，预期大量工作岗位将被机器替代
- 腾讯挑战简化版星际争霸 2，击败所有级别 AI

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

阿里成立“平头哥”，研究量子计算应用

9 月 19 日，在云栖大会上，阿里巴巴 CTO 和达摩院院长张剑锋宣布成立平头哥半导体有限公司，进行量子计算方面的研究与应用。

这家公司将由阿里此前收购的芯片公司—中天微系统有限公司，和达摩院自研芯片业务整合而成。据了解，马云赐名的“平头哥”，寓意着阿里重新创业的精神，这与这种非洲草原上虽身材娇小却无所畏惧的动物特性非常契合。

据张建锋透露，平头哥将在 2019 年 4 月发布第一块神经网络 AI 芯片，以及完全自主研发的 CK902 系列芯片等，并且计划在未来 2–3 年里打造一款真正的量子芯片，而首批芯片将应用在阿里数据中心、城市大脑和自动驾驶等云端数据场景中。

2017 年，阿里巴巴加大投资人工智能，成立专注于 AI 芯片研发的达摩院，平头哥的创立是其从研发走向资产、产业落地的行动，加速其人工智能布局。

亚马逊发布 11 款新产品，包括智能微波炉和挂钟

近日，亚马逊在美国西雅图召开的发布会上一口气发布 11 款新产品，产品线继续扩大。

新发布产品包括新款智能音箱 Echo Show，售价为 299 美元，它让用户可以直接使用视频聊天应用 Skype，还能利用 Fire TV Recast 连接电视，支持 Firefox 等浏览器；新款 Echo Dot 售价 49 美元，很多用户将其作为中控或者设备放大器；第二代 Echo Plus 售价 149 美元，支持断网本地语音控制并可根据室温自动调节空调；新品类 Echo Sub 主打音质；车载设备 Echo Auto 支持音乐、语音指令查询路线等；Echo Basics 微波炉售价 60 美元，内部搭载 Alexa Connect Kit 芯片组；Echo Wall Clock 挂钟售价 30 美元，表盘周围有 60 个 LED 指示灯，可以当作定时器，并可实现自动时间同步和夏令时调整；Echo Input 自带麦克风，可以让家中无法联网的音箱变为智能音箱，实现 Alexa 语音交互等一系列功能；Echo Link/Link Amp 也有类似的作用，可以将传统的音箱变成可供 Alexa 控制的无线智能音箱；Echo 智能插座 售价 25 美元，在无需智能家居控制中心的前提下，让非智能设备也能实现 Alexa 语音操控开关的功能；Ring Stick Up Cam 是一款智能摄像头，售价 180 美元。

亚马逊发布众多新产品，可以看到其在智能家具领域扩大布局的决心。

科大讯飞 AI 同传被指造假，科大讯飞回应

2018 创新与新兴产业发展国际会议上，一名同传人员发文质疑科大讯飞用人类同传的翻译结果冒充 AI 同传，引起舆论对于 AI 同传的热议。

对此，科大讯飞方面回应道，从未在宣传中强调 AI 同传，并表明科大讯飞董事长刘庆峰已在演讲中说明此类服务属于“人机耦合”，而非同传。

科大讯飞表示，其智能会议系统主要提供两种解决方案：一种是离线翻译，现场全自动翻译并同步展示在屏幕上，没有任何人工同传参与；另一种是会议转写上屏服务，即语音识别人类同传的翻译结果，并在大屏幕上显示，此次引起争议的正是此种服务。

全球视野：未来将会出现卫星 - 情报联动服务

全球最大的星群成像卫星运营商 Planet 和卫星处理数据创业公司 Orbital Insight 宣布达成合作，共享图像信息。这种之前通常秘密进行的交易，现如今可以光明正大地进行。下一秒，你可能想到的就是也花点钱买服务，提高自己的情报工作能力。

人工智能 + 情报： 人工智能与情报机构传统上专门研究的各种任务关系越来越大，但是这些类似智能的任务（例如，自动计算汽车数量），现在很多私企也可以做到了。这种 AI 能力的普及正在创造巨大的商业和科学利益，但它也让之前拥有保密预算机构所做的事情，现在几乎都可以用钱买到。这会让依靠技术优势而保持的稳定地缘政治局面被打破，AI 的普及和“双重用途”的性质，与地缘政治的不断变化有着密切的联系。希望以上的交易能引起人们关于现代 AI 系统的影响力和普及引起的后果的长远考虑。

阅读更多：Planet 和 Orbital Insight 扩展卫星图像合作伙伴关系（https://www.prnewswire.com/news-releases/planet-and-orbital-insight-expand-satellite-imagery-partnership-300714991.html）。

Kindred 建立更简单的机器人测试基准

机器人创业公司 Kindred 的研究人员在此前机器人标准化的工作基础上，以每三个商业机器人平台为一组，创建了一套包含两个任务的系统来对机器人性能进行对比。

实验中使用的机器人为 Universal Robotics UR5 协作臂，Robotis MX-64AT Dynamixel 执行器（经常在其他机器人中使用），以及一个 hockeypuck 形状的 Create2 移动机器人。

标准任务：对于 UR5 手臂，研究人员通过选择性地打开 / 关闭机器人上的不同执行器来增加认为复杂性，从而创建两个难度不同的任务。对于 DXL 执行器，他们创建了一个跟踪任务，要求 DXL 精确跟踪移动目标。他们以两种方式测试 Create2 机器人，其中移动任务需要机器人在封闭的赛场中尽可能快地向前移动并对接，停靠任务是让其停靠连接到一个充电桩上。

算法基准测试：研究人员对多种被广泛应用的 AI 算法，包括 TRPO 和 PPO，DDPG 和 Soft-Q 来进行对比。通过将任务标准化，研究人员可以更轻松地比较超参数选择对不同算法的影响，并通过在真实世界的机器人平台上执行这些任务，了解这些算法在处理现实问题上的表现。

缺点：这些任务的一个缺点非常简单，机器人平台的移动维数明显较少。此类任务最大的缺点在于任务是在机器人平台进行，而非在现实 - 模拟混合环境中，非常耗时，进行了 450 多次独立实验，共计耗费了 950 小时的机器人使用时长。

阅读更多：真实世界机器人增强学习算法基准测试（https://arxiv.org/abs/1809.07731）。

加州大学伯克利分校、OpenAI 等提出新元策略优化方法

加州大学伯克利分校，OpenAI，Preferred Networks 和卡尔斯鲁厄理工学院（KIT）的研究人员开发了基于模型的元策略优化，这是一种元学习技术，可以让 AI 代理泛化到更加陌生的环境。“虽然传统的依赖于学习的动态模型的 RL 方法已经可以足够准确，使得学习策略成功迁移到现实环境中，但我们放弃了对这种准确性的依赖，”研究人员写道。“我们能够通过学习动态模型集合并将政策优化步骤框定为元学习问题来实现这一目标。在 RL 的环境中，元学习旨在学习一种能够快速适应新任务或环境的政策”。该技术建立在模型不可知的元学习（MAML）之上。

工作原理：MB-MPO 的原理与大多数元学习算法一样：将环境视为要学习的不同数据，从现实世界收集数据，使用这些数据学会完成任务，并了解什么轨迹可以更快速地完成任务，最终学习到其成功策略的良好特征的预测模型，另一方面使用它来推动内循环策略梯度适应，以学习适应新的环境。

结果：使用 MB-MPO，研究人员可以“使用现实世界两小时的实际数据学习到高维和复杂四足运动的最优策略。请注意，使用无模型方法学习此类策略所需的数据量要比它高出 10X 至 100X，且之前基于模型的方法无法在此类模型中获得无模型性能。”在对各种模拟机器人进行的基准测试中，研究人员表明，“MB-MPO 能够将无模型方法的渐近性能相匹配，而所需样本减少两个数量级。”该算法的性能也优于对比的两个基于模型的方法。

重要性：元学习是人工智能内部演变的一部分，它让研究人员编写的系统元素越来越少。DeepMind 的 David Silver 在最近的一次演讲中总结得非常好，他将深度学习和元学习之间的区别描述为学习特征和端到端预测之间的差异，或者是学习算法和特征与端到端预测之间的差别。

阅读更多：通过元策略优化进行基于模型的强化学习（https://arxiv.org/abs/1809.05214）。

David Silver 演讲 PPT：https://twitter.com/seb_ruder/status/1040241906066829313

皮尤调查：人们对自动化持悲观态度，预期大量工作岗位将被机器替代

最近，皮尤研究对多个国家的调研结果显示出人们对自动化的深深忧虑。十个国家的大多数人认为，计算机可能会在 50 年内替代人类完成目前所做的大部分工作。如果计算机最终替代人类完成一系列工作，那么：

人们很难找到工作。
富人和穷人之间的不平等将比今天更加严重

少数人观点：少数受访者认为上述情况会创造“新的、薪酬更高的工作”，少数人（波兰，日本和匈牙利除外）认为这会使经济更有效率。

值得注意的数据：调查的不同国家对自动化的态度差异明显：美国人认为机器人和计算机有 15％的可能“绝对”会在 50 年内完成大部分工作，而希腊人则认为可能性为 52％。

另外，这项调查的数据分为两个时期：对美国进行的调查在 2015 年展开，而其他 9 个国家的调查时间为 2018 年 5 月中旬到 8 月中旬，因此关于美国的调查结果可能会有所改变。

阅读更多：发达国家和新兴经济体对工作自动化的担忧（皮尤研究中心 http://www.pewglobal.org/2018/09/13/in-advanced-and-emerging-economies-alike-worries-about-job-automation/）。

腾讯挑战简化版星际争霸 2，击败所有级别 AI

腾讯的研究人员训练出 AI 代理，在星际争霸 2 中击败了游戏中的所有其他 AI。

研究人员开发了两个 AI 代理，TSTARBOT1 和 TSTARBOT2，并在 SC2 中的 1vs1（虫族 v 虫族，AbyssalReef 地图）游戏中击败所有十个难度级别的 AI 。

首先，研究人员 fork 并修改了 PySC2 软件环境，为 AI 代理提供更多的游戏状态信息，例如在游戏过程中任何时候所有物体的位置信息。他们还添加了一些基于规则的系统，比如构建一个特定的科技树，将每种技术的精确依赖关系发送给 AI 代理。然后他们开发了两个具有不同属性的机器人来玩游戏：TSTARBOT1“基于对平面动作的深度强化学习”，而 TSTARBOT2“基于规则控制器而不是分层动作”。

TSTARBOT1：使用 165 种不同的手写宏动作来帮助它玩游戏。这些行动包括“生产无人机”，“建造蟑螂繁殖场”，“升级 tech A”以及各种战斗行动。这些宏的目的是将需要采取的行动捆绑在一起（例如，构建某物，移动相机，选择工人，选择屏幕上的点，放置建筑物等等），因此 AI 不需要自己学习这些序列。这意味着机器人的一部分是基于规则而不是学习（类似于 OpenAI 的 Dota 机器人 2017 1v1 版本）。虽然这种设计隐藏了游戏的复杂性，但研究人员通过使用稀疏奖励结构改善了这一点，这种奖励结构只会在游戏结束后给代理奖励（1 胜利，0 平局，1 失败）。他们通过部署两个核心强化学习算法来测试游戏中的算法：近端策略优化和 Dueling Double Deep Q-Learning。

TSTARBOT2：通过创建宏操作和微操作两种类型的操作层次结构来进行拓展。通过部署层次结构，RL 算法可以更容易发现在不同时间点采取的适当行动。他们还通过创建特定模块来进一步定义该层次结构，例如用于战斗或生产的模块，其本身包含具有子行为的附加子模块。

结果：研究表明，当使用 PPO 时，TSTARBOT1 可以持续击游戏中 1-4 级的 AI（DDQN 稍微下降），然后在 5-8 级成功率约为 99％，9 级中成功率为 97% 上下，10 级中为 81%。TSTARBOT2 在 10 级游戏中的成绩则比 TSTARBOT1 更高，为 90%。他们还对人类进行了一些定性测试，发现他们的系统能够战战胜人类，但并不是总能。

规模：用于此研究的分布式系统由一个 GPU 和大约 80 个不同机器上的 3,000 个 CPU 组成，说明在此类环境中进行 AI 研究需要大量硬件。

重要的原因：像 Atari 语料库这现有的强化学习基准测试对于许多算法来说太容易了，现代系统通常能够轻松在大多数游戏中取胜。较新的环境，如 Dota2 和星际争霸 2 扩大了复杂性，足以挑战当代算法的性能。这项研究中，为了让机器人学到足够的知识，研究人员进行了大量手动和基于规则的系统调整，表明没有重大调整，SC2 可能对现有的算法来说还是太难了，这会进一步激发人们对新系统的研究。

阅读更多：

TStarBots：在完整游戏中击败星际争霸 II 中的作弊内置 AI（https://arxiv.org/abs/1809.07193）

作者 Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果你想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：

https://jack-clark.net/2018/09/25/import-ai-113-why-satellitesai-gives-us-a-global-eye-industry-pays-academia-to-say-sorry-for-strip-mining-it-and-kindred-researchers-seek-robot-standardization/