360 集团副总裁颜水成谈学界与业界区别：就像热恋和已婚

2018 年 12 月 25 日 AI科技评论

AI 科技评论按：2018 年 12 月 17 日，由鹏城实验室、新一代人工智能产业技术创新战略联盟共同举办的「新一代人工智能院士高峰论坛」在深圳隆重开幕。本次论坛将持续两天，由 17 日的主论坛和 18 日的医疗专题论坛组成。论坛以「『头雁』穿云，云脑启智」为主题，邀请了多位院士、国内顶级科技企业技术负责人参加论坛做报告，论坛的重头戏是院士 panel，多位院士将针对人工智能现状与发展的一些疑难问题展开讨论。此次论坛汇聚了国内人工智能领域顶尖专家，共同探讨行业变革与技术创新、探寻 AI 边界，是 2018 年人工智能领域最值得关注的盛会之一。

360 集团副总裁、360 人工智能研究院院长颜水成博士是 17 日下午主论坛第三位出场的嘉宾，他的演讲题目是《视觉智能：从攻坚到闭环》。

360 集团副总裁、360 人工智能研究院院长颜水成

他说道，360 公司如今的研发不再局限在网络空间，进一步拓展到了物理空间，而人工智能当前主要聚焦打造四大人工智能引擎：运动引擎、交互引擎、视觉引擎以及决策引擎。紧接着，他也为大家介绍了360-NUS联合实验室在视觉智能领域的最新研究成果——Global Reasoning Unit，这个模块可插入任意网络，在浅层网络就能使跨区域进行信息交换成为可能。

同时，颜水成博士也分享个人在业界做研究的心得，他强调，学术界的研究和业界的研究有很大的区别，业界的研发必须回归商业本质，尤其要放在价值闭环与数据闭环的维度上进行思考。价值闭环方面，技术需要对闭环中的产品、客户、企业和社会产生正向推动，不然就有失败的可能。数据闭环方面，由于不存在完美的算法，因此我们只能依赖特定场景的数据来不断优化算法，进而优化产品模型。

最后，颜水成博士用一组有趣的比喻结束了报告：在学术界做视觉智能研究就像恋爱中的男女，而在工业界做研发则更像结婚后的男女。

以下为他的演讲内容，雷锋网 AI 科技评论做了不改变原意的编辑整理。

非常高兴今天有机会在这里做一次很特别的分享。我的背景比较特殊，我在学术界待了大概 8 年，进入工业界也已经有 3 年了，今天的分享包括两方面的内容：一方面我想跟大家分享一个比较有价值的深度学习模型结构；另一方面我想根据我在工业界的 3 年经验，谈谈对人工智能研发，特别是智能视觉研发的两点感悟。

360 的人工智能布局

360的核心是安全，现在我们把安全的概念从网络空间拓展到了物理空间，在关注网络空间问题的同时，通过 AI 能力，把安全的能力从网络空间拓展到物理空间。

今年 5 月份，360 发布了 360 安全大脑。和视觉、语言不一样，安全问题的数据标注需要顶级专家，人的作用是至关重要的，所以，安全大脑是一个人机协同的系统。2018 年上半年，360 的安全大脑对恶意程序拦截的次数，已达到了 400 亿次；对于钓鱼攻击，在半年时间里的拦截次数也多达 200 多亿次；此外对安卓手机中垃圾短信和骚扰电话的拦截次数也非常高，比如半年时间里对骚扰电话的拦截次数已达到 190 亿次。我们可以看到它在这些方面的应用非常典型，而用户的反馈也可以进一步增强安全大脑的能力：用户用得越多，安全大脑也就变得越智能。

我在360主要带领建立360 人工智能平台，为公司的互联网业务和IoT 业务全面赋能。总的来说，我们主要打造了四个引擎：

第一个是运动引擎，对于 IoT 来说，这是第一个非常重要的能力，能让智能硬件在地面上进行智能运动；

第二个是交互引擎，这是国内很多公司都比较关注的点。以前，我们对远场技术方面的关注并不是太多，技术主要以服务于 360 儿童手表为主。交互引擎除了为360手表提供支撑，也用于孵化新的语音类产品。

第三个是视觉引擎，我原来的研究方向以计算机视觉为主，这也算是我的老本行。当前，360 的视觉引擎主要分成两块：一块是支持 360 的家庭安防生态，例如 360 最近发布的一款门铃，它是实实在在地在满足有中国特色的需求，比如当有外卖、快递被送到家的时候，即使不在家，也可以通过语音的方式让外卖员、快递员将货物放在门口，与此同时，这个门铃还可以实时监控这些货物；另一块是对网上图文、短视频信息流的内容进行安全审核和内容结构化分析。

第四个是决策引擎，这是搜索引擎公司特别关注的一个方面。决策引擎主要根据用户的历史行为，来建立相关的决策模型，去预测将来用户可能会对什么东西感兴趣以及会有一些怎样的行为。360 对其主要有三个方面的应用：一是金融领域的控制和决策，上周五 360 金融已在美国上市，对于其风控的部分，360 提供了很多的支持和帮助；二是广告，在过去这段时间，360 的广告业务因为使用决策引擎的相关技术，在技术的性能方面有了多次明显提升；三是推荐，通过深度学习的方法，推荐的效能得到有效提升。

个人研究心得

下面我分享一下个人在业界做研究的心得。

在学术界和工业界进行视觉智能研究，差别是非常大的。在学术界研究视觉智能，更像是一个个人攻坚的擂台赛，大家可能是针对某个具体问题、具体数据，去不停地设计新的算法，从而提升其性能。但是在工业界，则更像是一个综合的闭环的大战略，研究已不仅仅是某个小团队的事情，类似一个大战役，你可能需要后勤、医院，需要海、陆、空军进行协同作战，才能保证这场战争的胜利。所以我觉得在工业界做视觉智能研发很重要的一点，就是要回归商业的本质，要把视觉智能研究放在价值闭环和数据闭环上进行思考和推进。

针对学术界，今天我跟大家分享 360-NUS联合实验室近期在视觉智能领域的一个最新研究成果——Global Reasoning Unit。我们发现有不少人在思考这个问题：当我们用深度学习做推理的时候，都是在用卷积神经网络进行推理，然而卷积神经网络在浅层网络无法感知远处的目标。那有没有一种方式可以在浅层网络就能实现很好的感知远处目标呢？

由于我的团队是 1×1 卷积的推动者，因而在想尽量用 1×1 的卷积方法来实现这件事情。我们有一个想法：是否可能在任意的网络插入一个模块进行学习。为此，我的学生Yunpeng CHEN提出了一个思想，叫做 Global Reasoning Unit，将 5 个 1×1 的卷积以模块的形式插入任意网络做学习，在浅层网络就能对远处的目标进行感知，使跨区域进行信息交换成为可能。无论是在分类任务，还是在其他的检测、分割任务中，这种方法都能有效提升现有网络的性能。我觉得无论是在手机端还是智能硬件设备上，Global Reasoning 都将会有不错的价值，所以今天在这里特别跟大家分享这个方向。

接下来我将针对工业界，跟大家分享一个研发需要注意的事项：在工业界做研发一定要回归商业本质，必须将我们的研发放在价值闭环和数据闭环里面，去不断地思考和推进研发进度。

什么叫价值闭环？我估计现场很多朋友读过一本书，叫《创新者的窘境》，里面思考的问题是：为什么一些好的技术在大公司里面并不能被很好地利用起来？其中分析到的一个主要原因是，这些技术对于技术创新者来说，可能是一件非常嗨的事情，但是对于产品方、最终的用户以及生态中完成销售环节的公司来说，可能并没有带来价值的提升。也就是说，当技术没有给所在闭环中的其他维度带来真正的价值，它的落地会非常困难。因此，在工业界做研发，我们的核心任务已不仅是「炫技」，还需要对所在闭环中的所有维度带来正向价值，从而保证技术的落地和最终应用。

《创新者的窘境》这本书中提到了四个维度：技术、产品、客户和企业。不过我认为做视觉智能方面的研究，还有一个非常重要的维度，叫做社会价值观。当技术落地到一款产品时，如果它本身的社会价值观不正的话，就不能产生正向的推动作用，这款产品迟早会失败。因此，我将价值闭环分成了五个维度，其中，不同维度之间相互依存，并通过彼此的驱动来提升各自的价值。比如说技术和产品：新的技术孵化了新的产品，而产品收集了更多场景下的有效数据，又反过来推动技术的迭代；产品和企业则是相互促进的，产品质量和销量的提升，可以提升企业的品牌和利润，而企业品牌又反过来会带动产品的销量，同时企业赚取利润后，会加大技术投入，从而提升产品的质量。而企业和社会价值观则是大家更需要注意的一点：企业文化造就了社会价值观，员工的价值观也会影响企业的效率，其中最重要的一点是，企业永远不能触及伦理道德的底线。

另外，在工业界做视觉智能研究，尤其是做视觉智能相关产品的时候，数据闭环也非常关键。研究者可能更多地关注算法模型，不过算法模型和具体产品的后台与用户的交互就形成了一个数据闭环，它是一个发现问题和迭代产品的过程。

为什么要将研发放在一个数据闭环中呢？无论是做计算机视觉还是其他方向的研究，有一点是非常明确的——就是永远没有完美的算法，在这种情况下，数据就变得非常关键。我常思考并与一些人进行讨论的问题是：为什么中国会出现这么多做人脸识别的公司，并且这些公司都还生存得非常不错？其中的一个核心原因是每家公司都具有特定场景下（如银行、交通监控、公共监控等）的数据优势，而正是这些数据能够让它们去不断优化模型，实现特定场景下更佳的表现。用户的反馈才能让我们在研究中真正发掘他们真正的痛点和需求，因此数据闭环对于工业界的视觉智能研究至关重要。

我自己也感觉到，当我们将研发放入一个闭环的环境中，其所涉及的每个环节只有在稳定、可靠的情况下，才能让算法和研发人员去很好地推动技术向前迭代。再以 360 的门铃为例，一旦服务端的产品联网延迟问题严重，用户很长时间才能收到家门口的监控信息，就无法获得良好的体验，另外如果 APP 的设计不够好，云端的数据分析结果就无法很好地通过 APP 让用户直接感受到这款智能设备所带来的价值，进而也让用户难以产生有效的反馈，这样的话，闭环的迭代也会变得异常困难。

无论在学术界还是在工业界，大家做视觉智能研究都还是挺辛苦的，经常面临加班和熬夜，所以今天我想用一个比较轻松的方式来跟大家总结一下，在学术界和工业界做视觉智能研发的不同的特点：

在学术界做视觉智能研究更像恋爱中的男女，每一点进步都让你们激动无比，同时还希望不断地有新的进步，达到新的高度。看到的全是对方的优点，你们总是不停地憧憬，因为暂时没人催你生孩子（产品）。你们也会憧憬生一个小孩（产品）会有多么美好，认为这个孩子一定会是世界上最聪明、最乖巧的，因为反正不用真的把孩子生出来。

而在工业界做研发更像结婚后的男女，发现生娃（产品）成了你们最首要的任务。父母（公司老板）天天催着你生娃（产品），你们以为孩子生出来以后会很乖巧，结果生出来以后才发现一堆的问题、一堆的毛病，社会（用户）也不喜欢他/她，于是你不停地根据经验和用户反馈进行调教。最后孩子强大了，你头发白了，脊椎也坏了，但看着孩子（产品）还是一脸的满足幸福。