离开腾讯首创业，贾佳亚谈人工智能 2.0 革命，技术究竟该如何变革？

2020 年 3 月 8 日 机器之心

机器之心发布

作者：贾佳亚

一周前，机器之心报道了原腾讯杰出科学家、优图实验室 X-Lab 负责人贾佳亚离职并创立了一家新的 AI 公司——思谋科技 (SmartMore)。作为视觉领域高清图像视频处理、修复、增强最权威的科学家之一，贾佳亚近日撰文探讨了人工智能 2.0 革命，思考 AI 技术的变革之路。

一场科技革命的发生，是科学理论、知识系统、方法应用、实践迭代等各方面的巨大进步。当人们预言人工智能时代将是第四次工业革命时，人工智能似乎被定下了「无所不能」的基调。

对于一件事物的狂热，经过时间推移，会带来理性回归。如今对人工智能概念的认知由狂热遐想回归理性实践。当群体和环境回归理性后，国家、社会包括许许多多个体仍然选择高度重视并看好人工智能的技术，正如近日国家又发出加快 5G 网络、数据中心、人工智能等「新基建」的声音。

人工智能之于各行各业，如同计算机之于电子电器

如今与当年境况相似，人们肯定人工智能技术，但对人工智能的功能和应用不了解。如同早年第一次接触计算机，我怀着敬畏心，但并知道它究竟能做什么。1984 年的苹果计算机，到现今 30 多年历史，计算机从功能到形态，每年都仍有非常显著的变化。直到对其能力、功能和应用做到了如指掌，我才体会到它真正的能力和魅力。顺势，我也开发了适用需求的很多应用。

计算机是所有电子电器甚至是穿戴设备里的基本元素，硬件的能力范畴也有了无边界的扩展。计算机之于现代电子设备，犹如人工智能之于各行各业， AI 也将在未来成为不可或缺的基石型技术。

AI 技术变革从 1.0 到 2.0，是单一算法到体系架构搭建

当前人工智能的发展正处于从 1.0 到 2.0 的过渡期，从技术革命上去讲，也就是从做单一的算法开发到体系架构搭建的过渡。 现在的 AI 技术基本上以单点突破为主，每一个细分的小领域都有很多的研究，算法是其中的重要组成部分。当我们把每一个小而有效的算法看成是小的定制化计算单元（computing unit），它们便是为了完成某一项特定任务而存在。这些小的计算模块就像是计算机里面的 CPU，拥有计算能力，通常一个团队手头只有某一个或某几个处理特定任务的「CPU」。所以当任务发生改变时，团队就只能重新编写和制造出一个新的「CPU」结构来应对新的任务，这便是现在 AI 的工作方式，也就是我们称为的 AI 1.0。所以这样的工作方式下，AI 的能力体现在「接受数据—研发人员设计算法—调试—得到结果—再反馈」的流程上。它的核心竞争力还是各类高效、创新的算法，通过不断迭代，发展出新的「CPU」，但每一种「CPU」都只能做一种特定的运算。

那为什么我们的计算机在面对不同的任务时，却仅有一个 CPU 就可以完成各类任务？这个区别在于计算机里面除了 CPU，还有硬盘用于存储，内存用于快速存储，缓存用于更快速的内容累积和高效访问等。除此之外，为了让系统能运行起来还需要有总线和其它的职能部件。虽然它们看起来没有像 CPU 那么重要，也不参与直接运算，但正是有了这些看似简单却不可缺少的部分，才使得一台计算机真正成为一台通用性的计算机，承担并完成各类任务。

某种程度上，思谋在思考和实践 AI 的整体性创新和升级上，正类似于在构建一台计算机、一个能用、好用、易用的完整计算系统。这就要求 AI 在架构上需要建立真正的完整系统，而不是一个个孤立的「CPU」计算单元的单个算法。这个完整体系中的许多服务模块不参与核心算法设计或者调试，但是这些服务模块可以作为短期或者长期存储，加速运算、加快数据流，以实现仅需少量研发人员却能取得他们以往需要耗费大量时间和工作量（如 5 倍以上）的结果。所以我相信 这种系统性的方法与实践是 AI 2. 0 的最核心要素，那么对于视觉 AI 2.0 的体系结构突破，也是思谋重要的差异化体现。

视觉 AI 的发展，以需求为根本，强结合场景是重中之重

科技的进步会以满足社会发展需求为根本和内在的源动力。 谈及 AI 技术落地的场景，例如远程会议中的视频压缩、去噪声、超低和不稳带宽下的编码技术、图像增强这些强结合，技术是根本，这些场景对于技术的需求是不可或缺的。但如果是加脸部挂件就比较弱结合，相对可有可无，需要慎重务实考虑。

所以在前期视觉 AI 的发展中，人脸这类和我们生活结合最紧密的应用会获得直接的关注和投入。在应用上也有美颜美妆、改变年龄这类跟社交媒体直接挂钩的普遍需求，所以我们做过「一键上妆」和「一键卸妆」这类有趣的科技应用和发明。如果用通讯频段做类比，人脸应用就是一个 2.5GHz 上的信号，因为此应用频段固定，所以我们对它的优化已经非常好了，我们只要有接收机接收到它，就可以稳定传输信号了。

先如今，AI 应用已经突破了人脸的应用「频段」，推广到了人体姿态这类问题，且问题都得到了很好的解决，实现了研发落地。这可以理解为 2.6GHz/2.7GHz 这些信号都有了固定的发送器，设置好之后，接收器就可以稳定工作了。相比于这些固定频段发送器，我们关注的是更具有普适性、更高难度的、多种类高清视频的理解处理。比如一张自然照片里有人、风景、动物和动作，这绝不仅仅是人脸或者人体的识别就能解决的问题，因为这个频段在不断变化，接收器也需要不断移动才能接收到信号。

集中研发 AI 2.0 系统化能力就是赋能提效，把开发的投入以几何级降低（减少），实现即使再大量的算法需求也能在有限的技术团队和预算时间条件下完成应用开发

一方面，这类超宽「频谱」的问题是现在互联网上多媒体应用的首要方向，具有很强的商业模式和技术挑战性。高清视频的高速传播、高清线上线下分布式编辑、5G 交互的新商业方式探索，这些都是很值得我们为之投入的。另一方面，从技术体系来看，因为「超宽频谱」不固定信号位置，所以它的「发送」和「接收」成了新的问题。回到应用本身，视频的内容千变万化，内容的多样也就意味着单个算法不能解决所有问题，即便有 100 种、1000 种算法就能保证找到好的方案。因为这 1000 种算法，还意味着大概 1000 个优秀研发团队同时开动才能在预计研发时间里完成任务，或者是 100 个团队花 10 倍的预计时间完成任务，这种成本极高的方式在商业领域都是不能够接受的。所以在高清媒体方向上，技术体系上符合我们对于 AI 2.0 系统化流程的表述：建设体系化的构建并能在如此复杂的领域做出关键性突破和实现大规模部署，也是现有的思谋 Media 产品的组织研发与商业运作方向。

工业、农业、流通和零售等行业是拉动并评价 AI 更实质、更广域发展的「必考题」。尤其这次疫情，让大家看到工厂没人会停工，停工导致经济停滞，经济停滞会让国家进入艰难状况等一系列我们不希望看到的情况。目前制造业的机器动作能力都很强，但是智能，包括感知和决策，和真正的需求仍有非常大的差距。

再者，当前工业所需要的 AI 是远远复杂过现有的单个算法的。在人脸大领域，五官存在很多共性，但是在工业领域，数据五花八门，采集方式多不胜数，所以很难有一个算法或者一套数据是保证有效的。与超高清视频应用相同，1000 套算法的需求是 1000 个团队做 1 个月或者 1 个团队做 1000 个月，其中的开销或者工期不是实际商业化过程所能承担的。所以集中研发 AI 2.0 系统化能力就是赋能提效，把开发的投入以几何级降低（减少），实现即使再大量的算法需求也能在有限的技术团队下和在预算时间条件下完成应用开发，这也是思谋从诞生第一天开始的使命所在。

从 AI 1.0 到 2.0，我们还有很长的路要走，也需要很多的科学家和技术企业共同去探索突破。这也是我创立思谋的最初的想法，希望思谋成为波澜壮阔的以人工智能为核心的科技革命大时代下的重要推动者和变革者。在通往工业智慧生产、生活品质飞跃的未来的道路上，我们需要加速升级和挖掘 AI 的整体服务智能，打破现有的思维框架，同时秉承实干创新的精神，进行 AI 技术的应用、研发和能力部署，和稳健快速的规模化的全新升级。

本文为机器之心发布，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或寻求报道：content @jiqizhixin.com

广告 & 商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

贾佳亚

关注 0

贾佳亚教授是多个顶级计算机视觉会议和期刊（包括CVPR和TPAMI）的领域主席和编辑，于2004年获得由香港科技大学和微软研究院联合培养的博士学位。他及其同事在顶级计算机视觉和机器学习会议和期刊上发表了100多篇论文，提交了80多项专利，并在主要的学术和工业会议上发表了50多场主题演讲。贾佳亚开源了超过20个系统和软件。贾佳亚同时担任TPAMI、IJCV等学术期刊的编委，并且是多次担任ICCV和CVPR的领域主席以及多个计算机图形学和计算成像（如ICCP、SIGGRAPH、SIGGARPH Asia）的程序主席。在2018年，贾佳亚因其对计算成像的卓越贡献而当选为IEEE Fellow。他的团队培养了许多机器视觉领域的杰出人才，在过去15年中发明了一系列早期视觉方法用于图像处理和计算影像。他带领的优图X-Lab目前正在为下一代智能医疗诊断系统、制造业升级、自动驾驶和智能汽车平台以及AI辅助社交产品开发尖端的AI技术。

【CVPR2020】多模态社会媒体中危机事件分类

专知会员服务

55+阅读 · 2020年4月18日