实在智能创始人、CEO孙林君：数字员工——AI在RPA领域的应用与落地

2022 年 9 月 9 日 机器之心

机器之心报道

演讲：孙林君

编辑：小舟

9 月 3 日，在 2022 WAIC AI 开发者日上，实在智能创始人、CEO 孙林君发表主题演讲《数字员工——AI 在 RPA 领域的应用与落地》，详细介绍了 AI 加持的 RPA 技术近年来的发展，以及实在智能在数字员工方向的探索和应用。

以下为孙林君的演讲内容，机器之心进行了不改变原意的编辑、整理：

大家好，非常荣幸能够来到这个场合跟大家做分享，我今天带来的话题是《数字员工——AI 在 RPA 领域的应用与落地》。

AI 是一种通用的智能化技术，但过去在泛行业领域的发展遇到了一些问题，很难有大幅突破。我们现在更关注 AI 与垂直行业结合带来的化学反应。坦白讲，大家原本对 AI 技术抱有很高的预期，现在已变为实实在在的落地，我们更希望看到 AI 在真实行业中发挥作用。

什么是数字员工？数字员工就是机器能够代替人去做一些重复繁琐的工作，辅助人做决策。在未来的几十年，中国处于人口老龄化的阶段，适龄的劳动人口在减少，劳动力成本进一步增加，同时 GDP 要持续增长，这种情况下我们的劳动力缺口是比较大的，数字员工的出现将在很大程度上弥补劳动力缺口。

实在智能创立于 2018 年 7 月，到现在已有 4 年时间。我们在 RPA 领域融合 AI 技术，打造了各种各样的数字员工。实在智能先后经历了 6 轮融资，有超过 60% 的同事是科研人员，员工规模近 400 人，目前已掌握 120 项自主知识产权，申请专利数超过 40 项，近 20 项是实授专利，居行业第一。

RPA 全称叫机器人流程自动化（Robotic Process Automation）。举个简单的例子，工厂需要很多的自动化操作，机械臂可以很精准地完成一些规则化、重复的劳动。除了工厂，办公场景下自动化也有非常大的空间，智能化的出现让该领域得到了长足的发展。

在办公场景下，很多白领的日常工作也包含很多琐碎的工作，比如在财务、运营、法务、客服等很多职能场景中，一些工作是重复且可被替代的。但通过自动化的技术，就能用软件把人的操作录制或者模拟出来，机器就可以模拟人的操作进行工作，准确率高少出错。这项技术已经出现了很久，大约 15 年前，美国就在很多大型科技企业中应用，到了今天，国内已经有非常多的 RPA 公司涌现出来，包括传统的 RPA 以及和 AI 结合的 RPA（IPA）。我们是一个典型的与 AI 技术结合的 RPA 公司，最近几年的长足发展也与 AI 紧密相关。自动化技术和 AI 技术融合到一起才是未来数字员工的真正形态。

RPA 最开始只能做最简单的重复工作。如果机器想真正帮助白领高效工作，就要有很多工业化的设计。传统 RPA 的设计器里都是组件化的东西，拼装就可以完成，这样不用写代码，用户只需要关注业务逻辑就可以了。这种传统方法实现成本低，门槛也比较低，对用户来讲也比较友好。

随着人工智能的兴起和发展，我们也发现传统 RPA 里其实有很多地方是可以和 AI 进行结合的，例如和语音技术、OCR 结合，这些是简单的加法。另一方面，RPA 技术本身存在一些瓶颈，例如我们要控制各种各样的软件，首先要识别这些软件里的东西，但是在识别上，我们是强依赖于操作系统底层的。这种情况使用传统技术就面临很多瓶颈，而 RPA 技术与 AI 结合可以获得较大突破。行业天花板被推升以后，与 AI 结合的 RPA 技术可以真正泛化到所有行业的软件上，并成为普适性的自动化技术。

另外与 AI 结合后，数字员工的能力会实现从感知到认知的飞跃。感知能力就是各种识别、交互技术，认知能力就是能够结合大量数据做出推断。只有在认知层面将 AI 与 RPA 技术结合才能构建真正的数字员工。规则化的工作在我们日常场景里大概只占 20%-30% 的工作量，但如果 RPA 可以在认知层面代替人们完成非创造性工作，那么渗透率就可以达到 90%，所以数字员工未来的发展空间还是非常巨大的。

RPA 本身有一些能力上的限制，我们要把它变成 IPA，结合 AI，好比人的眼耳口鼻和大脑，能够对话、理解、观察和思考，这才是真正的数字员工。

我们回到本源的问题，RPA 能够代替人控制所有的软件，去完成规则化的工作，其中有两个能力最关键：第一个是软件的控制能力。通过操作系统底层去控制软件的时候，我们要知道 RPA 的接口能力，或者说要识别到每一个要素，这取决于操作系统底层的开放性。现在主流的做法是结合计算机视觉来提升 RPA 的能力，让 RPA 能够对所有的软件都适配，这就涉及非常多的技术挑战；第二个关键能力是信息提取能力。我们知道，现实世界中的信息并非都是结构化的，往往是隐藏在一段文本里，或是不同介质的表格里。我们要把这些信息抽取出来，比如甲乙方是谁，他们之间是什么样的关系，就离不开大量的信息提取技术。这和自然语言处理和计算机视觉都有关系。

更强大的软件控制能力

我们先看一下软件控制能力。屏幕背后也是一个世界，所有的软件都在里面。我们要知道画面上到底有什么样的元素或者物体，我能够对它做什么——先解决识别问题，再解决操作问题。通过操作系统底层解决识别问题时，我们会发现各种各样的软件是没有办法识别的，有时识别出来的就是一个大的框，有时是多个细粒度的元素粘连在一起，这样就无法进行软件操作。例如菜单中可能包含多个级别的小菜单，如果不能做到细粒度的准确识别，就无从谈起对软件的完美操控。

因此，我们希望开发出的工具普适性是非常强的，而不是只能给若干类软件做适配。而且软件会升级，技术架构会变更，这种情况下传统的 RPA 很难做到完美适配。现在很多 RPA 公司受限于技术的瓶颈，会被局限在某一个行业里。所以我们希望我们的 RPA 产品能够变成通用化的产品，变成真正自动化的工具。

另一方面，环境的影响也非常大。在不同的操作系统下，不同的软件组合情况，面临的拾取和识别问题也是各种各样的。

此外，在操作方式上，如果 RPA 技术只能通过写脚本的方式实现，那么它依然是非常小众的，只有程序员能够使用，这距离办公环境下「人人可用」的目标还有非常大的距离。

那么我们就要思考：如何能让用户非常简单地使用上 RPA 技术。例如当操作系统底层的识别不行的时候，很多工作都要依赖计算机视觉的方法，但要使用不同的组件。这对用户来讲，成本非常高。于是我们考虑把这两种技术融合到一起，以实现一种对用户来讲非常自然的过程——即用户不需要考虑什么时候使用计算机视觉，什么时候借助操作系统底层。这里就要解决非常多的技术难点。

首先是要解决精度问题。无论是多么细微的目标，或是多么复杂的目标，我们都要识别出来。如果我们想把使用门槛降到最低，那就要把不同的技术整合在一起。在速度方面，用计算机视觉的方式识别，效率天然会比底层要低一些。那么如何能够让用户有一致的体验呢？那就要在不损失很多准确率的前提下把模型变得很小，以便于在 CPU 的环境上稳定运行，这样能节省掉很多硬件资源。因为用户不会为了使用 RPA 产品单独采购 GPU（图形处理器）。

我们知道在软件层面，特别是涉及到计算机视觉时，界面的 DPI（图像分辨率）是不一样的。假设我在一台电脑上设计了一个流程，现在要部署到 100 台电脑上，不同电脑的分辨率可能不一样，操作系统环境可能不一样，显示器的大小也可能不一样。我们要解决的问题是在这些差别的情况下保证软件的稳定运行，替换分辨率也能保持一致。在界面大小上，当我们把一个软件界面进行拖拽的时候，界面会发生形变，这种情况下我们还要能找到操作的元素，这就涉及到形变重识别的问题。

面对这么多复杂的挑战，我们在业界首先提出了「融合拾取」的概念，并将这一技术实现出来。仅围绕提升软件控制能力就有十几项的难点，我们都申请了相应的专利来解决。现在我们再拆解一下，看看其中的具体难点。

下图是一个融合拾取运行的情况，画面上有很多类软件，包括网页、CS 架构的软件、还有操作系统原生的画面。在这种情况下，传统的 RPA 要用不同的组件来控制它，而且效率是非常不一样的，使用 CV 方法的效率就会很低。而我们实现的融合拾取方法可以在四种应用之间无缝切换，体验一致。对于办公环境里复杂的要求，融合拾取技术可以做到非常完美的控制。

实在 RPA 的融合拾取能力，可实现同屏多对象无缝切换拾取

这里有几个比较大的挑战，第一个是如何去适配各种各样的软件。我们知道软件的种类特别多，在不同的设计规范下，识别层面怎么实现通用性呢？我们经历了若干个阶段，从多模型到单模型到后来极致效率的单模型 2.0 阶段，我们在耗时层面、召回层面做了很多工作，一步步发展成现在相对比较通用的识别技术。

第二个要解决的是成本问题。我们在不能提供 GPU 环境的情况下，想把模型变小，这就用到了剪枝、蒸馏、量化等方案把模型构建出来。对于计算量不能太大的情况，我们也设立了元素相似度的色彩空间映射方法来降低计算量，在算力层面尽量把技术做到极致。

还有一块是跨分辨率、画面变化与重叠的情况，为了能够识别出原来识别的对象，我们的把 CV 领域行人重识别的概念引入进来，采用基于 ReID 的技术并做了大量优化，最终取得了非常好的效果。对拾取层面来说，我们要把界面的布局做相应拆解（涉及图像语义理解），然后做检测，最后再做匹配。每一个环节都有相关的技术在发挥作用，其中的挑战来源于多个方面：准确度、稳定性、唯一性。这些是需要持续打磨的，是一个与技术强结合的问题。

RPA 的瓶颈还远不止这些。例如在运行的稳定性方面，软件环境里有时会出现弹窗，而配置流程时没有预见到这个情况，流程可能就会被卡住，这种情况下我们需要系统能够自动识别到弹出了一个非常规的窗口，然后把它关掉，这样就有了辅助流程的概念。并且当按钮背后的 ID 发生变化时，或者说颜色发生了变化，系统还能以最大概率把它找出来，让流程运行下去，这个问题也要通过多种算法来解决。去年我们联合机器之心针对这个问题做了一个评测，在 360 软件库里随机抽取了一些软件，面向多个指标进行评测，结果表明我们在这项技术上是遥遥领先的。

机器之心行业评测数据总表：实在智能位列第一

更强大的信息提取能力

下面我们来看一下信息提取能力。日常工作中我们经常要汇总报表，把 A 系统的信息下载下来处理之后录入到 B 系统（例如财务的报税），这需要大量的信息提取以及加工处理再操作软件去完成，这是一个非常重要的工作。这里面有一个概念是 IDP——IDP 是智能文档处理（Intelligent Document Processing），它是集信息提取和信息处理等能力的 AI 产品，它每一项细粒度的能力可以在 RPA 里作为一个组件，与自动化的部分拼装起来，完成各种各样的工作。

在 IDP 领域里，常见的任务有识别各种格式、各种介质的文档，对比不同格式的文件，抽取合同中的主体（包括甲乙方信息、订单编号以及约定内容），特别是表格里的信息也要抽取出来，如果抽取的信息有问题，后面还要做自动的校对，有些还要根据业务逻辑做校正，这里面应用了大量相应的技术，包括 OCR、NLP 中的长短实体抽取等。

即使是看起来非常简单的文档，比对和审核也要用到非常多的智能化技术，比如对页眉页脚的识别、对表格区域的识别和还原、对分栏区的处理，其实都需要特定的技术，而不是一个通用的识别就能做好的，其中每一项都要做得非常细致，提高准确率。在合同对比或者财务、法务的工作中，这是非常常见的工作，比如我们在某一个地方做了一点点修改，修改前后的文档到底有什么差别；或者在不同的文档处理阶段，比如在签订合同时识别出合同风险，并编辑其中的内容，这都跟 IDP 的相关技术有关。例如图片介质的信息怎么跟电子文档的信息对比，其中包含非常多的细节。

RPA 还需要有更强大的信息提取能力，包括表格识别等。例如在电商领域有各种商品的类别和型号，通过拍照片就可以把里面的信息提取出来。OCR、NLP 等原子化能力对于数字员工来讲非常重要，可以变成设计器里的组件，帮助我们快速拼装出不同能力的机器人。

基于前面的讨论，我们实在智能的产品矩阵如下图所示，左侧是 RPA 产品四件套，我们有一个使用起来非常方便的低门槛设计器，设计出来的东西运行在机器人上，当有很多机器人的时候，就用一个控制器去调度、分配任务，在有很多数据的情况下，我们可以通过云脑训练出决策的模型，这样可以达到第四阶段——帮助人进行决策。另外我们有 AI 的产品矩阵，这个产品矩阵以 RPA 为底座，就可以构造出各种各样实用的数字员工。

应用案例

下面我介绍两个应用案例：一个是我们和银行合作的智能审单案例。这家客户有三四百名员工，他们负责审核大型企业的资金流水、合同以及资质证照等相关事物，最后去给客户做授信，但授信额度是通过人的经验并结合一些规则做出的判断。在这种情况下，我们通过 IDP+RPA 的场景化能力帮他们做信息审核、提取、比对，最终帮他们完成了智能审单。

第二个客户是一个电商头部品牌客户，我们运用实在 RPA 技术把对于该客户的评论从多个平台里汇总出来，并通过智能决策的平台训练出模型，挖掘出里面隐藏的差评，通过差评分析反向对营销作出进一步的决策。实际上这是一个结合云脑和 RPA 做的智能评论分析场景。

对于一个企业来讲，他们在接触自动化的时候都是从单点开始的，但一旦用上自动化的技术后，从人的天性来讲是不愿意再退回到手工时代的。因此单点的自动化和智能化就会逐步过渡成部门级别的解决方案，再下一个层级就是整个公司级别的。如此推动，企业的数字化转型以及超自动化的蓝图就会逐步形成，整个组织的生产流程也会因为自动化和智能化的加持，发生本质性变化。

基于前面的讨论，我们可以看到 RPA 已经不是一个传统的只能做规则化事情的技术了，我们更看好的是其与人工智能技术结合的应用与落地。我们知道人工智能的应用与落地，本质上是依赖于数据的，而 RPA 让数据的获取成本变得非常低，这种情况下再结合自动化，未来的空间是非常广阔的。在使用门槛、拾取能力、稳定性、实施效率和性能方面，AI 都会发挥很大的作用，我们希望通过 AI 技术的加持，让 RPA 成为一项普适性技术。

从大势上看，数字员工会随着人工智能未来的落地逐步渗透到千行百业，我们也对这个领域非常看好，将持续通过智能化技术的创新和应用来赋能和改造这个行业。以上是我的分享，谢谢大家。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多