人工智能训练师的再定义

2019 年 5 月 15 日 竹间智能Emotibot

自2015年开始，AI逐渐走上风口，而后随着AI的逐步落地，其应用的一个重要场景也凸显出来——智能客服。这是由诸多因素决定的：一方面是传统客服行业的人力投入大，管理困难，同时一线客服的可替代性强；另一方面则是目前AI的作用也仅限于辅助人，或替代人完成大量重复性的劳动，这两方面的情况促成了AI在客服行业的广泛落地：智能客服机器人、智能质检和外呼系统等等。

随着AI的落地，另一个新兴岗位也逐渐浮出水面——人工智能训练师（AI trainer）。AI模型的训练需要大量的数据，而好的数据需要经过人工的仔细加工，去掉干扰的数据，增加不足的数据，保证训练语料的纯净和平衡。完成这个任务的就是人工智能训练师，这个岗位从出现到今天也有三年多时间，所以本文希望能对这个岗位重新做一个定义。

人工智能训练师=数据标注员？

市面上人工智能训练师的月薪普遍高于6000人民币，数据标注员的最高月薪则基本保持在3500人民币左右，前面提到人工智能训练师的工作也是和数据打交道，那么两者的待遇为何相差如此巨大？这实际和两者的能力要求和贡献是挂钩的。

顾名思义，数据标注员的工作主要是根据客户要求完成数据的0/1类标注、或者勾选图片中的实体对象。而人工智能训练师的工作面临着与数据标注员不同的更高的要求，除了非常基础的数据编辑和标注能力，还要求对AI技术能力边界有了解，对某个行业场景深入理解，还有熟练分析整理数据的能力。

以专门运营智能客服机器人的人工智能训练师为例，他们应该了解目前AI技术存在哪些局限，即知道现在的AI技术能做到什么，做不到什么。比如，一个AI训练模型处理汉语句子的极限长度是30个字，那么在编辑语料时，则要保证每条训练语料都应该低于这个字数。

再比如，目前深度学习并不能很好处理很细的语义差异，下面的两个句子虽然字面上只差了一个字，但是意思完全不同。

前者咨询“如何取消订单”，而后者则是质问“订单为什么被取消了”，而模型则错误地将这两个不同的业务对等起来。人工智能训练师需要敏锐地发现这类的问题，和技术人员一起讨论出工程上可行的解决方案。

由于人工智能训练师不仅仅对数据负责，也需要对业务场景中的机器人表现负责，所以这一岗位上的人也要对场景特别熟悉，最好能是行业专家。比如在保险行业，存在“报案”vs“理赔”、“理赔时效”vs“索赔时效”等等概念，非行业专家或者对此不了解的人员，很可能会把这两对概念混为一谈，导致编辑出的训练语料质量极差，而相应地训练出的对话机器人也表现很差。此外，人工智能训练师在拿到一份数据后，能够敏锐地判断出数据体现出的业务框架有无需要调整，然后迅速找到问题数据的解决方案，这样的能力是数据标注员难以具备的。

人工智能训练师 VS 技术/产品

在其他互联网领域存在一个不解之谜：技术、产品和运营到底谁才是关键？到AI领域，这个问题变成了技术、产品和人工智能训练师到底谁才是关键？

一个普遍的认识是互联网时代被分成三个阶段：技术驱动时代、产品驱动时代和运营驱动时代。在早期，技术提供的新可能是最关键的，之后产品设计是否好用主导产品的生命，而在市场上的技术和产品趋于成熟时，能实现的功能和用户的体验就再难拉开差距，笑到最后的就是做好运营的。

我们也可以类似地看待AI领域，即存在技术驱动、产品驱动还有运营驱动（人工智能训练师为主）这三个阶段。不同的是，得益于成熟的互联网模式和开源的技术思想，AI领域的进程快得多，互联网从开始到现在花了将近三十年，而AI只用四五年时间就迅速成熟起来，现在已经是在产品驱动和运营驱动之间了。另外，运营这一部分也增加了人工智能训练师这一重要角色。

表1：AI领域发展的三个阶段

在前两个阶段，只要技术够硬，产品打磨得够好，就会有人用。现在有大量的AI公司，比如互联网时代的巨头阿里云、百度和腾讯都参与到这场AI的浪潮中，还有新起之秀的竹间、三角兽、追一等等其他小公司，但在商业视角和用户视角看来，他们的技术实现的功能都是类似的，产品的使用是相近的，甚至连UI（用户界面）也是差不多的！

那么决定这些厂家的AI是否有用、好用、耐用的关键角色是谁呢？笔者在这里大胆地认为是人工智能训练师。人工智能训练作为事实上距离AI最近的人，明白AI能做到什么，做不到什么，也知道想要AI做到什么应该怎么做。还是以对话机器人为例，一个问答机器人在出厂前，要经过训练师的不断训练，包括训练模型和修复问题，使机器人的问答准确率达到一定标准；出厂时，训练师也需要对商业客户方的运维人员做培训，包括如何编辑语料，如何修复问题还有各种需要注意的事项。在出厂后，训练师也需要负责售后的部分问题，即如果客户的客服机器人出现知识混乱的情况，比如机器人总是答不对问题，就需要训练师重新梳理知识库。另外，训练师作为AI产品的一线使用者，在使用过程中遇到的问题和想到的建议都很重要，是帮助技术和产品更上一层楼的参考依据。

人工智能训练师的拓展性

前面都是以智能问答机器人为例子，是因为现在AI在客服行业主流的落地场景的就是常见问答，即FAQ；但是随着AI落地的深入，AI在更多的场景开始得到应用：智能质检、外呼、坐席辅助。人工智能训练师的职责也一定会在这些领域逐渐发挥作用。

传统客服中心的质检一般都是采取人工抽查，但现在不少大型客服中心开始转向AI的帮助，即使用AI来做质检，减少人工投入，扩大质检范围。人工智能训练师在这个过程中能做的是帮助梳理质检规则，提供质检模型的训练材料。比如一般质检会看开头语是否规范，有没有包含公司、工号还有目的等信息，那么人工智能训练师可以据此，组合出一定的开头语质检规则，并准备相应的数据以训练模型。再比如外呼，人工智能训练师可以设计更复杂的任务机器人，像回访机器人和查账机器人，再配合文本转语音系统，用语音的形式帮助用户实现复杂的交互任务。

——本文刊载于《客户世界》2019年4月刊

作者为竹间智能科技(上海)有限公司人工智能训练师

图/文：竹间智能

（向上滑动）

关于竹间智能（EMOTIBOT）

竹间智能由前微软（亚洲）互联网工程院副院长简仁贤先生创办，致力于利用深度学习、中文自然语言理解、情感计算、计算机视觉等技术，研发带有情感识别能力的对话机器人及行业解决方案。目前，竹间已有涵盖AI+金融、AI+零售、AI+教育、AI+政务、AICC等解决方案与产品。

竹间智能的AICC（AI Contact Center），提供呼出，呼入，质检，用户画像，知识图谱，智能客服机器人等，将传统呼叫中心全盘AI化，从外呼机器人为人工客服进行首轮业务任务，到利用AI技术进行人工客服质检以提高客服满意度，再至经由信息搜集而来的用户画像，为呼叫中心提供精准营销的数据支持，使呼叫中心进入AI化时代。

而竹间独特的多模态情感计算则为智慧零售，教育，公共服务等行业提供涉及感知与认知的技术场景。在AI+教育解决方案中，提供学生课堂行为监测、教师教学质量反馈与干预、校方课堂教学管理与教师教态自测的产品，以AI技术实时赋能课堂，开创智慧教学新模式。

竹间首创研发的 Bot Factory为企业提供了AI机器学习平台，此后企业创建机器人再也无需代码，简易一键部署，兼具安全保障。

至今，竹间已为包括交通银行、招商银行、民生银行、平安集团、江西银行、科沃斯、苏宁易购、中智关爱通、国旅运通、同程艺龙、太平洋保险、华夏人寿、招商摩羯智投、恒大地产集团、中广核、三井住友、福特汽车、富士康集团、台湾夏普、优必选、唯品会、中国移动、长虹电视、昂立教育等在内的众多企业提供一站式AI解决方案。