5 月 25 - 27 日,在杭州,上千名志愿者、出品人完成了一场为年青人举办的大会。按照发起人阿里巴巴技术委员会主席王坚的说法,2050 是一个年份,不太近,充满想象,也不太远,我们都能活着看到。
在第一次听到「让世界离年青人更近,让年青人离世界更近」这样的办会理念时,我们想起机器之心用前沿科技内容聚合的全球 AI 青年,从在象牙塔里研究技术到毕业后面临创业、择业的选项,他们不仅应该关心技术走向,也需要了解因为这些技术的创新促成了产业正在发生的商业变革。
而那些被我们报道过的 AI 创业公司,大多恰好处于成长周期的少年或是青年阶段,如何生存和发展也同样是他们心头大事。
在 2050 大会上,机器之心发起了一场以《AI 技术公司的活法和前景是什么》为主题的论坛,云从科技、体素科技、深瞐科技、声智科技、一知智能和 Udacity 分别谈了谈 AI 技术如何才能「落地为安」。以下为第二支演讲视频——一知智能创始人赵洲《巨头之下,NLP 公司的生存之道》:
要点速览:
NLP 落地场景其实非常多,无论是 to C 端还是 to B 端。但可做的事情这么多,到底哪些适合我们这样的创业公司来做,哪些不适合,哪些适合我们团队的基因来做,哪些不适合我们团队基因来做,是非常值得思考的问题,尤其是在很多巨头入场的情况下。
实际上,智能客服的场景非常复杂,因为智能客服要对每一个商家、用户提供不同的服务,回答不同的问题。往往是在每一个垂直领域,都要建一个知识图谱,而它的场景又非常复杂,加上通常情况下用户的问题也非常难,因此它定制化程度也非常高。但在目前 NLP 技术水平下,这些服务可以做到 70 到 80 分,而往往用户在这个场景下的要求是 90 分。
我们不但做 NLP 和外呼的算法推进,也做 CTI 的集成开发,就是打通从电话和计算机的服务发挥硬件的作用。软硬一起推动,能帮助我们入场时设立一个比较高的门槛。尤其是巨头已经开源了很多公开算法,开源平台可以进行免费调用的情况下。
创业公司要生存,首先是要保持技术的先进性,起码是在第一梯队上「跑步」,虽然在硬件、服务、GPU 、运算设施上,巨头会比我们创业公司多 10 倍或者 20 倍,但是我们的算法和工程能力依然是要跟巨头保持在同一个维度。
在巨头环绕的情况下,我们首先琢磨的不是把业务线铺大,或者是建立一些算法平台支持各种应用,而是把一个场景做扎根,提高用户粘性,实现率先领跑,能跑多远就跑多远,能跑多快就跑多快。
赵洲:
大家好,我是赵洲,非常感谢机器之心给我一个机会来分享一下我们的想法,当然了这是个命题作文:巨头之下,NLP 公司生存之道。
当然这是我们创立这个公司的第一课,我们也是会非常严肃的考虑这样的一个问题,就是说现在非常多的技术,已经可以公开来进行调用了,那么我们这类 NLP 技术公司如何做到差异化,如何生存下去,是我们长久以来一直在思索的问题。
NLP 落地场景非常多,无论是 to C 端的还是 to B 端的,我们发现可以做的事非常多:可以做技术服务,包括像智能机器人,智能车载、智能家居等。
但到底哪些适合我们这样的创业公司来做,哪些不适合,哪些适合我们团队的基因来做,哪些不适合我们团队基因来做,都是非常值得思考的问题,尤其是在很多巨头入场的情况下。
总体来说,NLP 的场景应用可以分为 C 端和 B 端,C 端直接是服务于客户的,像智能手机包括穿戴设备,它对用户的体验和满意度的要求非常非常高。服务于 B 端,做得最多的是智能客服和呼叫中心。我们可以看到,现在很多 NLP 公司主打就是做智能客服,给不同垂直领域提供不同的客户服务。
我从学校走出来,会更关注于自然语言处理的一些技术。我们来看一下它的本质是什么?
它的本质就是语音理解,语音理解的 task 是非常困难的,跟之前的视觉包括结构化的视频到非结构化或者跟之前的语音,是非常有歧义性的。因为人对同一个表述、同一个意思会有不同问法,人的表述是多种多样的,那么如何把不同的表述映射到同一个表示中,这是个非常非常难的一个问题。
比如,要在有些书本上面进行搜索。目前语音理解最新的技术可以做到,给出一本书,我们可以问它书里面的一些话语,比如说恶性群体斗殴是关多少年?它可以直接返回一个答案,这个就叫阅读理解。
阅读理解就是机器跟人一样阅读文章的内容,理解人的一些意思,机器在理解人的意思之后,对文章中的内容进行反复阅读并推理,最后得到一些答案,这是 NLP 最本质的一个技术。也就是说,如何让机器可以理解人说的话语和状态,是一个非常本质的问题。
那么它有非常多的 task,现在大多数主流的 NLP 公司,包括非常著名的一些 NLP 公司,主要是做一个 task 叫做智能客服。
我在创业之前也做过非常多智能客服的项目,实际上,智能客服的场景非常复杂,因为智能客服要对每一个商家、用户提供不同的服务,回答不同的问题。往往是在每一个垂直领域,都要建一个知识图谱,而它的场景又非常复杂,加上通常情况下用户的问题也非常难,因此它定制化程度也非常高。
与此同时,在目前 NLP 技术水平下,这些服务可以做到 70 到 80 分,但往往用户在这个场景下的要求是 90 分。虽然客服场景已经有很多 NLP 公司进场,但在我们看来,其实这是非常难做的一个事情。
它的难点在哪里?
不是这个事本身,而是在于智能客服是一个高度定制化的方向。对每一个厂商、每一个公司,我们都需要派出不同的团队进行定制化。原因在于不同的场景都需要不同的数据和知识来支撑,等同于一个定制化的项目产品。
另一方面,虽然业务会带来一定营收,但是它的利润非常微薄。对创业公司来说,首要的一个特性是需要活下去,活下去就是希望尽可能可以达到一个自负盈亏的状态,即便我们可以不断地融资。
所以,我们是偏向于进行另外一个维度的思考——是否可以在 NLP 领域找到一个通用化的角度,能实现基于现在的 80 分技术,也可以让用户非常满意,这是我们长期思考的一个想法。
我们一知智能现在做了一个场景就是赋能于智能外呼。智能外呼的前身是各个呼叫系统,现在是去实现机器给人打电话或者进行推销等。
它跟智能客服不一样,这两个任务是一个对偶的任务。智能客服和智能外呼不同的地方是在于哪里?
智能客服的特点是人是主动方,机器是被动方,机器需要接受人的一些问题,而人的边界是非常广阔的。智能外呼是机器为主动方,人是被动方。在这个场景下,利用现有的 80 分的技术,可以做到用户满意的程度。因为它的边界可控,定式化、通用化的程度比智能客服高非常多。
第二点就是说,对于算法技术而言,(智能外呼的)门槛会更高,因为对于智能外呼来说,它跟语音识别和 NLP 不一样,它不仅仅涉及到算法层面。我们还需要对硬件进行非常巨大的投入,在供应商层面到智能外呼的算法层面,建立一个中间的硬件层面。我们不但做 NLP 和外呼的算法推进,也做 CTI 的集成开发,就是打通从电话和计算机的服务发挥硬件的作用。软硬一起推动,能帮助我们入场时设立一个比较高的门槛。尤其是巨头已经开源了很多公开算法,开源平台可以进行免费调用的情况下。
后面的一些思考就是说,既然我们确定了做智能外呼的这样一个任务,具体选择从哪个应用场景切入也至关重要。智能外呼有有非常多场景,比如营销、客户召回、问卷,每一个场景都有一些巨头,其中每一类客户也都有非常多的需求,但是对一知智能来说,能做到用户满意度、体验度极高是我们第一位的选项,而不是用一个技术一次性全部铺开,否则我们很容易就被淹没了。
最终,我们进入到催收行业。大家一听,可能会觉得催收行业是暴力催收的代名词,大家会想象为,一些挂着金项链的老板上门催收,其实现在不是这个样子,大多数都是文明催收,国家也颁定了一些反暴力催收的法案,相比之前,外呼系统催收的市场也越来越广阔。
市场规模的扩大来源于现金贷的流行。现金贷我们可以看一下,无论是阿里、京东,还是其他一些现金贷消费平台的基本逻辑,都是促使用户提前透支消费,然后再还款。2017 年,我们可以关注在网络现金贷行业的成交量是 2.8 万亿元,也就是说有 2.8 万亿的贷款需要进行还款。我们可以看一下,贷款的还款有两个特性,一是用户按期还款,一是用户逾期还款,按期还款当然不需要催收。但其中 10% 到 15% 的用户是会逾期还款的,也就是有 2800 亿元是用户逾期还款,需要我们把它催回来。
传统催收公司会租用外呼系统,现在有 6000 多家催收公司租用呼出系统,然后挨个打电话进行催收。一般来说,每个催收公司会有 50 名催收人员,市场总从业人员有 30 多万(之后我会分享一下,为什么每个催收公司只有 50 名催收人员),平均年龄大概是 20 到 30 岁。
催收行业的一个核心特点是,以不同逾期周期有不同佣金,普遍分为五个等次—— M1、M2、M3、M4、M5。M1 代表是:第一月逾期,用户没有还款,可以通过行业数据看一下,大部分用户是忘记还款,针对这类用户要打一个电话提醒一下。在 M1 的情况下,催成一单有 10% 的提成率,它催成功率是在 73% 左右,是由人打电话进行的。
为什么我们是选择外呼这样一个环节?首先要来看看行业目前的现状。
催收行业从业人员需要不断打电话催收的情况下,很容易在用户有一些过激的行为时,出现辱骂等不当反应,很容易被投诉产生不好的影响。因此,催收人员的业务过程不可控制,回款非常难保证是行业面临的普遍难题,另一方面,对催收人员来说,工作中也忍受了非常大的压力,导致行业流动性非常大,同时招聘难度也非常大,因此每一家催收公司平均只能维持 50 个催收人员的团队规模,非常难实现扩张。因此,我们做的第一件事就是,用机器人来尝试代替催收人员,现在主要做提醒的业务。
从技术的角度看,智能外呼主要涉及两个板块,一个是人机交互,一个是算法平台。人和机器要不断地进行交互,催收也有策略,对 M1、M2 不同时期的用户有不同的策略选择,人可以从原有的用户催收电话的对话中进行学习策略,从而再让机器去掌握并辅助和逐渐代替人来进行催收。第二,现在的语音技术是非常成熟,包括语音识别和语音合成,所以现在是用结合多轮对话、语音识别的一个交互式性平台,逐渐来代替催收人员的行业情况。
刚讲到金融催收场景中的策略问题,机器可以学成一个策略,不同的策略怎么学习呢?催收行业的数据也是海量的,对于刚开始创业的公司来说,主要是向大公司提供技术服务。
为什么呢?因为创业公司最难的,不是资金和人员,而是人工智能创业公司缺少数据的入口。如果没有大量数据,人工智能的算法技术是非常难被训练的。但金融催收行业有大量数据,并且也会对一些数据进行保存。因为对外呼催收平台来说,每一段录音都必须要录下来,作为解决纠纷、官司时可能用到的验证资料。对我们初创公司来说,这种有非常多数据可以拿来用于训练的行业,是比较好的一个切入点。
对目前的一知智能来说,我们以产品打磨为主体的同时,不断地保持技术领先性,不断地在不同赛道上进行评测。
一个重要赛道是 Squard ,Squard 是一个语义理解的标准比赛。
我们是在十月份成立的,之后我们花了一个月的时间迭代技术。对于人工智能的技术来说,它有两个指标,第一个是单模型,就是说一个模型它的 performance 是多少,第二个是多模型的 performance 是多少。我们成立后在 Squard 上面刷榜。我们的单模型是作为世界第二进行提交的,我们可以看一下,上面所有的公司,都是著名的千亿级 NLP 公司。
这里可以回答我们如何在巨头之下生存,第一是要跟巨头比技术评测指标。虽然第一个是绿色的在第九名,但是单模型是第二名,第三名是腾讯,腾讯的 Insenble 模型拿到第一名。一个月后我们提交了多模型,排在了第四名,而这个赛道的前 30 名全是千亿级别的创业公司,包括阿里巴巴、百度。一知是其中唯一一个初创公司。
创业公司要生存,首先是要保持技术的先进性,起码是在第一梯队上「跑步」,虽然在硬件、服务、GPU 、运算设施上,巨头会比我们创业公司多 10 倍或者 20 倍,但是我们的算法和工程能力依然是要跟巨头保持在同一个维度。除此之外,我们不断地在多轮对话等任务下,不断地跟巨头进行 PK,不断地保持一些技术的领先性。
最后再回到场景的切入点,我们找了一个相对冷门甚至在外界看来有点low的方向,也就是催收,但我们认为在一知的技术上完全可以驾驭场景需求,以我们的技术能力可以把这个商业模式走通。我们是第一家进入催收领域的人工智能公司,也实现了一定的营收分成。
在巨头环绕的情况下,我们首先琢磨的不是把业务线铺大,或者是建立一些算法平台支持各种应用,而是把一个场景做扎根,提高用户粘性,实现率先领跑,能跑多远就跑多远,能跑多快就跑多快。
推荐阅读