学会智能标注与海量复杂文本分类

2020 年 6 月 13 日 AINLP



百度大脑EasyDL是如何帮助NLP文本分类用户提升标注效率的?
业界领先的文本分类智能标注产品效果如何?
在百度产品经理夜巡的带领下,你将会学习到EasyDL专业版文本分类模型最新上线的智能标注功能的具体解析,并且为你展示具体操作步骤。
知识密集型企业如何利用AI能力快速进行海量复杂文本分类?
5小时的模型训练,能否实现200万条数据的快速分类?
北京瀚才咨询有限公司的负责人谭笑然为你带来大规模数据在AI处理之下完成“结构化”。
经过这两节课程的学习,你不仅迈出了转型NLP专家的重要一步,更能获得洞察行业需求与痛点的绝佳机会!错过直播的同学,这篇呕心沥血整理的课程内容,千万不要再次错过!

第一课: 如何拥有不断学习高效标注的“AI员工”—EasyDL文本智能标注产品介绍
时间: 2020年6月9日(线上)
讲师: 百度NLP产品经理 夜巡

【课程大纲】
1. EasyDL平台目前在NLP这个方向共集成了哪些能力,以及如何规划整个产品。
2. 文本智能标注产品介绍,目前企业当中遇到了那些数据标注的问题,文本智能标注如何解决这些问题,以及文本智能标注背后的技术原理。
3. 通过平台提供的典型的NLP任务和场景,如何挖掘自己业务当中的场景,如何使用EasyDL的产品模型。

EasyDL整个平台的全景情况。目前,整个平台提供了一站式端到端的开发服务,也就是说从数据到模型训练到服务部署这个环节,都会提供相应的解决方案。在NLP这个方向也是两个版本,一个是经典版的模型训练平台,另一个是专业版。针对经典版提供了相对比较低门槛,并且可以在零代码的基础上训练文本的模型。目前可以使用的模型有文本分类,也会陆续上线文本分类多标签的任务类型,以及情感倾向分析,文本分析,文本实体抽取。专业版可以满足用户自己配置一些代码,可能有些自己开发的内容想加到预置的网络里,专业版平台也是符合开发工程师的习惯。与模型训练配套,我们也提供了数据的相关处理能力,比如说数据的管理,包括数据标注和本期着重介绍的文本智能标注。在服务部署方面也提供了发布到云端的API服务部署方式,再一个就是本地部署包的方式。
刚才提到了在NLP提供的任务类型,这些任务基础和算法都是经过百度NLP常年打磨,一篇论文又一篇论文编写,一个技术又一个技术落地和上线。通过这些积累的技术,希望开放给整个市场内的开发者和企业,去共享我们的技术成果。
大家如果想对平台有更加细致的了解和使用需求,也可以在百度搜索EasyDL,在官网中涉及到所有全景的特点和优势,对应的经典版和专业版也可以直接找到。
立即访问: https://ai.baidu.com/easydl/
企业在使用NLP的定制模型时候如何集成这些AI认知能力。首先,在企业训练一个模型,集成自己AI能力过程中,核心三个要素是什么?目前在深度学习时期,普遍需要数据、算法和算力,针对这三个环节,平台也是提供了对应的产品能力,比如在机器和环境准备环节,我也看到群里也有一些同学问到怎么部署环境这样的问题,其实在平台这一侧我们集成了开发环境,包括一些训练的机器资源。在模型训练这一环节,百度NLP这边提供了非常高精度高性能的算法和网络,也会在这个基础之上允许用户进行一些灵活编辑;部署方面也会提供性能比较好的预算框架。但在线下和企业团队沟通过程中也发现,其实很多用都是在数据这个环节被卡住,为什么数据这个环节有这么多问题?具体在数据标注过程中,文本的数据标注具体会在哪几个问题阻碍企业应用NLP这种AI能力呢?
以金融企业智能风控业务为例。首先,金融企业智能风控经常会为其服务的企业做一些舆情分析和分类,在这个过程中,很多时候需要企业对这些金融企业服务的客户进行细致的了解,比如行业背景,有哪些潜在知识需要金融企业员工不断进行了解。同时,在企业数据标注的过程中,有一些经典常见的流程。
我这边列了一下,目前了解到企业当中去标注数据的时候,经常做的这么几个管理流程,第一部分就是需要业务经理确定一下整个标注体系,所谓标注体系就是我这个标签是什么,每一个业务它需要抽象出一个标签,标签与标签之间有一定的对应关系,这就是它的标注体系。完成这个标注体系建立,就需要召集一部分标注人员,这部分标注人员是需要在业务经理标注体系下学习怎么标注,标注的一些概念。完成培训以后,标注人员就需要拿到一些带标注数据进行尝试,试标注,这个过程主要是为了后续在进行大规模标注过程中,避免一些重复的标注或者是反标。比如说在业务经理标注的体系当中有一些标注标签有一些歧义或者错误,需要在试标注期间指出,同时标注人员需要在试标注过程中,需要反馈给业务经理,这个标注标签是不是符合业务现状,不能说抽象出来的这些标签标注体系就直接使用了。在完成试标注以后,可以进行大规模的标注了,比如完成一个万级别或者十万级别数据标注的内容。
在这个过程中,我们发现有这么几个问题。首先,需要对标注人员有不同程度的专业要求。为什么会存在这个要求呢?还是回到金融企业智能风控业务当中,如果企业服务的客户是化工企业的客户,这个客户对应的企业舆情的文章,对它是正向还是负向,这个文章提到哪些点,是需要标注人员了解的,如果是这样的话,我们标注人员需要对他所在的业务,比如服务的化工企业,需要了解它的专业背景,如果是这样子的话,在培训的过程中,除了标注体系培训,还需要培训每个标注体系,每个标注标签背后的专业知识和概念,这样很大程度上都会让这些标注人员有一定的学习门槛。
假设我们已经解决了培训的问题,花了一周时间,每一个标注人员都了解了标注标签了,就一定能很好地标注吗?这个恐怕还不行。在标注的时候,很多时候我们都会发现,标注标签理解因人而异,人工进行大规模标注的效果无法得到保障。因为文本的数据标注是属于认知层的范畴。相对图像来说,图像是感知层,图像显示是猫狗就有明确答案,文本就很难有非常直观的感受。大家可以看下面的例子。比如这句话,“有两种人不谈恋爱,一种是谁都看不上,另一种是谁都看不上”。如果是你第一次听这句话,如果马上反应过来这句话讲的什么意思,那是很厉害的。但是很多时候理解这句话的过程中,有一定阅读理解的时间。所以我们在文本标注的时候,很多时候都会产生因人而异的问题。
解决这个问题,一般企业都会采用背对背标注的方案,什么是背对背呢,也就是说我们采用两到三个标注人员同时对一万条标注数据进行标注,标注的时候对同一条样本有三到两个标注人员同时标注,如果他们共同标注都是标注了A标签,这个标注样本可以认为是相对确定的样本,如果其中一个人员标注了B,其他人员标注了A,说明就存在歧义,需要质检人员及时出现,告诉他们如何确定这个样本,到底是标签A还是标签B。如果是以这种标注方法的话,我们可以看出来效率比较低,假如说有十万条样本可以标注,采用四个人同时标注十万条样本,如果想提升这个效率,每个人评分,四个人评分十万条,大概在两万五千条左右,虽然效率和时间提升上来了,肯定会导致质量有一定的下降,这个问题上也是属于常见的数据标注过程中的人力问题。
针对人力问题可以看出来,数据标注人力欠缺导致标注时间周期非常长,训练数据准备过程中,时间的长和不确定性,导致整体业务进度也会受阻。如果大家有参与过标注,或者说公司里有这个业务使用这个文本的模型运用到自己业务当中,很多时候可能都会兼职做一些标注工作。就像我们这个场景当中,这个负责人被安排了一个工作,需要在规定的时间点达成十万数据的标注量,他需要找一些标注人员共同协助他完成标注任务。他通常会怎么做呢,比如说他会看一下运营的同事,问一下,我昨天给运营同事买过了一杯咖啡,今天找他帮忙应该没有问题,又找到了PM同学,平常他们提的需求我都一定满足,这次我给他提需求也应该没有问题。这个负责人又看到了研发,研发同学正在快马加鞭编码,负责人想可能研发人员平常都会非常给力的支持,在这个问题上应该不会有什么异议,也是确定了,目前确定了三个人。我又想为了减少时间标注周期,找更多人一起标注,望向老板的时候,可能老板也在望向他,就会问他,你哪来的勇气找我帮你标注。如果是解决这些问题,我们如何帮助这个数据标注负责人搞定这三个问题呢,我们现在就要开始着重介绍一下EasyDL平台最近推出的文本智能标注产品。
为什么说文本智能标注产品能够很大程度上降低人力成本,提升整个标注效率呢,它在之前提到的三个问题上是怎么解决的呢?我先通过这一页给大家简单介绍一下文本智能标注它是如何进行的,整个流程是怎样的。
首先,假如说我是这个页面当中的用户,我需要根据平台的要求提交一部分数据,一部分是人工标注数据,需要超过六百条,另一部分是我需要标注的被标注数据,比如刚才任务场景里需要标注十万条未标注数据,就把对应这两类数据提交到平台上。提交文本智能标注的任务,通过文本智能标注对未标注数据进行标注,标注完成以后就会看到后面那个地方得出了智能标注的结果。那么这个文本智能标注它一定会正确吗?跟人工相比并不能说它完全能够比人工的数据标注的更准确吧?确实如此,我们只能说智能标注结果存在一定准确率,我们也会把这些准确率给每一位用户展示。同时我们也提供了一个出口,也就是说智能标注数据可以拿来做什么用。再下一步就是模型训练这个环节,我们使用智能标注数据可以直接拿来做模型标注训练,为什么不应该对十万条样本进行人工校验以后再进行模型训练呢?不知道大家是否了解文本模型的蒸馏这个概念,这套技术目前是在深度学习当中常见的学习方法。原理是什么呢,简单介绍一下,主要是通过一些大的模型学习的文本特点,标注了一些大规模的数据以后,再将这些特征应用到这个小的模型上,就诞生了这应用的方法。在这个环节,稍候我也会通过一些演示告诉大家如何使用。
刚才提到智能标注数据还有另一个出口,是什么呢,平台上提供了一个优先校验样本的能力,刚刚提到有十万条未标注数据需要校验,如果纯人工做十万条校验,虽然能够稍稍减轻一部分标注的工作量,但其实还是存在大量的人工的成本。为了解决这一问题,EasyDL 的文本智能标注可以从十万条智能标注数据挑出一些优先校验的样本返回给用户,用户可以对这些样本进行人工校验。这些样本是属于机器觉得标注的时候既可能属于A标签,也有可能属于B标签,它无法决定,偏向A标签概率更高一些,就标注了A标签,但是它更希望有人进行校验的过程,来帮它确认是不是真正的是A,还是标错了,帮助它进行持续的纠错和学习。
在这个过程中也会不断去优化和迭代整个文本智能标注背后的标注能力,我们提供了第一批十万条,后续每天或者每周可以不断提供未标注数据,通过文本智能标注产品不断的进行智能标注。同时可以通过优化智能标注的流程,不断地去提升文本智能标注它的智能标注准确率,这样的话人工参与的成本或次数会越来越少。
刚刚说了文本智能标注整个使用流程,我们回顾一下之前看的企业当中三个典型问题,看看EasyDL 的文本智能标注功能是如何进行解决的。
1. 对人员有不同的专业要求
• 智能标注只需提交少量标注样本,即可完成对大规模数据的标注
2. 对标注标准的理解因人而异,人工大规模标注效果无法保证
• 智能标注仅学习训练数据的文本字符的向量化特征,客观科学
3. 数据标注的时间周期长,训练数据的准备影响整体业务的进度
• 文本智能标注,仅在2-3小时内即可完成数万条未标注数据的标注,且提供优化智能标注数据的产品功能。
站在文本智能标注背后的技术,ERNIE2.0。我给大家介绍一下什么是持续学习的语义理解框架,就是ERNIE。首先就是这个左侧部分,ERNIE是不断通过学习人类的知识,结合一些典型的常见的NLP的任务,不断的去学习这部分的知识,这些海量知识包括了1500万百科语料或者词语,实体知识,还有人类对话的知识,文章的因果结构的知识,还有搜索查询的结果句对知识,还有语言蕴含的关系知识。这些知识在ERNIE已经完成了学习,但是它并仅仅限于此,它持续学习的框架还在不断学习,截止到现在它还是在不断拿到新数据,去学习我们人类的知识。在这个过程中,我们也是希望把我们比较强大的ERNIE持续学习的语义理解框架,通过一些产品的方法,让企业能够站在我们积累的海量的大数据能力之上应用NLP的模型能力。对应这个持续学习的语义理解框架ERNIE,如果大家想了解更细节的,或者想看一下ERNIE对应的论文或者是开源代码,可以上百度搜索ERNIE开源,就可以找到相应的链接。
在ERNIE一些效果层面我们也做过很多评比,这个列表当中列出了关于在很多重要的国际级别的重要的比赛当中,ERNIE在一些常规数据集表现效果。我们在ERNIE效果上与BERT相比,评估提升了两个点。百度又对ERNIE增加了三倍参数的量,完成了ERNIE LARGE更大的模型,这个ERNIE LARGE也是文本智能标注核心应用的技术。所以说我们总结来说,ERNIE应该是目前拥有业界比较好的模型算法,更懂中文的语义理解框架。
不管是产品和技术我们邀请了一些用户做了一些测试和反馈,不管是标注过程还是优化的流程和模型训练的过程,都得到了一些用户一些比较好的反馈。大家看到这里觉得是不是这个智能标注产品该如何使用呢,它具体是什么样的,下面进入到实操的环节。
我会通过一些数据集还有演示告诉大家如何去训练和使用一个文本智能标注,以及使用文本智能标注的智能标注数据怎么训练一个模型。数据集也会通过群里发送给大家,大家可以下载演示数据集,可以自己体验一下,对应的链接就是通过这个页面的链接进入到平台里。
立即访问: https://ai.baidu.com/easydl/
    
创建数据集之后,找到文本智能标注,创建智能标注任务,在这里选择刚创建的智能标注数据集,完成以后启动,它就进入到了校验的环节。进入校验环节以后,在智能标注状态里会变成数据校验中,如果校验完成以后会直接进入文本智能标注的学习状态或者智能标注状态,最终会到达已完成状态。对智能标注进行校验时,系统会自动筛选出了300条优先校验的样本,这300条当中,重新当完成100条的标注时,可以进入到下一轮启动效果提升。
最后,通过目前平台提供三个典型任务给大家说明一下NLP的任务在日常的生活当中或者业务当中,我们如何去应用,如何找到对应的应用场景。
首先我们看第一个媒体的场景,比如说手机百度,我们在使用手机百度时候除了搜索之外,可以看一些新闻的内容,可以看到有一些频道,小说、健康、科技、娱乐等频道,如何从全网里或者是各个网站导流进来的文章做分类?其实就可以应用到文本分类的模型。首先这边遵从这四个步骤,比如目标分析,我们看一下我们需要对拿到的数据、文章做一个频道的分类,也就是说对文章做一个分类。在特征选择过程中我们应该选择哪个特征,首先可以看到,新闻的标题很多情况下都能够反映出这个文章的主题,所以我们就直接选择文章的标题作为训练数据,训练完这个就按照之前说的,确认这个标题对应的标签,比如说它是科技、娱乐还是健康的。我们准备数据,完成模型的训练,再做模型的小流样上线,之后看一下具体有一些案例,再做数据集的添加,这样可以不断优化我们的效果,通过这四个步骤可以很容易训练出一个文本分类的模型。
第二个场景是目前使用广泛的AI智能问答场景。例如智能客服、智能的故事机。这个过程背后核心技术就是这个文本匹配的模型。在文本匹配模型听起来比较抽象,我通过一个现实世界的例子给大家介绍一下在业务场景怎么应用。我们可以将文本匹配模型看成一个磁铁,当用户产生一个输入,“什么是天津省内的流量”,我们通过这个磁铁逐一看一下侯选的知识内容,它的对应值是什么,值是多少。请问省内流量是怎么回事,这个有相对比较高的数值,这个问题对应的答案可以解答这个问题,文本相似度的模型就在这个过程中起到了它的作用。如果在知识问答中可以使用,其他的场景还有什么,比如在业务当中很多时候需要对离线数据做知识库构建或聚类,也可以通过这种方式做。同时也有站内的搜索,比如我想像百度搜索框一样,直接提供答案。
最后一个就是序列标注的任务,就是将文本看成一串序列,对序列字符进行标注,称之为序列标注,常见的应用就是快递地址的关键信息进行抽取,比如这里可以看到张三,电话号码,最后一个地址,我们把对应字段抽取出来就完成了序列标注的内容。序列标注其他的应用场景,我们在线下交流过程当中有很多的业务,一些公司也会应用到这个场景。你可以回想一下甲方或者客户那是不是也有这种场景,比如对一些财经文章抽取一些关键信息,进行结构化的录入,包括医疗专有名词的录入,这些场景是非常有商业潜力的,很多时候在AI落地的过程中,其实一些大型的国企或者政府企业会优先尝试这些能力,这个时候就诞生了一些订单,如果你回想出来自己的甲方或者客户已经有这种场景,但是还没有应用这种能力,就可以试一试在EasyDL智能标注的任务场景去构建一些模型。其他的场景,比如内容审核场景,都是对关键词识别以后进行的识别。
课程首先介绍了EasyDL在NLP方向的产品全景、之后介绍了一些文本智能标注的原理、应用和问题,以及对应的实操,最后介绍了一些NLP的任务应用场景是怎么做的,我们后续平台不管是经典版还是专业版都会陆续上线很多任务,大家可以后续可以持续关注。


第二课: 主题:通过EasyDL为猎头企业实现复杂文本分类
时间: 2020年6月10日(线上)
讲师: 北京瀚才咨询有限公司负责人 谭笑然

【课程大纲】
1. 猎头行业现状及痛点介绍
知识密集型行业如何将“专家”的经验赋能行业新人
2. 如何使用EasyDL进行复杂文本分类
使用EasyDL进行复杂文本分类的方案介绍
使用EasyDL专业版定制模型的三个核心关注点
EasyDL模型训练和部署实践演示

先简单给大家举个例子,让大家对猎头行业有初步认识,与知识服务业、商务服务业或者知识密集型产业目前面临的问题。
大家可以看下面这个例子,猎头行业会遇到一个问题:招聘过程中,同一个行业内不同的企业会采用不同的职级序列,以互联网为例,比如同样是年薪在30到50万的工程师岗位,可能阿里巴巴是P6级别,腾讯是T3.1,之后叫9级,华为叫T16,京东叫T6,这只是举个例子,可能内部会有不同的职级序列。而且,同一个职级序列,阿里巴巴有的叫工程师,或是专家,会有各种名字。在猎头招聘过程中就会面临一个从业者需要有足够长的时间,来积累行业经验,这样才能给到我们客户或者候选人提供全面的顾问服务。目前情况下,猎头行业目前变得门槛越来越低,大量应届生或者没有行业经验的人进入到这个行业,我们作为企业管理者或者团队领导人,需要赋能给这些新进入行业的小白。以前的言传带教在目前技术背景下变得越来越低效率,在这样的背景下,我们想到了EasyDL这个产品。
因为我是做房地产行业的,通过我们行业的例子给大家说一下,可能同样的行业标准,但其中会有非常大的行业区别。比如大家看左边这两个,一个叫中梁地产杭甬事业部总经理,一个是华润地产华南事业部总经理,看名字来讲叫事业部总经理,类似于同样的职位,但是实际上在我们业务中,因为两家公司采用了不同的职级序列,不同的职位叫法,不同的组织架构,导致了右侧这个区别,中梁事业部总经理负责一到两个项目,最多三到四个,管理的项目货值10亿或20亿,他是年薪100万左右的职业经理人。同样叫事业部总经理,华润地产,因为它是央企,全国只分了6个事业部,华南事业部总经理下辖就有6个城市公司,将近40个项目,管理项目货值超过200亿,这个人如果按行政级别来算,他是央企副厅级干部,同样两个事业部的负责人,在业务上就有比较大的差距。
通过EasyDL大家可以看这一部分,组织分类,智能分类和职级分类,这是我用EasyDL针对地产这个行业做的三个模型,通过这三个模型我就可以把原始语料经过模型的处理,最后变成结构化的标签,新入职员工可以通过这些标签就可以非常清晰地了解到具体岗位,通过EasyDL进行AI赋能,使我们的数据能够更容易解读出来,解决猎头行业的一大痛点。
EasyDL的能力,我们可以通过EasyDL定制一个模型,这个模型是通过行业的通用的标准加上从业人员的专家经验,能够非常低成本、高效率制定出来这个模型,这个模型可以套用到许多的业务场景中的文本信息。之前我给百度录过一个小的VCR,这个VCR中提到,之前有将近200万条关于候选人的数据,这是我们在将近20年从业中积累下来的信息,这些信息如果我们单纯靠人工进行标注的话,可能5个人的团队要标注10年左右标完,但是借助EasyDL的能力,最后一个版本这200万条数据大概经过了5个小时左右,就把这3个模型分类进行了结构化的标注,所以说不管是人工智能还是EasyDL,在我们实际业务的应用中真的起到了非常大的效率。
下面举一个具体的例子,大家可以仔细看一下,这也是一会实操的例子。这个例子可能和我们猎头行业或者地产行业的关系就不大了,因为之前也和百度的同学沟通过,今天听课的大部分是在校学生,所以我就找了一个大学专业作为一个例子。
这个例子举的是材料工程专业,这个专业据我在百度上查到的信息,全国有200多所高校开设这个专业。这个专业其实相对来说是比较偏门的行业,以至于它并不是像咱们所认知的,比如985是最强梯队,然后是211,然后是一本,然后是普通本科,因为这是相对冷门的专业,在教育不对各个专业有学科评估的,举个例子,武大985、211,是国内知名大学,昆明理工只是普通本科,但是教育部把它分为B类,武汉大学被分为B-类。这个说明什么,说明在产业或者业务应用中一些普适的标准并不能符合实际业务场景的标准,我们就可以通过EasyDL的能力,重新制定一个符合业务需求的标准。
除了院校还有一个专业,材料类是一个大专业方向,其中教育部分了下面11个小专业,左边是教育部的分类,右边是部分高校对于材料类专业的叫法。举个例子,比如我是一家公司的招聘人员,老板说我需要一个学历优秀的人,这个学历可能在材料类的专业中并不是清华北大就是最好的。大家可以看A类里并没有北京大学,可能在后边某一个地方,985、211这样的一本,并不是老板说的学历好的规则,所以我需要重新设定一个新的规则。前面200多所学校大家可以通过一些代码或者规则进行操作,但是到了专业,可能仅仅靠代码或者靠规则就很难完成这么大量复杂的综合,这个专业一共有30多个,学校有200多所,如果你们要用规则和代码做,我在行外人想着可能相对比较复杂。
我再把这个事情加一个难度,可能这只是部分高校开设材料类专业的名称,还有很多材料类的专业名称并没有收录在这里,遇到了这样的简历,比如说我自己虚拟了一个专业叫再生纳米生物材料,这大体上是某一高校材料专业的名称,但是它并不存在于这些语料里,那怎么办,咱们规则也好,代码也好,程序也好,很可能大概率无法对这个专业进行正确的判定。我把刚才看到的这90多所学校以及这30多个专业作为语料放在EasyDL模型里训练出了三个标签,这三个标签就是ABC三个标签,A类院校是指屏幕上看到左边的,B标签的院校,加上学科的名称作为训练的语料,C标签就是除了AB两类,其他全国有900多所本科类院校,加上教育部拟定112个二级专业名称,作为C类标签进行训练,一共做了一万五千条训练数据,经过不到一个小时的训练,我获得了EasyDL文本分类的模型,这个模型在我前期已经做了验证,比如说我拿验证的文本是郑州大学材料科学与工程,大家可以看到它属于材料类专业,郑州大学属于B+的学校,它预测出来就是A类的标签,和A类标签的原始信息以及我希望达成的效果是一致的。又找了一个哈尔滨理工大学的材料工程,它是符合B类标签的规则,它在C+这个栏目里,它也准确地预测出来了它是B类的标签,C类我是拿湖南师范大学心理学进行预测,它不是材料专业,最后进入到了C类标签,最后我拿模拟出来的专业再生纳米生物材料,加上河北工业大学,河北工业大学是A类院校,加上拟定出来的并不属于30个原始语料里的专业,但是它依然有一个99.96%的置信度结果,结果是A类的标签,所以说明EasyDL在处理这种非结构化,没有规律的,甚至需要靠人类思维,预估,模拟思维才能出来的结果上,还是表现的比较好的。
之后是一个常规用EasyDL定制文本分类模型的简单方案。首先是数据清洗流程,其次是数据标注过程,之后会训练出一个最初版本的模型,这个模型如果想要在业务上应用落地,它是需要大量的验证的过程,最后迭代出若干个版本,最后某一个版本才能满足你业务上的需要。最后通过你的可用的模型,再来套用工作中或者实际应用场景中需要进行分类的数据,最后得出来一个结构化的的结果。
后头这两页因为也没有图了,相对可能比较枯燥,我简单说一下我们在做EasyDL的模型过程中遇到的困难。我们基本上是从2019年10月份开始了解到EasyDL这个产品,最开始用的也是经典版,但是经典版的准确率确实不太能满足我们业务需求,之后从元旦前后测试使用专业版文本分类,大概在3月份,春节之后我们迭代了大概有8个版本,最后才把这个模型训练到基本符合我们业务需求的准确性。
刚才举学校和专业的例子,这其实只是例子,可能我们业务场景中会更复杂,因为我们公司一定不会只招材料工程类的专业,我们可能有十个或者二十个专业方向,有的是word、excel、pdf或者图片,甚至面试时候有各种类型的录音,这种首先要进行数据清洗,才能作为文本分类使用,这个数据清洗,图片类的我们使用了百度AI平台上的OCR的功能,有一些表格OCR,高精度OCR,自定义模板OCR,在数据清洗上起到了非常大的帮助,以及pdf版本文件,可能需要通过一些其他的软件转换格式,以及一些音频文件也是用了科大讯飞的接口转换成文字,所有的语料都要先转换成文字,也就是说我这边提到的数据的数字化,这样咱们才能进行下一步操作。
转换成文字之后,需要通过各种NLP工具进行关键信息的分离、词法分析,向量分析,就是各种结构化的分类,我举个例子,可能我这边一条数据是十年前的数据,张三,手机号,万科地产湖南区域公司长沙事业部河西片区项目公司的工程总监,后面夹杂着他的年龄、学历、婚否,以及在这家公司任职时长,非常冗余的信息,但是实际上我只需要判定他的职位,我需要训练的模型是关于候选人职级的模型,我就需要把他的公司信息、电话号码、婚否、教育背景这些信息剔除掉,把关键信息留存出来,把数据结构化,把你要做训练模型的信息挑出来,这样才能保证你的模型训练有效。如果数据复杂、冗余信息台多,模型很难抽取中最关键的点,模型训练时间会非常长,效果也难以得到保证。所以数据清洗是非常重要的工作。另外,模糊数据的剔除,因为可能在实操的场景中,会有一些数据,即便人工、行业专家也无法给出明确分类,这些数据会像老鼠屎一样污染整个模型,使整个模型分类的置信度有一个比较大的降低,所以这也是我们经过了两三个版本迭代以后发现的问题,所以我们人工将一些可能是A可能是B,这样的语料分出来了。在训练模型的语料中抽离出来,使得模型的准确率有一定程度的提升,这是关于数据的清洗。
下面就是数据的标注,因为当时我二三月份在做这个模型的时候,还没有上线文本分类的智能标注功能,所以我们标注的流程上也确实下了很大的工夫,现在有了智能标注的功能,我觉得前两条不会有太大的工作量,我前两天试了一下,准确率还是比较高的,在不是特别复杂的应用场景下准确率还是比较高的。如果大家有一些非常复杂的应用场景,给大家举个例子,这是我做候选人职级这个模型其中一个标签,我应该做了有几万行吧,四万多行。大家可以看一下这个数据的复杂程度吧,因为没有对比,我自认为觉得还是比较复杂,针对相对比较复杂的数据,我的建议是一定要小批量的,高频率去人工标注你的数据。因为我们应用中出现了一个问题,我人工标了五万条数据,但是放到模型中参与训练,实际上只用了五千条数据,之这是有的。人工一条标注就要8分钱,我标注四万条这都是成本,以及你这个版本标注的数据并不一定满足模型的需求,可能你分类的规则还要调,所以说大家一定要先把你的分类确定之后再进行大规模的标注数据。在分类完全敲定之前,要小步快跑,一点点来,不要一下标注太大量数据,第一可能用不上,第二成本可能很高。以及第二点,人工标注中,一般都不是一个人标注,如果有多人标注,这个规则一定要清晰明了,因为当时我们用自己的人工标注了一部分,还有一部分是外包的,外包可能也花了一些钱,但是由于我们并没有给出足够容易理解的标准,导致花的几万块钱标注出来的数据是用不了的。大家如果有需求进行人工标注的话,给大家提一个醒,不要花冤枉钱。
之后就是训练模型,一会有一个实操的演练。模型训练以后就是模型验证的工作,首先平台会提供模型的验证报告,它会给出各个分类的精准值。从我这边实际的经验来讲,可能不一定准,可能这只是符合我自己的实际经验,到其他行业和场景可能不应用了,如果准确值低于90%这就是非常不准的模型,可能需要重新分类或者看分类数据是不是有问题。基本上到95%是属于可以使用的模型,我们迭代到最后两三个版本,它的准确率基本上能达到99%,所以如果专业版准确度没有95%以上,基本上你这个模型就是失败的模型。可能98、99%的模型做出来以后,其实在业务中还是需要进行第二次验证,将验证出来可能有错误的数据再重新收集,重新人工再打或者分类,重新投入到模型训练的语料中,重新训练,这样这个模型的准确度,在复杂场景下模型的准确度能从98%提升到99.5%以上,基本上这就是模型验证。
另外,效果校验功能,支持手动输入一些你想要校验的信息,它右边有识别结果和准确率,大家可以验证这个信息是否准确。
在文本分类,在一些相对比较复杂的场景下的文本分类上还是能起到一些,通过代码或者通过规则,通过关键字很难、劳动量很大才能达到的事情,通过这个EasyDL这个模型让我一个学考古学的人,通过几个小时的模型的训练,就可以得到一个能够应用于业务场景中的模型。

随着NLP专场课程的结束,本次EasyDL产业应用系列直播课也告一段落。在这一个月中,EasyDL为大家带来了四个专题:质检专题、安全生产专题、Nvidia专场、信息智能处理CV与NLP专场。针对不同行业的需求,课程并非仅仅从产品层面单纯讲解产品的原理与使用,更是从各领域的真实场景案例出发,邀请企业开发者,与大家分享行业的痛点与难点,并展示出在AI加持下的场景解决方制定与效果提升。
在未来,百度大脑EasyDL希望倾听更多开发者的声音,欢迎大家添加下方小助手的微信,告诉小助手你感兴趣的AI开发内容,未来的直播课,安排上了!
登录查看更多
1

相关内容

【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
专知会员服务
155+阅读 · 2020年4月21日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
118+阅读 · 2019年9月24日
竹间智能AI+保险解决方案
竹间智能Emotibot
25+阅读 · 2019年3月4日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
NLP概述和文本自动分类算法详解 | 公开课笔记
人工智能头条
5+阅读 · 2018年7月24日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
12+阅读 · 2019年2月28日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
竹间智能AI+保险解决方案
竹间智能Emotibot
25+阅读 · 2019年3月4日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
NLP概述和文本自动分类算法详解 | 公开课笔记
人工智能头条
5+阅读 · 2018年7月24日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
相关论文
Top
微信扫码咨询专知VIP会员