多标签文本分类、情感倾向分析、文本实体抽取模型如何定制?

2020 年 10 月 21 日 AINLP


文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力。在2020世界人工智能大会,百度文心(ERNIE)荣获最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者)。


ERNIE开创性地将大数据预训练与多源丰富知识相结合,持续学习海量数据中的知识,将机器语义理解水平提升到一个新的高度。以中文模型为例,目前ERNIE已经学习了1500万篇百科语料和词语、实体知识,700万个人类对话,3亿的文章的因果结构关系,以及10亿次的搜索查询与结果的对应关系,以及2000万的语言逻辑关系知识。模型还在持续不断地建模新的海量数据与知识,不断地提升下游的应用效果。ERNIE在中英文的16个任务上已经超越了业界最好模型,全面适用于各类NLP应用场景。


目前,EasyDL已预置了领先的预训练模型ERNIE2.0,并配套了多种NLP经典算法网络,支持了文本分类、短文本匹配和序列标注等典型文本处理任务。


近日,文心(ERNIE)重磅发布三项功能,新增定制多标签文本分类、情感倾向分析、文本实体抽取模型等功能,同时数据管理能力也进一步增强,更好地满足NLP领域开发者需求,开发者可通过百度AI开发平台EasyDL进行使用。


EasyDL是百度大脑面向企业开发者推出的零门槛AI开发平台,基于百度自主研发的深度学习平台飞桨,结合业界先进的工程服务技术打造,覆盖视觉与自然语言处理两大技术方向,支持一站式智能标注、模型训练、服务部署等全流程功能。目前EasyDL已经被广泛应用在零售、互联网、安全生产、工业质检、教育、医疗、交通等20多个行业,拥有70多万用户。


使用EasyDL简单三步即可完成NLP任务配置与训练,性能优异。



那么,文心这么厉害,有没有机会和高工面对面,快速掌握技术原理与实际应用?


本周六,百度资深研发工程师空降上海,一个上午从文心(ERNIE)技术解析到实战演练为你解析如何定制企业高精度NLP模型。(文末海报报名哦)


我们先来点技术干货稍做预习,了解下文心(ERNIE)近期重磅上线的多项实用功能!



新增定制化多标签文本分类功能



“多标签文本分类”指对一段文本同时标记多个标签,如:“未来的学和教正在发生颠覆,学生将会在家里学习,机器人将走上讲台。”可对应标签为“教育”、“科技”。该功能应用场景广泛,如媒体场景中对新闻内容进行自动归类,在内容推荐场景中利用内容标签提升召回,通过自动标签功能对知识文档进行多层级分类等。


目前,EasyDL平台经典版和专业版均新增了这项功能,在“专业版”的任务配置过程中,开发者还可选择ERNIE Tiny、ERNIE Large、ERNIE Base三种各有所长的预训练模型。




新增定制化情感倾向分析功能



“情感倾向分析”指对一段文本进行“积极情感”或“消极情感”的判断,如“酒店位置很好,服务周到热情,下次一定会再来”的用户评价,部署模型后可直接得到“Positive(积极情感)”的标签和99%的置信度。


该功能最常应用于用户评论分析和舆情分析,比如商品、店铺的口碑分析,对事实性的新闻事件或互联网话题进行舆情分析等,在汽车、餐饮、酒店等多个垂类上,分析准确率可达到95%以上。


目前,该功能已经上线EasyDL经典版,后续平台将逐步增加基于实体级和句子级的情感分类,力求覆盖更多的应用需求。




文本数据管理和数据标注功能全面升级



针对开发者数据管理和数据标注过程中的痛点,EasyDL支持了更加灵活的数据格式,当前可支持zip、Excel、TXT三种文件格式进行上传。除了提供在线标注能力外,还提供智能标注功能,大幅降低了开发者的标注成本,开发者可直接上传未标注数据体验该功能。


图:文本智能标注示意图


10 月 24 日当天,百度 AI 快车道【飞桨开源框架高阶营】线下课程 “闪现” 上海站,邀请 “魔都程序猿” 和 “沪上程序媛” 来到上海市徐汇区瑞平路 230 号保利时光里 B1-09——LOFAS 集聚空间,与百度资深高工、各位行业开发者相聚一堂。上海站内容绝对不会令你 “空脑而归”,开发全流程、部署工具、高精度目标检测、模型优化方案一一奉上,更有“全能”OCR、金牌推荐算法,一起来场硬核趴体吧!


想了解强大文心(ERNIE)背后的技术原理?

想更进一步快速掌握NLP模型开发方法与技巧?

想线下和百度资深研发与各行业开发者深度沟通?

本周六上午,就在上海徐汇区复兴路1199号A座5层,百度AI快车道【EasyDL零门槛模型训练营】,资深研发工程师详解NLP技术能力,并带来现场实操与面对面答疑解惑,助你三小时掌握EasyDL的NLP模型开发秘籍!



点击"阅读原文"即可体验!

登录查看更多
2

相关内容

小米在预训练模型的探索与优化
专知会员服务
19+阅读 · 2020年12月31日
面向健康的大数据与人工智能,103页ppt
专知会员服务
110+阅读 · 2020年12月29日
专知会员服务
122+阅读 · 2020年12月9日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
面向司法案件的案情知识图谱自动构建
专知会员服务
126+阅读 · 2020年4月17日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
191+阅读 · 2020年1月17日
【自然语言处理】清华刘知远55页自然语言处理PPT
产业智能官
19+阅读 · 2019年8月23日
用户研究:如何做用户画像分析
互联网er的早读课
5+阅读 · 2019年5月14日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
最全面的百度NLP自然语言处理技术解析
InfoQ
7+阅读 · 2017年11月12日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
自然语言处理在人机对话中的应用
京东大数据
8+阅读 · 2017年8月11日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2019年3月1日
Incremental Reading for Question Answering
Arxiv
5+阅读 · 2019年1月15日
Arxiv
8+阅读 · 2018年5月1日
VIP会员
相关VIP内容
小米在预训练模型的探索与优化
专知会员服务
19+阅读 · 2020年12月31日
面向健康的大数据与人工智能,103页ppt
专知会员服务
110+阅读 · 2020年12月29日
专知会员服务
122+阅读 · 2020年12月9日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
53+阅读 · 2020年8月21日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
面向司法案件的案情知识图谱自动构建
专知会员服务
126+阅读 · 2020年4月17日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
57+阅读 · 2020年3月6日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
191+阅读 · 2020年1月17日
相关论文
Arxiv
6+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2019年3月1日
Incremental Reading for Question Answering
Arxiv
5+阅读 · 2019年1月15日
Arxiv
8+阅读 · 2018年5月1日
Top
微信扫码咨询专知VIP会员