LTP 4.0!单模型完成6项自然语言处理任务

2020 年 6 月 16 日 AI科技评论

语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术于一体。

其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了第1名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖。国内外众多研究单位和知名企业通过签署协议以及收费授权的方式使用该平台。

哈工大SCIR本科生冯云龙等同学在车万翔教授指导下,于近日对LTP进行了新一轮的全面升级,并推出了LTP 4.0版本。此次升级的主要改进为:

  • 基于多任务学习框架进行统一学习,使得全部六项任务可以共享语义信息,达到了知识迁移的效果。既有效提升了系统的运行效率,又极大缩小了模型的占用空间

  • 基于预训练模型进行统一的表示 ,有效提升了各项任务的准确率

  • 基于教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确率

  • 基于PyTorch框架开发,提供了原生的Python调用接口,通过pip包管理系统一键安装,极大提高了系统的易用性

下表列出了新旧版LTP在精度、效率和模型大小方面的对比:

为了模型的小巧易用,本次发布的版本基于哈工大讯飞联合实验室发布的中文ELECTRA Small预训练模型。后续将陆续发布基于不同预训练模型的版本,从而为用户提供更多准确率和效率平衡点的选择。

测试环境如下:

  • Python 3.7

  • LTP 4.0 Batch Size = 1

  • CentOS 3.10.0-1062.9.1.el7.x86_64

  • Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz

备注:速度数据在人民日报命名实体测试数据上获得,速度计算方式均为所有任务顺序执行的结果。另外,语义角色标注与语义依存新旧版采用的语料不相同,因此无法直接比较(新版语义依存使用SemEval 2016语料,语义角色标注使用CTB语料)。

欢迎访问 http://ltp.ai/ 体验!



招 聘


AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京

职务:以跟踪学术热点、人物专访为主

工作内容:

1、关注学术领域热点事件,并及时跟踪报道;

2、采访人工智能领域学者或研发人员;

3、参加各种人工智能学术会议,并做会议内容报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。


感兴趣者,可将简历发送到邮箱:jiangbaoshang@yanxishe.com



点击"阅读原文",直达“ACL交流小组”了解更多会议信息。
登录查看更多
0

相关内容

句法分析(Parsing)就是指对句子中的词语语法功能进行分析,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。 句法分析(syntactic parsing)是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析;语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
专知会员服务
155+阅读 · 2020年4月21日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
99+阅读 · 2019年12月13日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
使用PaddleFluid和TensorFlow训练序列标注模型
PaperWeekly
6+阅读 · 2018年7月11日
HULAC:一个高效的中文词法分析工具包(清华)
全球人工智能
5+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2019年9月26日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年7月19日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关论文
Arxiv
4+阅读 · 2019年9月26日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年7月19日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员