百度最新中文词法分析工具--LAC

【导读】自然语言处理(NLP),是使用计算机来完成以自然语言为载体的非结构化信息为对象的各类信息处理任务,比如文本的理解、分类、摘要、信息抽取、知识问答、生成等的技术,是当今非常火的方向,受到人工智能界、计算机科学和语言学界所共同关注。词法分析是自然语言处理的基础层次,也是重要的基础技术之一。近日,百度发布了最新的中文词法分析工具--LAC。



词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注就是在给定句子中判断每个词的语法范畴,确定其词性并进行标注。解决兼类词和确定未登录词的词性问题是标注的重点。进行词性标注通常有基于规则和基于统计的两种方法。一个多义词往往可以表达多个意义,但其意义在具体的语境中又是确定的,词义标注的重点就是解决如何确定多义词在具体语境中的义项问题。标注过程中,通常是先确定语境,再明确词义,方法和词性标注类似,有基于规则和基于统计的做法。

百度AI开放平台的词法分析向用户提供分词、词性标注、命名实体识别三大功能,中文词法分析算法也取得较好的效果。近日,百度又发布了基于Paddle的深度Bi-GRU-CRF网络的中文词法分析工具LAC。


LAC是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写,也可以认为是LAC Analyzes Chinese的递归缩写。

LAC基于一个堆叠的双向GRU结构,在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面,分词、词性、专名识别的整体准确率95.5%;单独评估专名识别任务,F值87.1%(准确90.3,召回85.4%),总体略优于开放平台版本。在效果优化的基础上,LAC的模型简洁高效,内存开销不到100M,而速度则比百度AI开放平台提高了57%。

LAC模型部分:


LAC数据部分:


LAC模型部分:


LAC预测部分:



原文地址:

https://github.com/baidu/lac

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

 AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!


关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员