阿里获中文语法大赛 CGED冠军后,我们和领队科学家聊了聊中文语义识别

2017 年 11 月 27 日 大数据文摘 文摘菌

CGED官网

大数据文摘作品

作者:魏子敏


 “相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点。” 阿里巴巴iDST自然语言处理首席科学家司罗这样向大数据文摘描述中文语义错误识别的困难所在。 

11月24日,阿里巴巴iDST中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军

参赛机构比赛成绩公布

这是继今年在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军后,阿里iDST NLP 的团队的又一成绩。司罗告诉大数据文摘,两个比赛都是基于深度学习的模型,但建模方式和作用的数据集合不同。前者是英文的实体识别,主要处理自然语言处理中的经典课题,实体识别问题;而 CGED是中文的语法纠错,相比来看,任务更综合,语法纠错需要依赖很多预处理模块来做,比如分词、词性标注、实体识别、句法分析等。 

 CGED是自然语言处理领域的权威赛事,由IJCNLP联办,今年已是第四届。本次比赛中,主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。

司罗表示,iDST自然语言处理团队的这一成果接下来也会有一定的商业应用场景,比如,可以在中文输入法自动拼写纠错,网络文本规范资质检查,语音识别文字后处理等。

司罗介绍,中文语法诊断的挑战性在于,中文语言知识丰富、语法多样人在判断一句话是否有错误的时候,会用到长期积累的知识体系(比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等)。相比之下,比赛提供的训练数据非常有限,仅通过训练数据来识别错误是很困难的。此外相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点因为自然语言的歧义性是很高的,比如“习近平和特朗普/通话”可能会被错误的切分为“习近平和特朗/普通话”。 

“而且中文的语法特征比较少,不像英文有相对严格的规范定义时态、单复数、一致性等语言规则,所以很多错误可以基于这些预先定义的规则来做。而中文错误更不符合规则,需要强大的语料库学习,以及良好的模型学习能力。”

本次大赛的赛题中包含的错误分为四种类型:

多词(Redundant)、缺词(Missing)、错词(Selection)和词序错误(Word Order)。

系统性能的评估也由易到难分为3个level:

detection level(识别句子有没有错误)、identification level(识别错误句子的具体错误类型)和position level(识别错误的位置和对应类型)

比赛要求诊断的四种错误类型

比如,“我要送給你一个庆祝礼物。要是两、三天晚了,请别生气”这句话,在第3个Level,AI需要明确指出“两、三天晚了”存在错误才能得分(正确用法应该是“晚了两、三天”)。

根据组委会公开的结果,司罗团队在所有的3个level的正确率都以较大优势位居第一,获取2017 CGED比赛的冠军。他们通过在深度学习中引入无监督的语法知识,同时结合了集成学习等方法。

技术细节上,IDST团队在bilstm-crf模型的基础上,结合了分词、词性、依存句法等特征,同时将language model等无监督的知识embedding到神经网络。依靠RNN结构以及词性、依存等特征,不光能识别短程的语法错误,比如“一头牛”好于“一只牛”;也能识别比较长程的语法错误,比如“虽然父母很辛苦,而且对孩子照顾得很好”中“虽然”和“而且“不搭配。此外,他们针对比赛的3个不同level,设计了不同的基于神经网络的snapshot emsembles方法。

而近日,iDST NLP的技术能力也已经在阿里云上开放。

司罗介绍了现在开放了四个模块

1)分词;2)词性标注;3)命名实体;4)情感分析。

“未来我们会有更多的基础NLP模块在阿里云上开放,比如:

实体关系,关键词识别,词向量,文本相似度,主题模型等等。”

司罗表示:“人工智能在对于自然语言的理解还处在起步阶段,要实现真正的语义理解还需要 5-10 年的跨越。我们正在积极和同行业顶尖机构学习交流,推动行业发展”。



课程推荐

使用keras快速构造深度学习模型实战

微软&谷歌数据科学家,带你每周案例实战


史上最高性价比!

两位顶尖的微软/谷歌数据科学家,直播互动分享珍贵学习经验,并详细讲解前沿实战案例!GPU云实验平台提供便捷的操作环境。还有原著大作免费送!

七周时间,带你玩转Keras!

很多即将毕业和渴望转型的小伙伴都加入了我们,你不来吗?

你想要的,这里都有!




往期精彩文章


点击图片阅读

处方药能不能做精准营销?制药商的数据应用探索

登录查看更多
7

相关内容

专知会员服务
155+阅读 · 2020年4月21日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
145+阅读 · 2019年10月27日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
腾讯AI Lab斩获知识图谱顶级赛事KBP 2017世界冠军
全球人工智能
10+阅读 · 2017年12月1日
Arxiv
5+阅读 · 2019年2月28日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员