CGED官网
大数据文摘作品
作者:魏子敏
“相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点。” 阿里巴巴iDST自然语言处理首席科学家司罗这样向大数据文摘描述中文语义错误识别的困难所在。
11月24日,阿里巴巴iDST在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军。
参赛机构比赛成绩公布
这是继今年在全球顶级的知识库构建测评KBP2017中,斩获英文实体发现测评全球冠军后,阿里iDST NLP 的团队的又一成绩。司罗告诉大数据文摘,两个比赛都是基于深度学习的模型,但建模方式和作用的数据集合不同。前者是英文的实体识别,主要处理自然语言处理中的经典课题,实体识别问题;而 CGED是中文的语法纠错,相比来看,任务更综合,语法纠错需要依赖很多预处理模块来做,比如分词、词性标注、实体识别、句法分析等。
CGED是自然语言处理领域的权威赛事,由IJCNLP联办,今年已是第四届。本次比赛中,主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。
司罗表示,iDST自然语言处理团队的这一成果接下来也会有一定的商业应用场景,比如,可以在中文输入法自动拼写纠错,网络文本规范资质检查,语音识别文字后处理等。
司罗介绍,中文语法诊断的挑战性在于,中文语言知识丰富、语法多样;人在判断一句话是否有错误的时候,会用到长期积累的知识体系(比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等)。相比之下,比赛提供的训练数据非常有限,仅通过训练数据来识别错误是很困难的。此外相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点,因为自然语言的歧义性是很高的,比如“习近平和特朗普/通话”可能会被错误的切分为“习近平和特朗/普通话”。
“而且中文的语法特征比较少,不像英文有相对严格的规范定义时态、单复数、一致性等语言规则,所以很多错误可以基于这些预先定义的规则来做。而中文错误更不符合规则,需要强大的语料库学习,以及良好的模型学习能力。”
本次大赛的赛题中包含的错误分为四种类型:
多词(Redundant)、缺词(Missing)、错词(Selection)和词序错误(Word Order)。
系统性能的评估也由易到难分为3个level:
detection level(识别句子有没有错误)、identification level(识别错误句子的具体错误类型)和position level(识别错误的位置和对应类型)
比赛要求诊断的四种错误类型
比如,“我要送給你一个庆祝礼物。要是两、三天晚了,请别生气”这句话,在第3个Level,AI需要明确指出“两、三天晚了”存在错误才能得分(正确用法应该是“晚了两、三天”)。
根据组委会公开的结果,司罗团队在所有的3个level的正确率都以较大优势位居第一,获取2017 CGED比赛的冠军。他们通过在深度学习中引入无监督的语法知识,同时结合了集成学习等方法。
技术细节上,IDST团队在bilstm-crf模型的基础上,结合了分词、词性、依存句法等特征,同时将language model等无监督的知识embedding到神经网络。依靠RNN结构以及词性、依存等特征,不光能识别短程的语法错误,比如“一头牛”好于“一只牛”;也能识别比较长程的语法错误,比如“虽然父母很辛苦,而且对孩子照顾得很好”中“虽然”和“而且“不搭配。此外,他们针对比赛的3个不同level,设计了不同的基于神经网络的snapshot emsembles方法。
而近日,iDST NLP的技术能力也已经在阿里云上开放。
司罗介绍了现在开放了四个模块:
1)分词;2)词性标注;3)命名实体;4)情感分析。
“未来我们会有更多的基础NLP模块在阿里云上开放,比如:
实体关系,关键词识别,词向量,文本相似度,主题模型等等。”
司罗表示:“人工智能在对于自然语言的理解还处在起步阶段,要实现真正的语义理解还需要 5-10 年的跨越。我们正在积极和同行业顶尖机构学习交流,推动行业发展”。
课程推荐
使用keras快速构造深度学习模型实战
微软&谷歌数据科学家,带你每周案例实战
史上最高性价比!
两位顶尖的微软/谷歌数据科学家,直播互动分享珍贵学习经验,并详细讲解前沿实战案例!GPU云实验平台提供便捷的操作环境。还有原著大作免费送!
七周时间,带你玩转Keras!
很多即将毕业和渴望转型的小伙伴都加入了我们,你不来吗?
你想要的,这里都有!
往期精彩文章
点击图片阅读