来自:哈工大讯飞联合实验室
近日,第六届中文语法错误诊断大赛(CGED)研讨会于AACL 2020大会的“面向教育技术的自然语言处理(NLPTEA)”workshop中顺利举行。今年共有国内外14支队伍参赛,提交了44个系统。讯飞、阿里、上交、南大、有道、外研社、新华社等团队均有精彩表现。其中,哈工大讯飞联合实验室(下文简称HFL)团队获得综合排名第一的成绩,多项核心指标保持领先。
A.I.也能改作文,我们拿下多项冠军!
最近,这场世界级比赛就把上述场景作为考点——第6届中文语法错误诊断大赛(CGED)。主办方会挑选外国人写作的中文句子作为考题,参赛团队需要利用A.I.算法技术对其中的语法语义错误进行识别,对部分类别错误进行修正,并进行系统性能评估。
可别小看了这场“语法批改大赛”,它所考验的能力十分综合。涉及到参赛队伍的语病识别能力(识别句子是否有错误)、语病分类能力(识别具体的错误类型)、语病定位能力(识别错误的位置和类型)、语病修正能力(对于缺失和用词不当,提供修正建议)等等。
最终,在语病识别、语病分类、语病定位、语病修正四类核心指标中,HFL在两项关键指标中获取冠军,另外获得一项第二和一项第三。这也是继上一届大赛(CGED2018)夺冠后(https://mp.weixin.qq.com/s/1vTyx-RpQ3TxdptDpxWCdA),持续保持技术领先的又一份成绩单。
CGED 2020 Identification-level指标情况
CGED 2020 Position-level指标情况
纵观最近几年的比赛成绩,中文语法检错技术不断进步,检错效果在不断提升。
原来,随着深度学习相关技术的快速发展,越来越适合任务本身的模型被研究出来;并且随着预训练语言模型的发展,更多的外部知识被加入到模型中,使得模型的表征能力越来越强。HFL就是以深度学习技术与预训练语言模型为基础,结合集成学习相关技术,完成对语病的精准识别、定位与修正。
真题实战,看看这位A.I.冠军如何修炼
本次HFL参赛评测方案,主要分为检测和修正两部分,相关工作发表在NLPTEA 2020 workshop中,论文题目为《Combining ResNet and Transformer for Chinese Grammatical Error Diagnosis》。
在检测任务中,我们提出了ResBERT模型,在BERT模型基础上融入残差网络,增强输出层中每个输入字的信息,使模型可以更好地检测语法错误位置。
在修正任务中,由于序列标注模型无法直接给出语法错误的修正结果,我们针对缺失错误和用词不当错误分别采用如下两种方法进行修正:针对缺失错误,我们首先预测缺失位置缺失的字数,然后再使用BERT语言模型生成修正候选结果,最后通过比较多个候选修正句子的困惑度来确定缺失修正结果。针对用词不当错误,我们使用RoBERTa模型选取候选字,然后再综合考虑字音、字形相似度以及语言模型打分来选出最终的修正结果。
因此,要想提升语病修正的效果并在实际产品中应用,对于篇章级文本的诊断分析是非常有必要的,这也给未来的评测和技术提出了更高的要求。
技术落地应用,我们让A.I.走得更远
在坚持核心技术研究不断创新进步的同时,我们也不断让A.I.赋能于应用,服务于生活的方方面面。
最近这项技术也在讯飞开放平台上线,为广大开发者提供文本纠错能力,欢迎体验(https://mp.weixin.qq.com/s/wXrHcv2sLYASCgx6Su4IlA)。
此外,中文语法错误诊断技术还被应用于作文自动批改中,包括错别字修正、语法检错等功能,目前已在中小学作业、讯飞学习机等产品中应用落地,辅助减轻老师作文批改的工作负担,也可以帮助学生在自主学习中及时获得作文批改的反馈。
未来,随着技术的不断进步,以中文语法错误诊断与修正技术为核心的文本校对将在编辑出版、公文撰写、作文批改以及广大自媒体文稿写作等场景中发挥越来越大的作用,应用前景广阔。
•••
布局讯飞超脑,HFL让机器能理解会思考
2017年至2019年,哈工大讯飞联合实验室在国际权威机器阅读理解评测SQuAD、SQuAD 2.0多次获得冠军。其中2019年3月,在SQuAD 2.0评测中全球首次超过人类平均水平并成为里程碑事件。2018年获得国际语义评测(SemEval 2018)阅读理解赛道冠军。2019年至2020年,在多步推理阅读理解评测HotpotQA双赛道均获得冠军。2020年,在国际权威通用自然语言理解评测GLUE中获得冠军。
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! ![]()
![]()
![]()
后台回复【五件套】
下载二:南大模式识别PPT ![]()
后台回复【南大模式识别】
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!