哈工大讯飞联合实验室在机器阅读理解评测SQuAD 2.0中荣登榜首

2018 年 11 月 22 日 哈工大SCIR

声明：本文转载自公众号哈工大讯飞联合实验室

2018年11月16日，哈工大讯飞联合实验室（HFL）在由斯坦福大学发起的机器阅读理解领域权威评测SQuAD 2.0（Stanford Question Answering Dataset）中荣登榜首，这也是科大讯飞在2018年获得的第十个世界冠军。

哈工大讯飞联合实验室（HFL）首次在SQuAD 2.0评测中提交系统，并且凭借AoA+DA+BERT模型将两项评测指标提升到新的高度，其中EM指标（精准匹配率）达到82.374，F1指标（模糊匹配率）上达到85.310，进一步缩小与人类在该数据集上的效果差距。同时，本次提交的单模型系统效果显著优于同期其他机构提交的模型。由斯坦福大学发起的SQuAD评测自2016年以来受到了业界广泛关注，吸引了众多国内外知名研究机构和高校，其中包括谷歌、阿里巴巴达摩院、微软亚洲研究院、IBM研究院、复旦大学、国防科学技术大学等。

SQuAD 2.0挑战赛最新成绩榜单（截止2018年11月22日）

哈工大讯飞联合实验室阅读理解团队（HFL-RC）是国内外最早启动机器阅读理解研究的团队之一，持续深耕阅读理解相关核心技术的研究，在2017年和2018年先后三次登上斯坦福大学发起的SQuAD 1.1评测榜首。本次SQuAD 2.0评测在基于篇章片段抽取的阅读理解任务基础上（即SQuAD 1.1评测），进一步提高了解答难度，对机器阅读理解模型提出了新的挑战。其主要区别是加入了“不可回答的问题”，即通过阅读篇章无法找到答案的问题。机器阅读理解模型需要通过阅读篇章和问题，判断所提出的问题是否能够通过篇章内容进行回答。如果可以回答，则给出篇章中的某个连续片段作为答案；如果不可回答，则对该问题进行“拒答”。哈工大讯飞联合实验室本次提交的系统吸收了业界最新的前沿技术，同时又加入了已有的原创核心技术，将该评测的相关指标推向新的高度。

哈工大讯飞联合实验室参赛提交系统一览

产业应用

科大讯飞不仅在核心技术评测中获得亮眼成绩，还积极将所研发的核心技术应用到实际产品中。早在去年，科大讯飞已开始探索阅读理解与问题拒答技术的结合，并成功应用在智能车载交互系统中。今年，斯坦福大学将SQuAD评测推向2.0版本，进一步证明了科大讯飞在自然语言处理基础研究上具有前瞻性。目前，所研发的相关技术已在实际车型上得到应用，通过让机器阅读汽车领域相关的材料，使机器深度理解并掌握对该车型的相关知识。在用户提出相关问题时，不仅能够快速反馈给用户相关章节，并且还能够利用阅读理解技术进一步挖掘并反馈更精准的答案，同时针对不可回答的问题进行拒答，从而减少用户的阅读量，提高信息获取的速度。

讯飞执行总裁胡郁在2017讯飞年度发布会上介绍智能车载系统中阅读技术的应用

中文机器阅读理解评测（CMRC）

哈工大讯飞联合实验室不仅在核心技术上持续深耕，同时也积极关注和推动中文信息处理的研究发展。在2017年和2018年，哈工大讯飞联合实验室先后承办了两届“讯飞杯”中文机器阅读理解评测（CMRC）受到了业界广泛关注和各界研究人员的积极参加，并且发布了相关中文数据集，进一步促进了中文机器阅读理解研究。在2019年，HFL将继续携手中国中文信息学会计算语言学专业委员会（CIPS-CL）承办相关中文评测活动，持续推动中文机器阅读理解技术的研究发展。

关于哈工大讯飞联合实验室（HFL）

哈工大讯飞联合实验室（HFL）是科大讯飞针对“讯飞超脑”项目计划，重点引进和布局的核心研发团队之一，由科大讯飞AI研究院与哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR）共同创办。根据联合实验室建设规划，双方将在语言认知计算领域进行长期、深入合作，具体开展阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题的研究。重点突破深层语义理解、逻辑推理决策、自主学习进化等认知智能关键技术，支撑科大讯飞实现从“能听会说”到“能理解会思考”的技术跨越，并围绕教育、司法、人机交互等领域实现科研成果的规模化应用。在2017年到2018年在业内公认的机器阅读理解顶级赛事斯坦福SQuAD挑战赛中先后多次荣登榜首。2018年2月，获得国际语义评测SemEval-2018阅读理解任务的第一名。2018年5月，获得第五届中文语法检错大赛（CGEG）冠军。

本期责任编辑：刘一佳

本期编辑：蔡碧波

“哈工大SCIR”公众号

主编：车万翔

副主编：张伟男，丁效

责任编辑：张伟男，丁效，刘一佳，崔一鸣

编辑：李家琦，吴洋，刘元兴，蔡碧波，孙卓，赖勇魁

长按下图并点击 “识别图中二维码”，即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号：”哈工大SCIR” 。