法研杯2019阅读理解赛道冠军方案分享（含PPT） - 专知

会员服务 ·

0

法研杯2019阅读理解赛道冠军方案分享（含PPT）

2019 年 8 月 25 日 AINLP

2019年8月17日，由中国中文信息学会社会媒体处理专委会、中国司法大数据研究院等单位主办，科大讯飞股份有限公司、哈尔滨工业大学等机构联合承办的第八届全国社会媒体处理大会 “中国法研杯” 司法人工智能挑战赛之中文法律阅读比赛（SMP-CJRC 2019）在深圳落下帷幕，赛博智能团队的田雨、李欣隆联合北航的张士卫、丁龙翔组成的团队在比赛中获得了第一名的好成绩。

本文首先对赛题进行回顾，然后介绍了团队的获奖方案，最后分享了竞赛答辩PPT。

法研杯 | 图源 : cail.cipsc.org.cn/

团队介绍

本团队由中科院电子所赛博智能团队的田雨、李欣隆同学，以及北航的张士卫、丁龙翔同学组成。队名是小黄鸭，参与了阅读理解赛道，并在总决赛中获得冠军。

竞赛排名 | 图源 : cail.cipsc.org.cn/

赛题背景

机器阅读理解（Machine Reading Comprehension）是近期自然语言处理领域的研究热点之一，也是人工智能在处理和理解人类语言进程中的一个长期目标。它是指让机器阅读文本，然后回答和阅读内容相关的问题。阅读理解是自然语言处理和人工智能领域的重要前沿课题，对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值，近年来受到学术界和工业界的广泛关注。

赛题描述

裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。

本任务是首次基于中文裁判文书的阅读理解比赛，属于篇章片段抽取型阅读理解比赛（Span-Extraction Machine Reading Comprehension）。为了增加问题的多样性，参考英文阅读理解比赛SQuAD和CoQA，本比赛增加了拒答以及是否类（YES/NO）问题。

本任务采用与CoQA比赛一致的宏平均（macro-average F1）进行评估。对于每个问题，需要与N个标准回答计算得到N个F1，并取最大值作为其F1值。

模型介绍

我们的模型结构如下图所示，设计该网络的核心就是将google的bert输出接上词性等特征加上一层传统的highway与GRU后通过MLP来判断答案的label与Span的位置。

模型整体结构图

我们将整个模型中较为有效的策略概括为以下几点：

1

bert模型的fine-tune

由于本任务是司法相关的阅读理解任务，在google发布的bert-base-chinese上，针对本次任务，基于全部民事文书和刑事文书，以及去年的法研杯数据对原预训练模型重新进行了fine-tune。使其更加适合于该阅读理解任务。相对于原google发布的模型，效果有很大的提升。

2

是否类问题的解决方案

由于是否类问题在原文中找不到正确答案，按照原来的抽取式阅读理解的方式来寻找答案相关段落以及答案位置是不可取的。团队的策略是通过tf-idf方式，对比原问题与段落中的每一句来寻找答案相关段落，从而对模型进行训练。提供了一种可取的是否类问题解决方案。

3

数据增强方案

在不可回答问题上，通过命名实体识别来替换其中的人名，地名来增加负向问题数据量。并通过交换问题位置来增加负向问题数据量。
在可回答问题上，通过神经网络模型，获取更多的正向问题。

4

阈值调整

在竞赛中，通过调整是否可回答的阈值解决不平衡数据集的问题。

后续展望

比赛的时间总是不够用的，我们认为模型仍有很大的提升空间。未来，我们会尝试从以下几个方面入手：

1

是否类问题的解决

传统的tf-idf方法虽然有效，但仍然不是最优解，我们会继续研究如何更有效的解决是否类问题。

2

命名实体上的缺陷

当前命名实体识别技术仍不能高效准确的抽取到所有相关实体，导致在数据增强以及多维特征上仍有很大问题。

3

数据可否回答的判断问题

经验证，使用verfiy机制对问题的可否回答进行进一步判断，可以得到很大的提升。我们会尝试将verfiy机制融入模型中，测试其效果。

4

预训练模型问题

本次比赛只使用了最简单的base版bert模型，没有尝试Ernie以及wwm版的bert模型，未来我们会进一步的探索。

答辩PPT分享

最后，分享竞赛答辩的PPT，方便大家交流。

作者简介

田雨，直博生，2018年由大连海事大学保送至中国科学院大学。研究方向为关系抽取与阅读理解。

作者：田大雨

编辑：田大雨

本文转自公众号“赛博智能”，点击阅读原文直达原文链接。

登录查看更多

67

相关内容

机器阅读理解

机器阅读理解

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务：让机器像人类一样阅读文本，进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【硬核课】统计学习理论，321页ppt

【硬核课】统计学习理论，321页ppt

专知会员服务

140+阅读 · 2020年6月30日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

人机对抗智能技术

人机对抗智能技术

专知会员服务

212+阅读 · 2020年5月3日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

专知会员服务

17+阅读 · 2019年11月11日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

社交机器人的挑战性问题，清华大学计算机系黄民烈副教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

社交机器人的挑战性问题，清华大学计算机系黄民烈副教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

21+阅读 · 2019年10月23日

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

42+阅读 · 2019年10月23日

2019年人工智能行业现状与发展趋势报告，52页ppt

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

AI科技评论

17+阅读 · 2019年10月28日

2019法研杯比赛--阅读理解任务第4名团队参赛总结

2019法研杯比赛--阅读理解任务第4名团队参赛总结

AINLP

52+阅读 · 2019年8月24日

字节跳动 2019 ICME 双赛道冠军团队方案分享

字节跳动 2019 ICME 双赛道冠军团队方案分享

PaperWeekly

50+阅读 · 2019年8月12日

2019语言与智能技术竞赛报名开启

2019语言与智能技术竞赛报名开启

中国计算机学会

16+阅读 · 2019年2月26日

AI Challenger2018 冠军代码PPT分享--细粒度情感分析赛道

AI Challenger2018 冠军代码PPT分享--细粒度情感分析赛道

专知

48+阅读 · 2018年12月22日

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI研习社

12+阅读 · 2018年7月30日

干货 | 2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

干货 | 2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI科技评论

7+阅读 · 2018年7月29日

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

AI研习社

5+阅读 · 2018年5月28日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

Robust breast cancer detection in mammography and digital breast tomosynthesis using annotation-efficient deep learning approach

Robust breast cancer detection in mammography and digital breast tomosynthesis using annotation-efficient deep learning approach

Arxiv

14+阅读 · 2019年12月27日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence

Arxiv

8+阅读 · 2019年3月22日

SFA: Small Faces Attention Face Detector

Arxiv

4+阅读 · 2018年12月20日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Neural Models for Key Phrase Detection and Question Generation

Arxiv

4+阅读 · 2018年5月30日

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Arxiv

3+阅读 · 2018年4月20日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

VIP会员

相关主题

机器阅读理解

社会媒体处理

科大讯飞股份有限公司

中国中文信息学会

张成子空间

相关VIP内容

【硬核课】统计学习理论，321页ppt

【硬核课】统计学习理论，321页ppt

专知会员服务

140+阅读 · 2020年6月30日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

203+阅读 · 2020年5月22日

人机对抗智能技术

人机对抗智能技术

专知会员服务

212+阅读 · 2020年5月3日

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

【旷视-CVPR2020】领域自适应对象检测的探索类别正则化，Exploring Categorical Regularization for Domain Adaptive Object Detection

专知会员服务

38+阅读 · 2020年3月23日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知会员服务

163+阅读 · 2020年3月11日

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

【CCL 2019】中国计算语言学大会（CCL 2019）技术评测报告以及研讨会

专知会员服务

17+阅读 · 2019年11月11日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

社交机器人的挑战性问题，清华大学计算机系黄民烈副教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

社交机器人的挑战性问题，清华大学计算机系黄民烈副教授，SMP 2019 前沿技术讲习班第十五期（CIPS ATT 15）

专知会员服务

21+阅读 · 2019年10月23日

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-理论与基础之开放语义解析【韩先培、陈波】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

42+阅读 · 2019年10月23日

2019年人工智能行业现状与发展趋势报告，52页ppt

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

未来战场：AI赋能无人作战新范式，39页ppt

【牛津博士论文】无限维空间中的广义变分推断

DeepSeek AI 从入门到付费专家·第一卷：动手实践、真实应用与可扩展 AI 解决方案全掌握

2025中国AI Agent商业应用场景洞察研究

相关资讯

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

「中国法研杯」相似案例匹配竞赛结果出炉，冠军方案关键技术解读

AI科技评论

17+阅读 · 2019年10月28日

2019法研杯比赛--阅读理解任务第4名团队参赛总结

2019法研杯比赛--阅读理解任务第4名团队参赛总结

AINLP

52+阅读 · 2019年8月24日

字节跳动 2019 ICME 双赛道冠军团队方案分享

字节跳动 2019 ICME 双赛道冠军团队方案分享

PaperWeekly

50+阅读 · 2019年8月12日

2019语言与智能技术竞赛报名开启

2019语言与智能技术竞赛报名开启

中国计算机学会

16+阅读 · 2019年2月26日

AI Challenger2018 冠军代码PPT分享--细粒度情感分析赛道

AI Challenger2018 冠军代码PPT分享--细粒度情感分析赛道

专知

48+阅读 · 2018年12月22日

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI研习社

12+阅读 · 2018年7月30日

干货 | 2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

干货 | 2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI科技评论

7+阅读 · 2018年7月29日

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

「2018 机器阅读理解技术竞赛」落下帷幕，看奇点机智如何从 800 多支队伍中杀出重围

AI研习社

5+阅读 · 2018年5月28日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

相关论文

Robust breast cancer detection in mammography and digital breast tomosynthesis using annotation-efficient deep learning approach

Robust breast cancer detection in mammography and digital breast tomosynthesis using annotation-efficient deep learning approach

Arxiv

14+阅读 · 2019年12月27日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence

Arxiv

8+阅读 · 2019年3月22日

SFA: Small Faces Attention Face Detector

Arxiv

4+阅读 · 2018年12月20日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Neural Models for Key Phrase Detection and Question Generation

Arxiv

4+阅读 · 2018年5月30日

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Arxiv

3+阅读 · 2018年4月20日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员