会员服务 ·

0

【开源】2018中文机器阅读理解竞赛第四名代码开源

2018 年 8 月 9 日 专知

【导读】机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本，然后回答和阅读内容相关的问题。“2018机器阅读理解技术竞赛”由中国中文信息学会、中国计算机学会和百度公司联手举办，使用了百度提供的面向真实应用场景的大规模中文阅读理解数据集。G-Reader 模型，在国内外1000多支队伍中BLEU-4评分排名第6， ROUGE-L评分排名第14。

项目名称 | G-Reader

开源地址 | https://github.com/freefuiiismyname/G-Reader

比赛官网 | http://mrc2018.cipsc.org.cn/

整理报道 | huaiwen

模型架构

针对一个问题，文档集里有多答案的情况非常普遍，我们认为‘一边提高某个答案作为答案的概率，另一边又降低其它答案作为答案的概率’是不合理的。

因此我们的模型采用先从每篇文章中独立抽取候选答案，再从候选答案集中抽取最佳答案的结构，以解决多答案致使神经网络难以学习的问题。架构的具体实现中，我们通过BiDAF+ Passage Self-Matching从单篇文章中抽取答案，构成候选答案集，再使用em和xgboost决策树从候选答案集中抽取最佳答案。

即模型分为以下两部分：

候选答案抽取层——BiDAF+Passage Self-Matching
答案选择层——em算法、xgboost

数据下载

数据移步比赛官网的数据下载页面，来自百度知道和搜索的真实场景数据集共包含30万问题，其中包括27万的训练集，1万开发集和2万测试集，分为4个部分供参赛用户下载。Em算法部分包含了百度知道集的tfidf模型文件，只需下载百度知道的数据文件便可用java运行，暂未做python实现。它在整个模型（Bidaf抽取答案、xgboost决策答案）作为特征扩充，交互答案之间的信息。

算法效果

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群：

专知AI知识技术服务会员群加入与人工智能领域26个主题知识资料全集获取。欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

AI 项目技术 & 商务合作：bd@zhuanzhi.ai, 或扫描上面二维码联系！

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用进入 Github

登录查看更多

55

相关内容

机器阅读理解

机器阅读理解

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务：让机器像人类一样阅读文本，进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

【新书】用Python3六步掌握机器学习第二版，469页pdf，Mastering Machine Learning

【新书】用Python3六步掌握机器学习第二版，469页pdf，Mastering Machine Learning

专知会员服务

223+阅读 · 2020年2月2日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

22+阅读 · 2020年1月28日

近期必读的10篇ACL 2019【图神经网络（GNN）+NLP】相关论文和代码

专知会员服务

71+阅读 · 2020年1月10日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

2019法研杯比赛--阅读理解任务第4名团队参赛总结

2019法研杯比赛--阅读理解任务第4名团队参赛总结

AINLP

52+阅读 · 2019年8月24日

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

哈工大SCIR

4+阅读 · 2019年5月27日

2019语言与智能技术竞赛报名开启

2019语言与智能技术竞赛报名开启

中国计算机学会

16+阅读 · 2019年2月26日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

5+阅读 · 2018年9月25日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

VIP会员

相关主题

机器阅读理解

中文机器阅读理解

中国中文信息学会

相关VIP内容

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

《C++ Primer中文版第5版》电子书与学习笔记和课后练习答案

专知会员服务

276+阅读 · 2020年2月13日

【新书】用Python3六步掌握机器学习第二版，469页pdf，Mastering Machine Learning

【新书】用Python3六步掌握机器学习第二版，469页pdf，Mastering Machine Learning

专知会员服务

223+阅读 · 2020年2月2日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

22+阅读 · 2020年1月28日

近期必读的10篇ACL 2019【图神经网络（GNN）+NLP】相关论文和代码

专知会员服务

71+阅读 · 2020年1月10日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机系统 - 反无人机系统：测试方法》364页

《无人机蜂群攻击防御的预测建模：面向美军战备的人工智能轨迹预测与最优拦截策略设计》最新报告

美军低成本无人作战攻击系统（LUCAS）：扩大无人机战争规模

《将空中力量带向海洋：美国海军航空发展的四条竞争路径及其教训》报告

相关资讯

2019法研杯比赛--阅读理解任务第4名团队参赛总结

2019法研杯比赛--阅读理解任务第4名团队参赛总结

AINLP

52+阅读 · 2019年8月24日

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

第三届“讯飞杯”中文机器阅读理解评测报名开启（CMRC 2019）

哈工大SCIR

4+阅读 · 2019年5月27日

2019语言与智能技术竞赛报名开启

2019语言与智能技术竞赛报名开启

中国计算机学会

16+阅读 · 2019年2月26日

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI 竞赛 | 2018 机器阅读理解技术竞赛

AI研习社

7+阅读 · 2018年3月16日

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

2018机器阅读理解技术竞赛开始报名百度提供中文阅读理解数据集

机器学习研究会

10+阅读 · 2018年3月1日

相关论文

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering

Arxiv

4+阅读 · 2018年11月29日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

5+阅读 · 2018年9月25日

DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Arxiv

4+阅读 · 2017年11月15日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员