【开源】2018中文机器阅读理解竞赛第四名代码开源

2018 年 8 月 9 日 专知

【导读】机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。2018机器阅读理解技术竞赛由中国中文信息学会、中国计算机学会和百度公司联手举办,使用了百度提供的面向真实应用场景的大规模中文阅读理解数据集。G-Reader 模型,在国内外1000多支队伍中BLEU-4评分排名第6, ROUGE-L评分排名第14。


项目名称 | G-Reader

开源地址 | https://github.com/freefuiiismyname/G-Reader

比赛官网 | http://mrc2018.cipsc.org.cn/

整理报道 | huaiwen


模型架构


针对一个问题,文档集里有多答案的情况非常普遍,我们认为‘一边提高某个答案作为答案的概率,另一边又降低其它答案作为答案的概率’是不合理的。

因此我们的模型采用先从每篇文章中独立抽取候选答案,再从候选答案集中抽取最佳答案的结构,以解决多答案致使神经网络难以学习的问题。架构的具体实现中,我们通过BiDAF+ Passage Self-Matching从单篇文章中抽取答案,构成候选答案集,再使用em和xgboost决策树从候选答案集中抽取最佳答案。


即模型分为以下两部分:

  • 候选答案抽取层——BiDAF+Passage Self-Matching

  • 答案选择层——em算法、xgboost


数据下载


数据移步比赛官网的数据下载页面,来自百度知道和搜索的真实场景数据集共包含30万问题,其中包括27万的训练集,1万开发集和2万测试集,分为4个部分供参赛用户下载。Em算法部分包含了百度知道集的tfidf模型文件,只需下载百度知道的数据文件便可用java运行,暂未做python实现。它在整个模型(Bidaf抽取答案、xgboost决策答案)作为特征扩充,交互答案之间的信息。


算法效果





-END-

专 · 知


人工智能领域主题知识资料查看与加入专知人工智能服务群

专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~


 AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!


关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用进入 Github

登录查看更多
55

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
2019语言与智能技术竞赛报名开启
中国计算机学会
16+阅读 · 2019年2月26日
Kaggle比赛实战教程
专知
14+阅读 · 2018年7月30日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员