3月1日,由百度公司、中国中文信息学会(CIPS)、中国计算机学会(CCF)联手举办的“2018机器阅读理解技术竞赛”正式开启报名通道。
本次竞赛,百度将提供面向真实应用场景迄今为止规模最大的中文阅读理解数据集DuReader。竞赛官网及报名通道已正式开启(http://mrc2018.cipsc.org.cn/),任何团队和个人都可以报名参加,获胜团队还将分享总额近10万人民币的奖金。
为什么举办本次竞赛?
阅读不仅是人类获取知识、提高心智的重要途径,对于机器而言,拥有阅读能力同样也能够实现持续学习和进化。机器阅读理解让机器阅读文本,然后回答和阅读内容相关的问题,其中涉及到的理解、推理、摘要等复杂技术,对机器而言颇具挑战。
该任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义,是自然语言处理和人工智能领域的重要前沿课题。这也是百度联合举办2018机器阅读理解技术竞赛的重要原因。
百度将为参赛者提供
迄今为止规模最大的数据集
为了给予参赛者最大力度支持,本次竞赛将提供面向真实应用场景的大规模中文阅读理解数据集 DuReader,包含来自百度搜索的30万个真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。
同时,数据集还标注了问题类型、实体和观点等丰富信息。数据集将划分为28万的训练集,1万开发集和1万测试集。该数据集中包含了去年11月百度首批发布的 DuReader 数据集中的20万问题数据,参赛者可自由下载用于训练和测试。本次竞赛报名团队还将获得新增的10万问题数据集。
DuReader 是迄今为止最大的面向真实需求的中文阅读理解数据集,将为此次参赛的研究者提供有力支撑。
据悉,本次竞赛的任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。为了便于参赛选手快速了解竞赛任务,竞赛还提供了两个开源的阅读理解基线系统,并采用 ROUGH-L 和 BLEU 作为评价指标。
转自:百度AI
完整内容请点击“阅读原文”