去年11月百度世界大会 AI 技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布推出了百度 AI 公开数据集计划——BROAD(Baidu Research Open-Access Dataset),并确认首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。
在大量而真实的数据基础上,百度的深度学习框架PaddlePaddle部门联合科赛上线了一系列基于前沿真实问题的赛题,最先发布和完成的是聚焦于综艺领域的智能视频剪辑AI大赛。
上月,该赛事已顺利收官。比赛采用了科赛自有的在线数据分析工具K-Lab,在K-Lab中可直接调用PaddlePaddle深度学习框架,并在线挂载BROAD数据集。赛事将K-Lab搭载在百度云CPU/GPU上,选手可直接提交模型结果到评测系统,即得模型分数。至赛事结束之时,共281支队伍合计496人报名,总提交数高达909次。
这次上线的NLP智能问答赛事则要挑战人工智能领域里的难题——阅读理解。
目前世界上已有不少关于NLP的经典赛题,如斯坦福大学发起的SQuAD挑战赛、微软的MS Marco挑战赛、Google DeepMind阅读理解公开数据测试集、Facebook阅读理解公开数据测试集。这些多为英文数据集,且部分基于词义识别(spanof words)或文字标签分类。而通过机器学习实现真正阅读理解,难度远高于词义精准识别和搜索结果调用,一方面需要通过算法对语意进行全方面的分析理解,另一方面也需要引入优质的数据集配合训练。
BROAD中包含着迄今为止规模最大的中文公开领域阅读理解数据集,DuReader。该数据集基于真实应用需求,所有问题均来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案基于问题与文档由人工撰写生成。
本次PaddlePaddle AI系列赛事-智能问答赛事会为选手提供百度云CPU与GPU计算资源,选手需要根据数据建立基于文本与问题,输出正确答案的模型,考验模型的归纳总结与改述能力。通过提供对人工智能回答实际问题的模型训练,将来可能出现不用打开网页,无需手动筛选答案,即可以为用户提供全套解决方案的应用,能够代替市面上大部分人工智能助手,也能节省大量的时间。
赛事基于百度深度学习平台PaddlePaddle进行。PaddlePaddle是大规模并行分布式深度学习框架,是目前全球开发热度(用 Github pull request 数量衡量)增速最高的开源深度学习平台。现已集成了CNN、RNN等多种神经网络及深度学习算法,同时支持CPU、GPU、FPGA等多款硬件,并与Kubernetes合作了PaddlePaddle EDL弹性深度学习,成为全球首个支持弹性作业调度的开源AI云解决方案。PaddlePaddle易学易用、高效灵活,支持海量图像识别分类、机器翻译和自动驾驶等多个领域的业务需求。
去年百度世界大会上,PaddlePaddle 发布了三项新功能,进一步加强了易用性,并降低了开发者的使用门槛:
1. PaddlePaddleFluid 提供高级语言中的 while 和 if 等控制流结构,提升使用者的开发效率,同时利用编译优化技术保证计算性能。
2. PaddlePaddleCloud 支持使用者在浏览器里开发 AI 应用,在云端调试运行,开发者不需要在个人电脑和机群之间切换,提升了工作效率。
3. PaddlePaddleEDL 是全球首个支持弹性作业调度的开源 AI 云解决方案,通过与 Kubernetes 合作实现弹性作业调度。
在线数据分析平台K-Lab为本次赛事提供全程支持。K-Lab不仅封装了包含PaddlePaddle等近百个AI开发常用工具,同时可直接调用百度云算力。
NLP智能问答大赛即日上线,对于阅读理解领域感兴趣的研究者及高校学生,我们欢迎和期盼你的参与,点击阅读原文报名,一起来挑战NLP-人工通用智能吧!
看到这里 不妨关注小科
期待更多挑战
科赛Kesci.com是聚合数据人才和行业问题的在线社区。科赛打造的K-Lab在线数据分析协作平台,为数据工作者的学习与工作带来全新的体验。