格式机器可读、Kaggle 上免费使用,arXiv 发布集成170万篇论文数据库

2020 年 8 月 6 日 AI科技评论

作者 | 陈彩娴
编辑 | 丛 末
茫茫沧海寻一粟——想必这是许多学者在使用arXiv网站搜索论文时的痛苦心声。
不过现在arXiv给大家带来了一个好消息:他们将 170万篇arXiv论文集成为一个格式机器可读的数据库,并将该数据库托管到了Kaggle上供用户免费使用。数据库包括论文标题、作者、类别、摘要、全文pdf等论文相关信息。

       

arXiv 论文数据库Kaggle地址:https://www.kaggle.com/Cornell-University/arxiv

1


arXiv:从一个论文存储库转变为一个知识共享平台
近30年来,arXiv网站为公众和研究人员提供了获取学术论文的可靠途径。论文类型多样,从物理学到计算机科学、再到介于两者之间的各类学术内容,涵盖数学、统计学、电气工程、定量生物学和经济学等热门学科。无论是钻研单一领域的学生、寻求跨学科研究的教授还是服务公共事业的社会研究者,都能在arXiv上搜集到有利的信息。
然而,arXiv网站所收录的论文数量十分庞大,为用户的阅读带来明显的压力。另一方面,arXiv 本身也由于过分依赖 LaTex 而出现一系列缺陷,包括:1)使用 LaTeX 进行排版的方式局限于单个社区,其界面、语言、使用方式对不会编程或者只用过 WYSIWYG 编辑器的人来说比较陌生;2)网站上的论文一直以pdf格式交换、阅读,但大多数pdf文档不支持在线编辑,以致许多论文无论在网页上阅读、讨论与共享;3)论文所承载的信息可发现率低;4)arXiv的论文与数据独立存在,论文数据无法共享。
其中第三点缺陷所造成的不利影响,正如arXiv 科技总监Steinn Sigurdsson所指出的,由于数据集的庞大,读者很可能会忽略一些重要的发现、关联知识、创新工具或视角。这些被忽略的信息也许能帮助研究人员产生一些关于原有研究主题与跨学科领域的新的见解,有更多新发现与创造力。
而 Kaggle 作为数据科学家和机器学习工程师搜集数据集、阅读公开笔记和进行竞赛的平台,可以让研究人员利用该平台上丰富的数据探索工具,轻松地与他人共享相关论文文本和输出。
arXiv的执行董事 Presani 指出,将arXiv 论文数据库托管到Kaggle上供用户自由访问,将放大这些论文本身的价值,因为这不仅仅给读者提供了一个通过阅读论文学习的平台,更是让论文本身承载的数据和信息以机器可读的方式在研究者之间共享、传播和交流。
他进一步表示,arXiv 要想从一个论文存储库转变为一个知识共享平台,就要求他们不断创新展示知识与解释知识的方式。而Kaggle的用户可以帮助突破创新的局限性,为科研界相互协作提出一种新途径。
 
2


arXiv 发布 Kaggle 论文数据库的初衷
arXiv 方面表示,此举的初衷是希望能推动新用例的产生,帮助研究人员探索更多结合面向应用的多模态特征的机器学习技术,包括趋势分析法、论文推荐引擎、类别预测、同被引网络、知识图谱构建和语义搜索接口等。
Google 的COVID-19 Research Explorer就是这样一个基于特定语料库进行语义搜索的用例。这个工具可帮助研究人员精读拥有190,000+篇关于COVID-19的研究论文的资料库——COVID-19数据集。基于此类数据集的接口使用了先进的自然语言理解(NLU)技术来了解用户查询的目的。这个数据集能为复杂的科学问题提供更多相关数据和证据,大大提高了研究效率。
而他们发布这个机器可读的arXiv数据集,就是希望其能推动该领域的研究者开发出能够处理此类新的语料库的相似的自然语言理解工具。


阅读原文,直达“ ECCV ”小组,了解更多会议信息!

登录查看更多
0

相关内容

arXiv(X依希腊文的χ发音,读音如英语的archive)是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站,始于1991年8月14日。截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。在2014年时,约以每月8000篇的速度增加。
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
66+阅读 · 2020年9月19日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
181+阅读 · 2020年7月29日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Kaggle刚刚上线了机器学习课程,我们帮你做了个测评
Arxiv
35+阅读 · 2019年11月7日
Deep Co-Training for Semi-Supervised Image Segmentation
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
相关资讯
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
12+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
10+阅读 · 2019年1月30日
秘籍 | 机器学习数据集网址大全
AI100
6+阅读 · 2019年1月27日
资源 | 开源数据集
AI研习社
8+阅读 · 2018年9月25日
Dataset Search | 数据集搜索专用引擎
机器学习算法与Python学习
9+阅读 · 2018年9月7日
Kaggle刚刚上线了机器学习课程,我们帮你做了个测评
相关论文
Arxiv
35+阅读 · 2019年11月7日
Deep Co-Training for Semi-Supervised Image Segmentation
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
4+阅读 · 2018年6月1日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员