Wikipedia's contents are based on reliable and published sources. To this date, relatively little is known about what sources Wikipedia relies on, in part because extracting citations and identifying cited sources is challenging. To close this gap, we release Wikipedia Citations, a comprehensive dataset of citations extracted from Wikipedia. A total of 29.3M citations were extracted from 6.1M English Wikipedia articles as of May 2020, and classified as being to books, journal articles or Web contents. We were thus able to extract 4.0M citations to scholarly publications with known identifiers -- including DOI, PMC, PMID, and ISBN -- and further equip an extra 261K citations with DOIs from Crossref. As a result, we find that 6.7% of Wikipedia articles cite at least one journal article with an associated DOI, and that Wikipedia cites just 2% of all articles with a DOI currently indexed in the Web of Science. We release our code to allow the community to extend upon our work and update the dataset in the future.


翻译:维基百科的内容基于可靠和公开的资料来源。 至今,维基百科所依赖的资料来源相对鲜为人知, 部分是因为提取引用和识别引用来源是具有挑战性的。 为了缩小这一差距,我们发布了维基百科引用的综合数据集《维基百科引用》。 截至2020年5月,共从6.1M英文维基百科文章中提取了29.3M条引文,并被归类为书籍、期刊文章或网络内容。因此,我们得以提取4. 0M条引文给学术出版物,包括DOI、PMC、PMID和ISBN, 并用Crossref的DOIs进一步配置了261K引文。 结果,我们发现维基百科文章中有6.7 %的期刊文章引用了至少一篇相关DOI的文章, 维基百科引用了目前由DOI在科学网站上索引的所有文章的2%。我们发布了我们的代码, 使社区能够扩展我们的工作并更新未来的数据集。

1
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
5+阅读 · 2019年8月22日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
7+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员