什么样的论文能在维基百科中被引用280万次?

2018 年 6 月 28 日 中科院物理所

原文以Wikipedia’s top-cited scholarly articles — revealed为标题

发布在2018年5月14日的《自然》新闻上

原文作者:Giorgia Guglielmi

在最流行的在线百科网站上,引用数最多的有DOI号的文章主要以基因集和天文研究为主。

维基百科引用最多的期刊文章涉及月球坑的名字,以及人类和小鼠基因的DNA序列。许多最受欢迎的文章在维基百科上的引用数比其在科学文献中的引用数还要多。

维基百科是世界上访问量第五大的网站。

来源:Chris Batson/Alamy

“令人难以置信的是,引用数最多的文章几乎全都是科学论文。”纽约的数据科学家、图书馆员Matt Miller说。Miller分析了负责运营维基百科的旧金山非营利组织维基媒体基金会在三月发布的引用数据,其中包含了约1570万条数据记录,显示了在维基百科近300个不同语言版本中,拥有正式编号(例如国际标准书号ISBN或数字对象识别码DOI)的各种来源被引用了多少次。维基媒体基金会注意到,维基百科中通过正式编号引用的大部分都是书籍,但是Miller特别观察了英语维基百科通过DOI——这是期刊文章最常用的编号——引用的文章数目。他分析了120万条带有DOI的引用,其中包含了83.5万余篇不同的文章。


引用最多的论文在英语维基百科上总共被引用了4702次,是2002年一篇收集了超过15000个人类和小鼠基因序列的论文(参见“英语维基百科”)。引用该论文的维基页面几乎全是关于单个基因或蛋白质的页面。“是个意外的惊喜。”癌症研究人员Robert Strausberg说。他是原论文的项目负责人,目前任纽约市路德维希癌症研究所科学副主任。

英语维基百科:前十大被引学术文章

在英语维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:


4702次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)

(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)


3387次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)

(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC) )


2895次引用:《依巴谷卫星新数据规约的验证》(2007)

(Validation of the new Hipparcos reduction)


2212次引用:《21243个全长人类cDNA的完整测序和表征》(2004)

(Complete sequencing and characterization of 21,243 full-length human cDNAs)


1452次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)

(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)


1297次引用:《寡核苷酸帽法:用寡聚核糖核苷酸替代真核mRNA的末端的一种简单方法》

(1994)

(Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides)


1294次引用:《构建人类蛋白质间交互网络的蛋白质组级图谱》(2005)

(1,294 citations: Towards a proteome-scale map of the human protein–protein interaction network)


1251次引用:《侧重全长和侧重5’末端的cDNA库的构建与表征》(1997)

(Construction and characterization of a full length-enriched and a 5'-end-enriched cDNA library)


931次引用:《Pan-STARRS PS1观测到的250000颗小行星的绝对星等和斜率参数——初步结果》(2015)

(Absolute magnitudes and slope parameters for 250,000 asteroids observed by Pan-STARRS PS1 — preliminary results )


878次引用:《关于分光光度法分类小行星的NEOWISE研究:初步结果》(2011)

(NEOWISE studies of spectrophotometrically classified asteroids: preliminary results)

2004年发表的一篇扩展版的基因集文章是引用数第二多的,共引用了约3400次(相比之下,根据Google Scholar的数据显示,科学文献对它的引用数只有487次)。该论文的共同作者之一、美国国家癌症中心的癌症遗传学家Daniela Gerhard说,这篇文章被引用了这么多次可能是因为它提供了可获取的有关表达基因序列的信息。


总而言之,前十名中有五篇文章是关于DNA目录的,其中包括了一篇详细描述如何生成这种库的研究。2005年的一篇包含了将近3000种人类蛋白质互作的图谱也位居前列,排名第七。(维基媒体的原文说:“毫不意外,维基人可喜欢工具文章了。”)


其余四篇均为天文学文章。英语维基引用数第三多的有将近3000次引用,是2007年的一篇帮助研究者解读依巴谷卫星数据的文章。依巴谷卫星是第一个测量恒星位置、距离和亮度的太空计划。


另外几篇空间科学论文涉及小行星的尺寸和亮度,以及月球坑的名字(见于1971年的一篇文章,根据Google Scholar的数据显示,这篇文章在科学文献里只有16次引用)。依巴谷卫星一文的作者、英国剑桥大学的天文学家Floor van Leeuwen说,这些文章的引用次数多,是因为很多天体有着单独的维基页面,而这些论文是非常可靠的引用源。


爬虫的工作

2001年建立的维基百科每个月有160亿次访问量,目前是世界上访问量第五大的网站。所有人都可以新建文章或编辑已有的文章,但是网站的规章要求作者和编者必须为引用的文字和信息标注已发表的文章来源,例如书籍和学术论文。


伦敦慈善机构阿卡迪亚基金会的开放获取项目总监Ross Mounce对维基媒体的数据进行了独立分析,得到了全语种维基百科中引用次数最多的10篇带DOI号的文章(参见“全语种维基百科”)。其中6篇是一样的,但是排名第一的完全不同。引用数最多的是一篇2007年的论文,它更新了已有百年历史的全球气候分类法。这篇文章有280万引用数——但是英语维基中只有169次引用(全语种中引用数第二多的在英语维基只有21000多次引用)


这篇气候研究被引用这么多次是因为有几百万次引用都来源于程序自动生成的页面。根据维基百科的数据显示,截至2014年7月,瑞典达拉纳大学的物理学家Sverker Johansson所写的这个爬虫软件生成了将近300万篇文章。其中三分之一是瑞典语,其余的则是两种菲律宾语言——宿务语和瓦瑞语。Johansson表示,该爬虫生成了数百万篇关于城镇或岛屿的地理位置的文章,而大多数文章都包含当地的气候类别,因此会引用上述气候研究。他补充说,他不知道爬虫自动生成了多少次这篇论文的引用,“不过280万听起来差不多。”

全语种维基百科:前十大被引学术文章

在全语种维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:


2830341次引用:《柯本-盖革气候分类法下的更新版世界地图》(2007)

( Updated world map of the Köppen–Geiger climate classification)


21350次引用:《使用碎片法预测有机小分子的疏水(亲脂)性:aLogP和cLogP法的分析》(1998)

 (Prediction of hydrophobic (lipophilic) properties of small organic molecules using fragmental methods:  an analysis of ALOGP and CLOGP methods)


20247次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)

(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC))


5937次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)

(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)


5854次引用:《Asiago超新星目录——10年之后》(1999)

(The Asiago supernova catalogue — 10 years after )


2895次引用:《依巴谷卫星新数据规约的验证》(2007)

(Validation of the new Hipparcos reduction)


4450次引用:《小行星带的太初激发和清除》(2001)

(The primordial excitation and clearing of the asteroid belt)


3062次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)

(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)


2587次引用:《21243个全长人类cDNA的完整测序和表征》(2004)

(Complete sequencing and characterization of 21,243 full-length human cDNAs)


2525次引用:《固态行星级天体的分类》

(Classifying solid planetary bodies)

Mounce补充说,其他文章可能在维基百科上有很多次引用,但没有正式标注DOI号,即通过其他手段引用,例如PubMed的ID码。


加州大学数据管理中心馆长John Chodacki说,为了让人们能够信任信息,引用非常重要。“不光对期刊文章如此,对维基百科页面也是如此。”他说。但是此前必须通过付费服务才能分析和比较学术文章的引用数据,“最有趣的是,现在这份数据所有人都能拿到。”

Nature|doi:10.1038/d41586-018-05161-6

来源:Nature自然科研

编辑:可乐不加冰


近期热门文章Top10

↓ 点击标题即可查看 ↓

1. 文科生看了会沉默,理科生看了会流泪!物理所『网红井盖』官方大揭秘!

2. 为什么学渣常觉得自己考得不错,学霸老觉得自己考砸了?

3. 碰到这三种物质,你大概连哭都来不及

4. 自然常数e为什么这么重要?

5. 灭霸力气有多大?钢铁侠战衣有多重?科学家是这样看漫威的

6. 《细胞》子刊:啊这善良可爱的小肥肉!科学家发现脂肪细胞竟会帮助伤口愈合

7. 绝对零度达不到,那么温度上限在哪里?| No.104

8. 霍金最后一篇论文终于正式发表:解除曾一手造就的科学“危机”,为人类寻找多元宇宙留下线索

9. 光就认识薛定谔的猫了,科学大佬们养的宠物妖怪们你还知道几个?

10. 那个名为“又大又好”的方程组,真的是又大又好!

点此查看以往全部热门文章


登录查看更多
0

相关内容

英语维基百科(英语:English Wikipedia)是维基百科协作计划的英文版本,也是最早的一个,由非营利组织──维基媒体基金会维持负责。
还在修改博士论文?这份《博士论文写作技巧》为你指南
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
269+阅读 · 2020年1月1日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
144+阅读 · 2019年10月27日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
《科学》(20181012出版)一周论文导读
科学网
4+阅读 · 2018年10月14日
百度不需要“二号人物”
PingWest品玩
4+阅读 · 2018年5月19日
微博大V@爱可可:arXiv论文怎么读?
人工智能头条
4+阅读 · 2018年4月26日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Arxiv
8+阅读 · 2019年3月21日
VIP会员
相关VIP内容
还在修改博士论文?这份《博士论文写作技巧》为你指南
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
269+阅读 · 2020年1月1日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
144+阅读 · 2019年10月27日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关资讯
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
《科学》(20181012出版)一周论文导读
科学网
4+阅读 · 2018年10月14日
百度不需要“二号人物”
PingWest品玩
4+阅读 · 2018年5月19日
微博大V@爱可可:arXiv论文怎么读?
人工智能头条
4+阅读 · 2018年4月26日
自然语言处理领域重要论文&资源全索引
机器之心
5+阅读 · 2017年10月14日
Top
微信扫码咨询专知VIP会员