捏造的参考文献竟被引用400次!科学家为何会被“幽灵文献”欺骗?

2017 年 12 月 8 日 科研圈 WilHarzing Stern

来源:《Ghost Knigi》


撰文  Anne-WilHarzing; Victoria Stern

翻译  何伟雄

审校  张梦茜

编辑  魏潇 


彼得•克罗宁伯格 (Pieter Kroonenberg)是荷兰莱顿大学的一名退休的统计学教授。有一天,他在试图寻找一篇关于学术写作的论文时,惊讶地发现这篇文章和其所刊登的期刊《科学通讯期刊》(Journal of Science Communications)并不存在


更离谱的是,这篇不存在的论文 ——“学术写作的艺术 (The art of writing a scientific article)”—— 在 Web of Science 发布的数据里显示被引用了近 400 次


Web of Sicence中显示,这篇不存在的论文被引用了将近400次


安妮•威尔•哈金(Anne-WilHarzing)是第一个撰文描述克罗宁伯格的发现的人。她是伦敦米德尔塞克斯大学(Middlesex University)的一名国际管理学教授。据她的深度调查,这篇论文确实是被编造的。


那么这篇不存在的文章究竟是如何被引用上百次的?引用它的研究人员——从半导体,电凝,到血压,或抗癌药物——为何没有早点发现问题?在她的博客中,哈金抽丝剥茧,一步一步为我们揭示了“幽灵引用”的真像。



幽灵文献的起源


哈金使用这篇文献的作者名字“Hanraads”在 Web of Science 中搜索,结果显示,这篇据称发表于 2000 年的文章,被 398 篇论文引用过


还有十几个引用哈金没有把它们考虑进去,因为它们使用了时间为 2010 年的新版本,或者引用时漏掉了一个署名。很显然,作者们不准确的引用或者 Web of Science 的数据录入员的错误造成了不少“跑偏的引用”,但这是一个次要的并且众所周知的问题,并非此文的重点。


哈金的搜索日期为2017年10月24日。图片来源:Harzing.com



谁在引用?


哈金试图验证幽灵文献是否会被特定类型的文章引用。答案是肯定的:大多数引用幽灵文献的文章(近 90%)出现在会议记录中。其中,近三分之二在 Procedia conference volumes(以下简称 Procedia)上发表,这是 Elsevier 出版的包含了 25 个不同学科的会议论文集。尽管是 Elsevier 发表,但挑选论文或同行评议等是会议的相关组织者负责的。

  


Procedia 上发表文章意味着可能会被 Scopus 和 Web of Science 所收录,并且被用于大学中的职称评选。这是吸引会议组织者和参会者投稿 Procedia 的一个关键。许多大学高层只是对这些数据库中列出的出版物进行“统计”,并不管对错。在 Procedia 系列中的出版对一些学者来说可能是相当有吸引力的,因为在其领域的顶级刊物上发表文章对他们来说是一件麻烦而且遥不可及的事。


Web of Science 收录了自 2009 年以来发表在 Procedia 系列刊物中的近 8.5 万篇论文。其中近三分之二发表在 Procedia Social and Behavioral SciencesProcedia Engineering 系列期刊中,这两个系列有大量文章引用了这篇作者为 Hanraads 的“幽灵文献“。


不过,自 2017 年 2 月以来,Elsevier 已经停止接受包括这两个学科在内的几个学科的投稿。这或许可以解释为什么 2016 年有 74 篇论文引用了这篇幽灵文献,而 2017 年只有 19 篇(见下图)。



哈金在更加仔细地审查一些社会科学领域的论文时发现(这是她的本行),大多数幽灵参考文献的引用都出现在相当低质量的会议论文中,而且作者大多来自非英语母语国家,比如自中国,马来西亚,土耳其,俄罗斯,罗马尼亚和伊朗。其中一些文章显然达不到该领域会议的正常水平。有些文章甚至只是不到 3 页的相当不连贯的陈述,而且每个句子都另起一行。参考文献的格式通常也是不完整,不规范的。这些质量问题很可能导致了 Elsevier 停止出版这个领域的会议论文。



投稿模板 or 参考文献


上述事实似乎指出质量把控是问题的潜在根源。


因此,哈金的下一步是找出在什么情况下一个研究人员会引用“幽灵文献”。她检查了引用该文献的被引用频次最高的 TOP 20 文章。由于它们都引用了 10 条或更多的参考文献,这些文章最有可能是“可信”的,经历了一定程度的质量把控的论文。


哈金下载了这 20 篇论文中的 12 篇,并发现了一个有趣的现象:有一半的论文里“幽灵文献”都排在了参考文献列表的第一篇,在三篇中它被排到了最后。


幽灵参考总是出现在参考文献列表中的第一个或最后一个让哈金怀疑是否是文章作者忘了删除它们。但是,为什么它们能被添加到文章里呢? 


灵光闪现的时机总是不期而至。有一天,当哈金偶然发现一个可再生能源会议在其网站上列出的投稿模板时,终于茅塞顿开:那些作者并没有主动把幽灵参考文献添加到文章里! 会议模板列出了整个文章的格式,从标题、作者和所属机构开始,并以鸣谢、附录和引用为结束。介绍如何引用时,会议模版将作者为 Van der Geer 和 Hanraads 的“幽灵文献”用作了展示期刊格式要求的一个范例。



显然,依照规定投稿时,作者应该将每个部分的模板文本替换成他们自己的文本。但是,如果一些英语语言能力差或经验不足的作者根本不理解这一点呢? 或者,他们也许在一开始替换文本时保留着这篇“幽灵文献”,将其作为他们自己引用时的参考,然后在完成自己的文献列表后忘了将其删除。这个推测很有可能是真的,因为在哈金仔细检查的论文中,社会科学的作者也把其他范例的文本(一本书和书的章节)留在了两篇文章的文献列表里。


哈金总结说,幽灵引用之谜其实有一个非常简单的解释:写作与质量把控中的草率。



谁之过?


撤稿观察网站(retractionwatch.com) 采访了几位引用了“幽灵文献”的研究人员,他们都把这归因于某种失误。有人说他混淆了两个相似的参考文献,“Van der Geer 和 Hanraads”的文献取代了正确的一个; 另一位作者说,他已经联系了出版商来修正这个错误。


尽管 400 篇引用听起来影响很大,但哈金把这个数字放到了大背景中:在将近 85,000 篇 Procedia 会议论文中,幽灵引用出现在不到 0.5% 的文章中。虽然不幸,但这确实是一个可接受的“误差范围”。许多其他的引用幽灵参考的文章也是会议记录。这些会议很可能只是从 Elsevier 的会议中“借用”了 Procedia 的模板,给了作者潜在的犯错可能。


不过,一些会议论文的编辑很少或不进行质量把控。在哈金调查的一些最近的会议论文中,除了一些著名会议之外,大部分主要针对新手和没有什么经验的研究人员。作者的主要动机也不是发表一篇高质量的会议记录,而是使其文章被数据库收录参与大学的职称评选。在 Procedia 发表会被收取很高的版面费,但是能发表出来作为会议的附加内容并被 Web of Science 收录似乎也是值当的。


从某种意义上说,我们可以庆幸“幽灵文献”是虚构的。如果这是一个真实的出版物,那么这样的错误可能会导致更为严重的后果。 400 个错误的引用可能是数以十万计的学术出版物海洋中的一滴水。 然而,对于许多个人作者而言,400 次的引用或许足以区分优秀和平庸,并且决定他们是否可以找到工作


作为“幽灵文献”事件的结语,哈金提醒大家,引用时对于看起来奇怪的参考文献一定要加以重视。做一些调查,或者让有文献计量学功底(bibliometric knowledge)的人来帮你审核一下。如果一个东西看上去很可疑,那很可能它就是有问题的!


参考资料:

http://retractionwatch.com/2017/11/14/phantom-reference-made-article-got-almost-400-citations/

https://harzing.com/publications/white-papers/the-mystery-of-the-phantom-reference




你曾经在发表文章的过程中弄错过参考文献吗?

你觉得现行学术出版体系对论文参考文献的审查足够严格吗?

欢迎在留言区写下你的感想,和我们一起讨论



阅读更多


▽ 故事

· “我是你的导师,不是你妈!”

· 颠覆孟德尔遗传定律,卵细胞也会主动选择精子?

· 世界首份只颁给“失败研究”的奖金:“无效”的实验结果没准能为你赢得1万欧元

· 她没有子宫,却生下了自己的孩子:美国首例“移植子宫”成功孕育新生命

▽ 论文推荐

· 睡眠缺乏会让一些脑细胞迟钝,并会损伤特定区域 | Nature Medicine 论文推荐

· 突破热力学极限:普林斯顿的研究让有机电子的应用不再局限于手机屏幕 | Nature Materials 论文推荐

· 能否相信电话那头的他?这些蛛丝马迹让你慧“耳”识人 | PLoS ONE 论文推荐

▽ 论文导读

· Nature 一周论文导读 | 2017 年 11 月 23 日

· Science 一周论文导读 | 2017 年 11 月 24 日


内容合作请联系

keyanquan@huanqiukexue.com

登录查看更多
0

相关内容

COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
41+阅读 · 2020年7月2日
专知会员服务
145+阅读 · 2020年6月15日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
已删除
架构文摘
3+阅读 · 2019年4月17日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
【新手福利】初识外泌体(六)
外泌体之家
19+阅读 · 2018年7月6日
曹雪涛院士团队:刚发完Nature,又发一篇Cell
【解读】2017年ML/NLP论文发表情况(第八期免费赠书活动来啦!)
谷歌的AI将乌龟认成步枪,这为何是个大问题
硅谷第一线
3+阅读 · 2017年11月22日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
已删除
架构文摘
3+阅读 · 2019年4月17日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
【新手福利】初识外泌体(六)
外泌体之家
19+阅读 · 2018年7月6日
曹雪涛院士团队:刚发完Nature,又发一篇Cell
【解读】2017年ML/NLP论文发表情况(第八期免费赠书活动来啦!)
谷歌的AI将乌龟认成步枪,这为何是个大问题
硅谷第一线
3+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员