国际顶刊PNAS发文:“同质化”论文暴增,从根本上阻碍了科学的进步!

2021 年 10 月 20 日 极市平台
↑ 点击 蓝字  关注极市平台

作者丨琰琰 
来源丨AI科技评论
编辑丨极市平台

极市导读

 

美国著名SCI期刊PNAS刊登文章指出,在科学研究领域,“同质化”论文的大规模生产可能会阻碍新兴思想的出现。那么,论文数量的暴增是否真的代表科学的进步? >>加入极市CV技术交流群,走在计算机视觉的最前沿

从2012年至今,我国科研论文的发表数量一直在持续增长。 据Web of science数据统计,近10年中国科研人员发表 SCI 论文总数已累计339.7万篇,反超美国跃居全球榜首。
 然而,论文数量的暴增是否真的代表科学的进步?
近日,美国著名SCI期刊PNAS(Proceedings of the National Academy of Sciences  )刊登文章《Slowed canonical progress in large fields of science》指出, 在科学研究领域,“同质化”论文的大规模生产可能会阻碍新兴思想的出现。
这篇文章出自美国西北大学和芝加哥大学联合研究团队,他们通过241门细分学科的9000万篇论文的18亿次引用的定量分析发现, 大量论文的发表不但没有加快研究范式的更替,反而巩固了经典研究。 那些可能蕴含潜在的、颠覆性观点的新论文正面临出版难、阅读量低、引用量少的困境,并且没有因为时间的演进而吸引更多人的关注。
这种现象所带来的后果是: 如果科学家和研究机构仍然以“数量”来衡量科研能力,而不是关注科研质量和影响力,那么论文的暴增将从根本上阻碍科学的进步!

1

新论文引用率低,无创新是普遍现状 

对大多数人而言,科学进步最直观的表现就是“越多越好”,某一学科发表的论文越多,科学进步的速度就越快;研究人员越多,覆盖的范围就越广。 即使不是每一篇论文都有翻天覆地的影响力,但每一篇论文都可以为聚沙成塔贡献一粒沙子,增加新范式出现的可能。
事实上,众多科学领域每年的论文发表数量正在快速增长。以人工智能为例,从2007年到2017年,近10年的时间中国AI论文增长了400%,企业论文增长了73%。在国际学术会议中,ACL 2019年的投稿量超过2800篇,相比2018的1544篇,增量超过81%。同年NeurIPS也增长40%,投稿量达6809篇。CVPR\ICCV\ECCV三大计算机视觉顶会更是增幅明显。
其背后的原因一方面与学术政策和激励措施密切相关。 在科学研究领域,不论是职位晋升还是考量绩效,专利、发表文章、文章的引用以及刊登杂志的影响因子都会成为核心指标。 这些量化指标决定了科研人员的职业轨迹以及学术机构、企业和评估标准。对于一名高校学者而言,如果在规定的时间内发表足够多的论文,就有可能获得晋升或者终身教职的机会。
而另一层原因是,论文的“质量”也越来越倾向于定量化评估,引用量普遍被用来衡量某一学科领域内个人、出版商和期刊的重要程度。一篇引用次数多的论文会被默认为最佳、最有价值的研究,甚至会被视为该领域内的里程碑之作。
然而,这项研究中发现大量科研成果的发表不但没有推动科学的发展,反而成了行进的阻力, 这是因为某一科学领域发表的论文数量逐年增多时,学者更倾向于引用已有的经典论文,而不是新论文,反过来,较低的引用次数又进一步影响了新论文的关注度,这导致学术研究很难摆脱现经典研究思想的束缚,而事实也证明,更多的新论文创新度不高,多局限于已有的理论框架。
作者在文中具体列出了六项可能带来的影响,并强调 如果是 研究范围更广的科研领域,以下 现象可能会 更明显:
1)新引用更偏向经典论文,而不是引用较少的新论文;
2) 引用最多的论文在每年的引用排名中几乎保持不变;
3) 一篇新论文最终成为最常引用论文的概率下降; 
4) 新论文不会通过长时间的累积传播进入最常引用行列;
5) 新论文延续现有科学思想的比例增加,颠覆性思想的比例减少;
6)具有足够影响力的论文,出现的可能性降低
至于为什么会出现这种现象,作者认为在理论上可能存在两方面因素,一是大量的新论文可能会剥夺专家和学者充分认识和理解一个 新想法 所需的时间和认知程度 二是过多 新想法 之间的竞争也 可能会妨碍 学者们发现或者将 意力 集中在一个 有前景 idea 上。
随着每年各学科领域科研成果数量的持续增长,这种影响会只增不减,且不可避免,除非 采取政策措施重组科学生产的价值链,使大众的注意力集中在有前途的、新颖的想法上。

2

实验证明及分析

总结来看,在大多数学科领域中,高引用量的经典论文一直持续占据主导地位,这导致新论文的引用几率较低,并随着时间的推移淹没在了海量论文库中。此外,从内容上来讲,最新发表的论文更倾向于扩展现有理论,而不是进行底层创新,很少有打破常规的新观点被提出。以下是241门细分学科和9000万篇论文的实证结论:
一、在大多数学科中,引用最多的论文获得了更高的引用份额。
如图1(A),引用次数最多的论文在最大研究领域的基尼系数为0.5,相当于贫富差距最大的两个国家的系数水平——只有中国和南非的基尼系数高于0.5。重要的是,论文引用份额的严重失衡,导致研究方向出现明显的“马太效应”。

图1:不同学科论文引用量的动态变化过程
左图(A)表明,当某个领域发表的论文越多,被引用最多的论文在新引用中所占比例就会越大;右图(B)表明,当某个领域发表的论文越多,高引用论文的排名就越稳定。
如电气和电子工程领域,如果每年有10000篇论文出版,前0.1%的论文获得1.5%的引用概率,前1%的论文获得8.6%的引用; 如果发表50000篇论文,前0.1%的论文获得3.5%的引用,前1%的论文获得11.9%的引用; 如果发表10万篇论文,前0.1%的论文获得5.7%的引用,前1%的论文获得16.7%的引文。 相比之下,随着每年论文发表量的增多,50%低引用论文在新引用中所占份额明显下降,从每年10000篇论文 43.7%的引用次数占比,下降到每年50000篇和100000篇论文占比仅稍稍高于20%。  
二、在范围更大的学科领域,论文发表数量越多,引用最多的论文在高引排名中的波动越小。
如图1(B)所示,在引用最多的前50篇论文中,论文发表的本年和下一年之间在排名上存在明显的相关性。而在随后的几年,如果预测前50名引用最多的论文的斯皮尔曼等级系数,该系数从一年1000篇论文的0.25,增加到了一年100000篇论文的0.74。这是因为当研究范围较大时,引用最多的论文每年都会保持其引用次数,而其他所有论文的引用次数都会减少。  

 图2:引用衰减率

图(A)表明尽管有大量新论文发表,引用最多的论文平均每年保持在高引用前列;图(B-C)表明除引用最多的论文外,所有论文在该研究领域的引用次数均逐年减少。图(D)表明在所有学科领域,只有引用最多的论文每年保持高引用水平,其他所有论文平均每年的引用量都较少。
上图显示了在不同引用份额上论文本年与上一年引用的预测比率。可以看出,在论文发表量少的年份,引用最多的论文比例明显低于1,与引用较少的论文没有太大区别。然而,当论文发表量增加时,引用最多的论文比例接近1,明显超过引用量较少的论文。如果某领域一年发表100000篇新论文,引用最多的论文平均每年收到的引用数量不会出现明显下降,但在年度引用最多的论文中,排名前1%的论文每年平均会损失约17%的引用次数,而排名前5%及以下的论文会损失四分之一的引用次数。  
三、如果同年发表大量论文,其中一篇论文进入该领域最高引用0.1%的概率会明显下降,且不同学科和各个年份都遵循这一规律。
图3(A)表明,如果是小众学科领域,论文会随着时间的推移而慢慢上升到最常引用的前0.1%。如图3(B),1980年所有学科的线性回归预测显示,在1000篇新论文中,一篇论文达到该领域引用率最高的0.1%需要9年时间。

图3:新论文进入高引用排名的可能性
图(A)表明,一篇新在该学科领域进入最常引用0.1%的概率会随着论文的增多而降低。图(B)表明如果同一年发表大量论文,其中一篇并不会随着时间而逐渐积累到最常引用0.1%的范围内。
相比之下,如果是主流学科领域,一篇新论文会迅速跃升到排名列表的顶端。如图3(B)的回归预测,在100000篇新论文中,一篇进入前0.1%的中位数只需要不到一年的时间。  
四、同年发表的论文大多建立在现有文献的基础上,而不是突破现有文献。 
图4(A)表明,当某个学科领域每年发表1000篇论文时,颠覆性的创新论文占比49%;当每年发表10000篇论文时,该比例下降至27%;每年发表100000篇论文时,进一步下降到13%。即使当D>0时,新发表论文的创新性也会在更广泛的研究领域内被减弱。

图4:学术创新倾向图
图(A)表明多年来各个学科发表的新论文倾向于扩展现有的理论,而不是引入颠覆性的创新观点(蓝色代表D>0;红色代表D<0)。图(B)表明在各个学科中,同一年发表的大量论文普遍不太可能具有高度的创新性(D≥ 0.0256).
研究人员注意到,“场大小”所带来的影响明显超过了时间维度的影响。随着一个科学研究领域的扩展,资深学者的引用模式会发生明显变化。即使是久负盛名、经验丰富的学者,在许多新论文发表时也会更多地引用经典文章。

3

如何打破“论文泛滥”的局面? 

这项研究发现让我们不得不面对一个现实:如在短时间内发表太多的论文,新的idea很可能淹没在传统观念中,科学发现的过程也就无法选择更有价值的创新。更讽刺的是, 当今科学事业的“数量驱动”性质可能从根本上阻碍科学的进步,而访问权限,期刊的激增和刊物体系的失衡又会加剧这一现象。
那么我们可以减少论文发表的数量吗?答案显然不可能。
我们不可能能禁止出版、关闭期刊、限制科研机构,或者减少科学家的数量。 对于科学家而言,即使他们知道大量“无用”论文可能会对学科发展产生影响,但考虑到个人的职业发展和学生的学术前景,他们也不会主动减少科研“数量”。 而如果采取强制措施,无疑又可能增加破坏科研氛围、阻碍科研创新的风险。
作者认为,如果不从根本上改变激励政策和评估准则,这种现象只会持续恶化。他在文章中提出了几点改进措施,并表示虽然政策很难落实和推进,但它能够引导科研人员从经典研究走向更新颖的前沿领域。
  • 构建更清晰的期刊等级体系,通过最具影响力的出版机构,引导科研人员从常规工作转向学术创新。
  • 调整科研机构和企业的奖励和晋升制度,避免数量的权衡,提升质量、创新性贡献等指标的重要性。
  • 在研究生培养、科研能力评估、科研经费申请方面制定新的考核标准,激励科研人员摆脱既定教条,提出新奇的idea。
虽然各个学科引用最多的论文在每年的高引排名中基本保持不变,但我们很难说学科发展就因此而停滞不前。不过现有证据表明,每年生产大量“无用”的科学成果耗费了昂贵的人力成本的资金,生产率也正在急剧下降。而更重要的是,我们是否可能因为沉浸在泛滥的论文中而错过更丰富的新范式?
论文地址:https://www.pnas.org/content/118/41/e2021636118

- END -

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~


极市干货
神经网络: 视觉神经网络模型优秀开源工作:timm库使用方法和最新代码解读
技术综述: 综述:神经网络中 Normalization 的发展历程 CNN轻量化模型及其设计原则综述
算法技巧(trick): 8点PyTorch提速技巧汇总 图像分类算法优化技巧


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~



觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
ICLR 2022接受论文列表出炉!1095 篇论文都在这了!
专知会员服务
73+阅读 · 2022年1月30日
阿里达摩院十大科技趋势报告,31页pdf
专知会员服务
66+阅读 · 2021年12月29日
数据库发展研究报告(2021年)
专知会员服务
46+阅读 · 2021年6月29日
专知会员服务
47+阅读 · 2021年4月18日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
周志华教授:如何做研究与写论文?
专知会员服务
148+阅读 · 2019年10月9日
CVPR 二十年,影响力最大的 10 篇论文!
极市平台
0+阅读 · 2022年1月31日
何恺明的ResNet论文,被引量刚刚突破10万大关
极市平台
0+阅读 · 2021年12月18日
PNAS权威研究:论文越多,科学发展越易放缓
学术头条
0+阅读 · 2021年12月12日
解读《中国新一代人工智能发展报告2019》
走向智能论坛
32+阅读 · 2019年6月5日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年8月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年2月4日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Arxiv
34+阅读 · 2020年1月2日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关VIP内容
ICLR 2022接受论文列表出炉!1095 篇论文都在这了!
专知会员服务
73+阅读 · 2022年1月30日
阿里达摩院十大科技趋势报告,31页pdf
专知会员服务
66+阅读 · 2021年12月29日
数据库发展研究报告(2021年)
专知会员服务
46+阅读 · 2021年6月29日
专知会员服务
47+阅读 · 2021年4月18日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
98+阅读 · 2020年1月12日
周志华教授:如何做研究与写论文?
专知会员服务
148+阅读 · 2019年10月9日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年8月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年2月4日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员