刚刚,arXiv论文数破200万!没有arXiv,就没有21世纪的科研突破

2022 年 1 月 23 日 极市平台
↑ 点击 蓝字  关注极市平台

来源丨新智元
编辑丨极市平台

极市导读

 

2022年1月3日,论文预印本平台arXiv的论文数量突破200万篇。30年来,arXiv预料之外的成功,给科学界带来巨大助益,但现在也面临了维持艰难的窘境。>>加入极市CV技术交流群,走在计算机视觉的最前沿

2022年1月3日,论文预印本平台arXiv发布了自创始以来的第200万篇论文,论文题目是《仿射迭代和翘曲效应:多种方法论》(Affine Iterations and Wrapping Effect: Various Approaches)。

ArXiv经历了爆炸式发展,创始人保罗·金斯帕格得知这个消息后说:「网站用了23年半获得100万份论文,又用了7年获得200万份论文,或许之后只需要4年半就能获得300万份。」


1991年来arXiv论文投稿量的变

康奈尔大学文理学院数学教授、arXiv顾问委员会成员塔拉·霍姆称:「这200万份提交的论文代表着人类有200万个机会来推动自身的理解前沿。在我们庆祝这一成就的同时,也必须继续努力,使学科与研究更容易被世界各地的研究人员和公众所接受。」

论文不发在arXiv上等于不存在


成立于1991年前的arXiv是「开放存取运动」的先驱,让全世界学者使用此平台来分享自己的研究,并阅读其他人提交的论文。

arXiv上有大量的论文预印本,它们是尚未经过同行评议、尚未发表或不发表在期刊上的文章。论文发表后也能以修订版形式出现在arXiv上。

现在,arXiv已经是全球顶级科研论文库,每天会收到8个主要主题领域的、多达1200份新提交的论文,此外还有多达1000份的修订和其他更新。arXiv改变了多个学科的研究方式。

物理学界有说法:「如果论文不在arXiv上,那就等于不存在。」

数学界的塔拉·霍姆也说:「如果我问同事, 你的所有或大部分论文都arXiv上吗? ,他们会不相信地看着我, 当然,我 所有论文都在arXiv上。 arXiv已经成为数学研究的命脉。


arXiv论文投稿量的分学科分布

网站上的论文预印本主要集中在理科方向:数学、计算机科学、定量生物学、计量金融学、统计学,以及物理学。这些研究的提交者范围从研究生直到诺贝尔奖获得者都有。四名全职工作人员、世界各地的196名志愿版主以及自动系统对提交的论文进行筛选和整理

ArXiv,世界科研人的理想文库


ArXiv为科研人员带来了理想中的文库:免费发表和阅读、快速发表、包含学科内几乎所有经典论文、全库检索、随时随地访问。

在 arXiv 诞生前,论文预印本只在学术界小圈子里用电子邮件或人工分发。对于递交到科学期刊的论文,作者通常需要等待半年甚至更长时间才能出版。

而有了arXiv后,递交到平台的论文通常能在一天之内上线。作者们更愿意会将手稿上传至 arXiv,然后在同行评审期刊上发表最终版本。

而对于使用它的研究者来说,arXiv是日常工作流程的一部分:他们早餐时可能会同时翻阅上面的最新文章,中午提交一篇自己的论文,晚间从平台下载阅读材料。有天体物理学家描述了arXiv对学科研究的提速:「上周五一架天文望远镜发现了新东西。下个周一相关论文上线。到了周二,就有反驳周一文章的论文出现。」


1991年来arXiv论文的下载量 变化

研究成果快速流通的价值在2020年变得极为显著,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

这一价值在2020年变得极为明显,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

arXiv还使学界更加平等。无论是世界顶尖大学的知名教授、还是不知名机构日夜奔忙的博士后,抑或是穷国缺研究资金的学者。所有人的新成果都可以被其他研究者立即看到,所有人也都可以跟进批评或改善他人的研究。

可以说,没有arXiv,很多学科就不会迎来21世纪的革命性变化。

普林斯顿的断网大雨,淋出了arXiv


如此重要的平台,居然是被大学的多雨与劣质网络催生的。

按arXiv的主要创办者之一、宇宙物理学家乔安妮·科恩的回忆,从1989年秋天当时供职于普林斯顿大学的自己无法参加学术会议、托同事保罗·金斯帕格用电子邮件转发会议论文起,自己的论文邮件转发群组就越发庞大。

在1990年代初,这种电邮转发方式已经面临了太多阻碍。1991年前,每台收件电脑都是电子邮件转发链中的必要节点。每次普林斯顿大学下雨,网络都会断线。当雨停时,科恩就会收到一大堆提醒通知,告诉她邮件没有发出去。

当时的电子邮件还有字数与篇幅限制,科恩要把较长的论文分成两部分发送,否则也会收到海量的发送错误提示。

保罗·金斯帕格

而且越发国际化的邮件转发链也给预印本的电邮流通方式带来挑战。1991年海湾战争时,受波及的以色列学者们就只能在每天的特定时间才能连上国际通讯网络。

原苏联消失时的变故也让俄语学界一时联不上网,尘埃落定后的俄语学界对断网时的预印本邮件进行了补偿式下载,结果瘫痪了多家大学的服务器。

1991年夏天,金斯帕格问科恩要不要把邮件发送的方式自动化,他能帮忙写程序。在科恩同意后的几天,金斯帕格就写好了一个程序脚本,这就是arXiv的雏形。

蓝色部分为现在向arXiv投稿的国家与地区

arXiv的域名,最开始是跟着金斯帕格的职业路径在变。1991年时,金斯帕格供职于美国洛斯阿拉莫斯国家实验室,所以arXiv就储存在洛斯阿莫斯国家验室的服务器上,域名是会让圈外人浮想联翩的xxx.lanl.gov。

洛斯阿莫斯国家实验室并没有持续支持此项目的热情。到了2001 年,换雇主的金斯帕格将网站转移到新东家康奈尔大学,并更名为arXiv。直到今日,arXiv一直托管在康奈尔大学,主要由美国美国西蒙斯基金会(Simons Foundation)和国际学术机构们的资金支撑。

arXiv的困境:缺钱了


不过arXiv就和其他著名的线上知识共享项目一样,面临着相似的障碍:缺钱、人少、活多。

arXiv主要资金由西蒙斯基金会提供,此外还有来自捐助者和243个图书馆、大学、研究组织和专业协会的捐款。这种托钵化缘式的资金来源方式,在2021财年仅能为arXiv提供2,423,994美元的预算。

无怪有学界人士不平:「支撑全世界科研的arXiv预算200万美元出头,业绩乏善可陈的美国国家科学基金会预算永远不会低于70亿美元,世界真的很搞笑。」

按arXiv团队的核心成员称,人手与资金短缺的困境已经持续数年,而现在的开支仅能支持少量员工帮助196名志愿审核员每天处理来自150个分类学科1200份投稿。


金斯帕格于2021年8月撰文,披露arXiv早已靠能筛选语言标记的机器学习算法来支撑人工审核。程序能在几毫秒内全面评估全文内容,包括对照整个后台数据库,检查每份新提交的文档是否有警示性字眼与重复文字。现在,arXiv大部分内部人力用于调解和裁决各种人类和AI的疏漏。

即便如此,由于审核失误,arXiv无端拒稿的负面消息仍然时有出现。最近一次是2021年8月,arXiv审核员拒绝了中国知名科学家陆朝阳和潘建伟的一篇论文,两人分别在量子研究领域贡献了多个「第一」。按意大利博洛尼亚大学理论物理学家罗伯托·卡萨迪奥的独立评估,稿件完全在合理讨论范围内,拒稿没有理由。

arXiv的科学总监称,未来不大可能在arXiv建立同侪评审,只好预计在未来几年内将审核员增加到至少300人,这样每个学科分类至少有两人负责。

arXiv重塑了世界科研的路径,希望这条路能顺畅延续下去。


参考资料:
https://news.cornell.edu/stories/2022/01/arxiv-hits-2m-submissions
https://physicstoday.scitation.org/do/10.1063/PT.6.4.20211108a/full/
https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/
https://arxiv.org/about/reports-financials

如果觉得有用,就请分享到朋友圈吧!

△点击卡片关注极市平台,获取 最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载~


极市干货
课程/比赛: 珠港澳人工智能算法大赛 保姆级零基础人工智能教程
算法trick 目标检测比赛中的tricks集锦 从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述: 一文弄懂各种loss function 工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

arXiv(X依希腊文的χ发音,读音如英语的archive)是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站,始于1991年8月14日。截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。在2014年时,约以每月8000篇的速度增加。
何恺明的ResNet论文,被引量刚突破10万+
专知会员服务
26+阅读 · 2021年12月19日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
37+阅读 · 2021年4月27日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
145+阅读 · 2020年6月15日
专知会员服务
60+阅读 · 2020年3月19日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
如果Sci-Hub胜诉,对全球科研意味着什么?
新智元
0+阅读 · 2021年12月29日
何恺明的ResNet论文,被引量刚刚突破10万大关
PaperWeekly
0+阅读 · 2021年12月18日
PNAS权威研究:论文越多,科学发展越易放缓
学术头条
0+阅读 · 2021年12月12日
阅读深度学习论文的新姿势
计算机视觉life
16+阅读 · 2018年7月22日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年4月30日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
2+阅读 · 2022年4月20日
Arxiv
1+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
38+阅读 · 2021年8月31日
VIP会员
相关VIP内容
何恺明的ResNet论文,被引量刚突破10万+
专知会员服务
26+阅读 · 2021年12月19日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
37+阅读 · 2021年4月27日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
145+阅读 · 2020年6月15日
专知会员服务
60+阅读 · 2020年3月19日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年4月30日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员