Skip to main content

刚刚,arXiv论文数破200万!没有arXiv,就没有21世纪的科研突破

 


2022年1月3日,论文预印本平台arXiv发布了自创始以来的第200万篇论文,论文题目是《仿射迭代和翘曲效应:多种方法论》(Affine Iterations and Wrapping Effect: Various Approaches)。

ArXiv经历了爆炸式发展,创始人保罗·金斯帕格得知这个消息后说:「网站用了23年半获得100万份论文,又用了7年获得200万份论文,或许之后只需要4年半就能获得300万份。」


Image
1991年来arXiv论文投稿量的变

康奈尔大学文理学院数学教授、arXiv顾问委员会成员塔拉·霍姆称:「这200万份提交的论文代表着人类有200万个机会来推动自身的理解前沿。在我们庆祝这一成就的同时,也必须继续努力,使学科与研究更容易被世界各地的研究人员和公众所接受。」

论文不发在arXiv上等于不存在


成立于1991年前的arXiv是「开放存取运动」的先驱,让全世界学者使用此平台来分享自己的研究,并阅读其他人提交的论文。

arXiv上有大量的论文预印本,它们是尚未经过同行评议、尚未发表或不发表在期刊上的文章。论文发表后也能以修订版形式出现在arXiv上。

现在,arXiv已经是全球顶级科研论文库,每天会收到8个主要主题领域的、多达1200份新提交的论文,此外还有多达1000份的修订和其他更新。arXiv改变了多个学科的研究方式。

物理学界有说法:「如果论文不在arXiv上,那就等于不存在。」

数学界的塔拉·霍姆也说:「如果我问同事,你的所有或大部分论文都arXiv上吗?,他们会不相信地看着我,当然,我所有论文都在arXiv上。arXiv已经成为数学研究的命脉。


Image
arXiv论文投稿量的分学科分布

网站上的论文预印本主要集中在理科方向:数学、计算机科学、定量生物学、计量金融学、统计学,以及物理学。这些研究的提交者范围从研究生直到诺贝尔奖获得者都有。四名全职工作人员、世界各地的196名志愿版主以及自动系统对提交的论文进行筛选和整理

ArXiv,世界科研人的理想文库


ArXiv为科研人员带来了理想中的文库:免费发表和阅读、快速发表、包含学科内几乎所有经典论文、全库检索、随时随地访问。

在 arXiv 诞生前,论文预印本只在学术界小圈子里用电子邮件或人工分发。对于递交到科学期刊的论文,作者通常需要等待半年甚至更长时间才能出版。

而有了arXiv后,递交到平台的论文通常能在一天之内上线。作者们更愿意会将手稿上传至 arXiv,然后在同行评审期刊上发表最终版本。

而对于使用它的研究者来说,arXiv是日常工作流程的一部分:他们早餐时可能会同时翻阅上面的最新文章,中午提交一篇自己的论文,晚间从平台下载阅读材料。有天体物理学家描述了arXiv对学科研究的提速:「上周五一架天文望远镜发现了新东西。下个周一相关论文上线。到了周二,就有反驳周一文章的论文出现。」

Image
1991年来arXiv论文的下载量变化

研究成果快速流通的价值在2020年变得极为显著,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

这一价值在2020年变得极为明显,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

arXiv还使学界更加平等。无论是世界顶尖大学的知名教授、还是不知名机构日夜奔忙的博士后,抑或是穷国缺研究资金的学者。所有人的新成果都可以被其他研究者立即看到,所有人也都可以跟进批评或改善他人的研究。

可以说,没有arXiv,很多学科就不会迎来21世纪的革命性变化。

普林斯顿的断网大雨,淋出了arXiv


如此重要的平台,居然是被大学的多雨与劣质网络催生的。

按arXiv的主要创办者之一、宇宙物理学家乔安妮·科恩的回忆,从1989年秋天当时供职于普林斯顿大学的自己无法参加学术会议、托同事保罗·金斯帕格用电子邮件转发会议论文起,自己的论文邮件转发群组就越发庞大。

在1990年代初,这种电邮转发方式已经面临了太多阻碍。1991年前,每台收件电脑都是电子邮件转发链中的必要节点。每次普林斯顿大学下雨,网络都会断线。当雨停时,科恩就会收到一大堆提醒通知,告诉她邮件没有发出去。

当时的电子邮件还有字数与篇幅限制,科恩要把较长的论文分成两部分发送,否则也会收到海量的发送错误提示。

Image
保罗·金斯帕格

而且越发国际化的邮件转发链也给预印本的电邮流通方式带来挑战。1991年海湾战争时,受波及的以色列学者们就只能在每天的特定时间才能连上国际通讯网络。

原苏联消失时的变故也让俄语学界一时联不上网,尘埃落定后的俄语学界对断网时的预印本邮件进行了补偿式下载,结果瘫痪了多家大学的服务器。

1991年夏天,金斯帕格问科恩要不要把邮件发送的方式自动化,他能帮忙写程序。在科恩同意后的几天,金斯帕格就写好了一个程序脚本,这就是arXiv的雏形。

Image

蓝色部分为现在向arXiv投稿的国家与地区

arXiv的域名,最开始是跟着金斯帕格的职业路径在变。1991年时,金斯帕格供职于美国洛斯阿拉莫斯国家实验室,所以arXiv就储存在洛斯阿莫斯国家验室的服务器上,域名是会让圈外人浮想联翩的xxx.lanl.gov。

洛斯阿莫斯国家实验室并没有持续支持此项目的热情。到了2001 年,换雇主的金斯帕格将网站转移到新东家康奈尔大学,并更名为arXiv。直到今日,arXiv一直托管在康奈尔大学,主要由美国美国西蒙斯基金会(Simons Foundation)和国际学术机构们的资金支撑。

arXiv的困境:缺钱了


不过arXiv就和其他著名的线上知识共享项目一样,面临着相似的障碍:缺钱、人少、活多。

arXiv主要资金由西蒙斯基金会提供,此外还有来自捐助者和243个图书馆、大学、研究组织和专业协会的捐款。这种托钵化缘式的资金来源方式,在2021财年仅能为arXiv提供2,423,994美元的预算。

无怪有学界人士不平:「支撑全世界科研的arXiv预算200万美元出头,业绩乏善可陈的美国国家科学基金会预算永远不会低于70亿美元,世界真的很搞笑。」

按arXiv团队的核心成员称,人手与资金短缺的困境已经持续数年,而现在的开支仅能支持少量员工帮助196名志愿审核员每天处理来自150个分类学科1200份投稿。

Image

金斯帕格于2021年8月撰文,披露arXiv早已靠能筛选语言标记的机器学习算法来支撑人工审核。程序能在几毫秒内全面评估全文内容,包括对照整个后台数据库,检查每份新提交的文档是否有警示性字眼与重复文字。现在,arXiv大部分内部人力用于调解和裁决各种人类和AI的疏漏。

即便如此,由于审核失误,arXiv无端拒稿的负面消息仍然时有出现。最近一次是2021年8月,arXiv审核员拒绝了中国知名科学家陆朝阳和潘建伟的一篇论文,两人分别在量子研究领域贡献了多个「第一」。按意大利博洛尼亚大学理论物理学家罗伯托·卡萨迪奥的独立评估,稿件完全在合理讨论范围内,拒稿没有理由。

arXiv的科学总监称,未来不大可能在arXiv建立同侪评审,只好预计在未来几年内将审核员增加到至少300人,这样每个学科分类至少有两人负责。

arXiv重塑了世界科研的路径,希望这条路能顺畅延续下去。


参考资料:
https://news.cornell.edu/stories/2022/01/arxiv-hits-2m-submissions
https://physicstoday.scitation.org/do/10.1063/PT.6.4.20211108a/full/
https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/
https://arxiv.org/about/reports-financials

Comments

Popular posts from this blog

OWASP Top 10 Threats and Mitigations Exam - Single Select

Last updated 4 Aug 11 Course Title: OWASP Top 10 Threats and Mitigation Exam Questions - Single Select 1) Which of the following consequences is most likely to occur due to an injection attack? Spoofing Cross-site request forgery Denial of service   Correct Insecure direct object references 2) Your application is created using a language that does not support a clear distinction between code and data. Which vulnerability is most likely to occur in your application? Injection   Correct Insecure direct object references Failure to restrict URL access Insufficient transport layer protection 3) Which of the following scenarios is most likely to cause an injection attack? Unvalidated input is embedded in an instruction stream.   Correct Unvalidated input can be distinguished from valid instructions. A Web application does not validate a client’s access to a resource. A Web action performs an operation on behalf of the user without checkin...

CKA Simulator Kubernetes 1.22

  https://killer.sh Pre Setup Once you've gained access to your terminal it might be wise to spend ~1 minute to setup your environment. You could set these: alias k = kubectl                         # will already be pre-configured export do = "--dry-run=client -o yaml"     # k get pod x $do export now = "--force --grace-period 0"   # k delete pod x $now Vim To make vim use 2 spaces for a tab edit ~/.vimrc to contain: set tabstop=2 set expandtab set shiftwidth=2 More setup suggestions are in the tips section .     Question 1 | Contexts Task weight: 1%   You have access to multiple clusters from your main terminal through kubectl contexts. Write all those context names into /opt/course/1/contexts . Next write a command to display the current context into /opt/course/1/context_default_kubectl.sh , the command should use kubectl . Finally write a second command doing the same thing into ...