全球最大的论文预印本平台arXiv,要离开康奈尔大学了
发布时间:2026-03-31 13:28 浏览量:2
Cornell University 图源:wikipedia
撰文|张天祁
如果有一天,全球科研人员突然无法访问 arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理学家和AI研究者的固定习惯。许多重要研究从诞生到传播的第一站,往往不是期刊,而是这个界面朴素的预印本服务器。
然而,这个支撑全球科研交流的基础设施,在很长时间里却只是康奈尔大学图书馆中的一个项目。最近公布的计划显示,arXiv 正在准备从康奈尔大学系统中独立出来,成立一个新的非营利机构。这一变化意味着,运行了三十多年的arXiv平台,将从一个非营利项目转变成拥有独立法人地位的非营利机构。
过去arXiv也在做非营利的工作,但独立才是这次转变的题眼。正如arXiv招聘CEO的公告所强调的,“arXiv正在转变为一个独立的非营利组织。这转型将有助于加快技术开发速度、增强组织灵活性、扩大合作伙伴关系,并实现长期的财务可持续性 。独立身份使 arXiv 能够紧跟其发展的各个要素:实现基础设施现代化 、扩大学科覆盖范围,并与国际利益相关方进行更深入的互动”[1]。
从一位科学家随手搭建的小系统,到全球最大的论文预印本平台。从最初的个人服务器,到挂靠康奈尔大学图书馆的项目,再到今天的独立非营利机构。arXiv 的发展历程,本身就带着某种偶然性。
1991 年夏天,物理学家保罗·金斯伯格(Paul Ginsparg)偶然听到同行抱怨,这位同行担心自己出差时,邮箱里堆积的论文会把自己有限的磁盘配额撑爆。那时,物理学家之间交换研究成果的方式仍然主要依靠邮件列表,很多研究者甚至要等待数月才能读到同行的最新成果,而且邮件内容也不能主动选择。
金斯伯格当时在洛斯阿拉莫斯国家实验室工作。他很快写出了一套程序,建立一个中央自动化存储库和提醒系统,研究者可以把论文上传到服务器,仅根据需求向订阅者发送全文。这个系统最初的版本运行在一台 NeXT 计算机上,只是一个面向少数高能物理学家的工具。
要知道,1991年的时候万维网(World Wide Web)都还没有发明。要到一年之后,他才在同事的引荐下认识了万维网之父蒂姆·伯纳斯-李(Tim Berners-Lee),并且帮助协助测试了美国第一个 Web 服务器。后来,他也把自己发明的论文分发系统搬上了万维网。
几年之后,这个系统开始通过网页访问,并逐渐获得更广泛的用户。随着互联网在学术界迅速普及,上传论文、公开分享研究成果的方式逐渐成为一种新的研究习惯。
最初,金斯伯格计划每年接收来自高能粒子物理一个小分支的约 100 篇投稿,但其用户和范围迅速扩大,头半年就收到了 400 篇投稿。当时,这个系统仍带着一种世外桃源般的自由感,金斯伯格回忆,“在那些日子里,编辑控制几乎是不必要的,互联网仍是学术界的私人游乐场,极少受到外界干扰”[2]。
三十多年后的今天,arXiv 已经收录超过两百多万篇论文,每年新增投稿超过二十万篇。在数学、理论物理和人工智能等领域,研究成果往往会先出现在 arXiv 上,再进入期刊或学术会议的正式发表流程。
很多有影响力的论文最初都是发表于arXiv,例如俄罗斯数学家 Grigori Perelman 证明庞加莱猜想的论文。以及2017年发布的AI领域著名论文,开创如今大模型时代的《注意力即一切》(Attention Is All You Need)。
当然,一个没有同行评审的平台,也会有很多有问题的论文,比如2023年引起常温超导讨论热潮的,来自韩国科学家的论文《首个常温常压超导体》(The First Room-Temperature Ambient-Pressure Superconductor)也发表于arXiv。
近年来,AI研究的爆发让 arXiv的重要性进一步提高。许多机器学习论文在完成后几乎会立即上传,随后再提交到会议或期刊。不知不觉,arXiv已经成为了学术界的基础设施。
金斯伯格原本的设想是很快从这一事务中抽身,继续投入科学研究,可平台的扩张吞噬了他的时间。
在2011年,也就是arXiv诞生20年之际,金斯伯格曾经打算离开这个平台,当时他表示“对我而言,这个数据库本该是一次三小时的旅行,而不是终生事业。arXiv 最初的构想是完全自动化,这样就不会耽误我的研究生生涯。然而,每天与其运行相关的管理事务,往往会占用每个工作日数小时的时间,而且没有假期可言”。
至于arXiv平台,金斯伯格也认为它到了需要变革的关键节点,“20年后,看到 arXiv 稳定且成功地运行着一些原始软件,并为规模比预期大近千倍的社区提供服务,令人倍感振奋 。但在未来的某个时间点,它需要进行彻底的改革,以紧跟新的在线趋势和时机[3]”。
尽管 arXiv 在学术交流中扮演着越来越重要的角色,它的组织结构却一直比较简单,创始者金斯伯格的个人色彩也很浓。
2001 年,由于当时洛斯阿拉莫斯国家实验室气氛紧张,金斯伯格转去了母校康奈尔大学工作,那时候arXiv已经有了不小的影响力,但还是被带去了康奈尔大学,由大学图书馆负责运营。从法律意义上说,arXiv 并不是一个独立机构,而是康奈尔图书馆的一项服务。
大学图书馆看起来很适合运行一个论文平台,但是随着平台的膨胀以及时间的推移,arXiv的本身的运作变得越来越复杂,图书馆也很难给到合适的支持。不说其他的管理难题,就说代码一项,arXiv诞生于万维网出现之前,代码库不断堆叠,只是维护运营就是一个很大的工程。
而这个系统最初不过是金斯伯格随手搭建的,他根本没料到后来会面临如此复杂的运维问题。金斯伯格本人并非职业程序员,也不具备程序员的工作习惯,却长期亲自参与代码维护,同时拒绝与同事或在 GitHub 上共享代码,这反而把问题搞得更复杂了。
在接受《连线》杂志采访时,程序员出身的记者听到了金斯伯格同事的不少抱怨,于是询问他是否准备了文档,以帮助后续开发者理解新的代码库。结果他却回答“真正的程序员是不写文档的”[4]。
另外一点就是钱的问题。
2001 年,arXiv 刚刚迁至康奈尔大学图书馆 ,当时年度运营成本定为 30 万美元,由美国国家科学基金会(NSF)、美国能源部(DOE)以及洛斯阿拉莫斯国家实验室提供的资金共同覆盖 。到了2018年,arXiv年预算已经增长到了143万美元。
学术出版领域的资深专家、学术出版协会(Society for Scholarly Publishing)前主席肯特·安德森(Kent Anderson)并不看好arXiv的发展,据他测算,arXiv 的直接成本(如开发与维护)和间接成本(如基础设施、管理)的增长速度都非常快,2010–2018 年平均增速分别约为 24% 和 18%。这段时间,arXiv共亏损了 74.5万美元[5]。
从历年的预算报告来看,arXiv 大体上还能维持收支平衡。但这种平衡很大程度上建立在康奈尔大学承担大量间接成本的基础上。例如行政支持、办公空间和基础设施等,都由康奈尔提供,并以“实物捐赠”的形式计入平台的预算。arXiv免费的背后,康奈尔大学一直在为它付费。
以 2018 年为例,arXiv 当年的预算约为 143 万美元,其中间接成本就接近 45 万美元。2019 年,arXiv 公布了自己的资金来源结构。其中康奈尔大学每年为 arXiv 提供 17 万美元的直接补贴,并承担全部间接成本,这部分支持约占平台运营总支出的 37%[6]。
另一方面,作为一个对用户完全免费的学术基础设施,arXiv 的收入来源一直相对有限。为了拓宽资金渠道,2010 年康奈尔为 arXiv 引入了一套全球图书馆会员制度,向使用量较大的研究机构征求年度支持。数百所大学图书馆和科研机构根据下载量被划分为不同层级,承诺为期五年的资助,每年缴纳 1000 至 4400 美元不等的会员费,用于支持服务器运行和技术团队的维护。但整体而言,这部分收入的增长始终十分有限。
2019年,康奈尔大学将 arXiv 从学校的图书馆系统,转移到了学校的计算与信息科学部门。但根据《连线》的报道,几个月后arXiv 又被交给了其他部门,还换了一位盈利性学术出版背景的新主任,这些变化导致arXiv陷入了动荡,这段时间双方的合作并不愉快。
直到2022年,西蒙斯基金会(the Simons Foundation)承诺给予资助后,arXiv才从动荡中抽身出来,开始大规模的招聘, 此后还把代码库用Python重构了一遍。
2023 年,arXiv 从西蒙斯基金会和美国国家科学基金会获得了 1000 万美元的资助[7]。2025 年,运营arXiv康奈尔理工学院获得了 NASA 和施密特科学公司的 700 万美元资金[8]。arXiv 目前的年度预算约为 600 万美元,拥有约 27 名员工(主要在美国远程办公)。
和多年合作的康奈尔大学分开后,arXiv获得了独立非营利组织的身份,这也意味着,它不能再依赖大学体系的行政和基础设施支持。在脱离大学体系的支持后,如何长期维持自身的财务和治理稳定?这是一个娜拉走后怎么办的问题。
在肯特·安德森看来,这种变化并非孤例,而是近年来学术基础设施的一种趋势。随着资助的收紧,一些大学正在逐渐从这些理想主义色彩浓厚、但维护成本不断上升的学术平台中抽身。类似的例子还包括 2025年冷泉港实验室将运营十年的 bioRxiv 和 medRxiv 移交给新成立的非营利机构 openRxiv。越来越多的预印本服务器,正在从大学体系中分离出来,转向独立的机构治理模式[9]。
在招聘CEO的公告里,arXiv介绍资金来源时,也并没有明确提到康奈尔后续会进行实物资助,却给CEO开出了30万美元的年薪。这似乎也预示着,曾经生长在大学体系内部的arXiv,正在逐渐转向一种更加独立、并依赖基金会和社会捐赠支持的非营利模式。
参考资料:
[1] The Chronicle of Higher Education. (2025).Chief executive officer—arXiv.
[2] Ginsparg, P. (2011).It was twenty years ago today. arXiv.
[3] Ginsparg, P. (2011).ArXiv at 20. Nature, 476, 145–147.
[4] McKenzie, L. (2022).Inside arXiv—the most transformative platform in all of science. WIRED.
[5] Anderson, K. (2019).Examining the finances of arXiv. The Geyser.
[6] arXiv. (2019).arXiv sustainability and funding update.
[7] Cornell University. (2023, October).Research repository arXiv receives $10M for upgrades.
[8] Cornell Tech. (2025).arXiv receives support from NASA and Schmidt Sciences.
[9] Anderson, K. (2025). Bespoke preprint servers fade. The Geyser.