预印本平台arXiv“单飞”,为何告别合作25年的康奈尔?

发布时间:2026-04-03 15:00  浏览量:1

导读:

创立近35年的 arXiv,是全球最大的开放科学论文预印本平台。该平台不久将脱离合作25年的康奈尔大学,转向独立运营。

黄磊|撰文

陈晓雪|编辑

2026 年 7 月 1 日,全球最大的预印本平台 arXiv 将正式脱离康奈尔大学,结束 25 年的共生关系,从大学附属项目转型为独立非营利组织。

这个即将迈进35岁的网站,曾是物理学家解决邮件塞爆痛点的“小发明”,开创了预印本的先河,如今已是学术界的一个重要基础设施,托管着近240万篇论文、涵盖物理学、数学、计算机科学、定量生物学等领域,每月下载量逾千万。

但面对AI 垃圾论文轰炸、架构制约,不可避免地, arXiv 来到了转型的十字路口。单飞之后,arXiv能否续写传奇?

红白黑的配色,简朴的页面设计,按学科分类的检索页面,arXiv 的克制和朴素,仿佛亘古不变。即便移动互联网早已重塑了人们获取信息的方式,这里依然停留在千禧年。

但在学术界,arXiv 是几乎无人不知的存在。

1991 年的欧美高能物理界,学者靠邮件交换预印本,但海量稿件很快让科研邮箱不堪重负。美国物理学家 Paul Ginsparg 在洛斯阿拉莫斯国家实验室搭起了一个简单的邮件服务器,域名 xxx.lanl.gov。没人能想到,这个最初预计年收百篇论文的小平台,首月就迎来近百篇投稿,弦理论大师 Ed Witten 的入驻,更让它迅速获得学界认可。

这便是 arXiv 的雏形。从 FTP 访问到适配万维网,从仅服务高能物理到纳入数学、计算机科学,arXiv 的成长势不可挡。2001 年,因洛斯阿拉莫斯国家实验室对该平台的扩张兴趣寥寥,Ginsparg 将它迁至康奈尔大学,正式定名arXiv.org,先是挂靠于大学图书馆,2019年管理权转到计算与信息科学学院。康奈尔的服务器、场地和学术声誉,再加上学术界对于研究交流的需求与日俱增,arXiv 迎来腾飞。2001年,Ginsparg也因这一创举获得麦克阿瑟基金会的天才奖。

arXiv创始人Paul Ginsparg。图源:维基百科

此后 25 年,arXiv 完成了从单一学科工具到全球学术基础设施的跨越:收录的论文量从数万篇增加到近 240 万篇,全球 270 多家机构成为会员,“先传 arXiv,再投期刊” 成了数学、物理、计算机等领域的科研常态。新冠疫情期间,全球病毒学研究者通过它快速分享成果,更让世界看到预印本平台在应急科学传播中的硬核价值。

传统期刊审稿动辄数月、甚至数年,而arXiv即时发布、开放获取、无同行评审门槛,这一模式,让科研成果跳过层层审核,第一时间抵达全球研究者手中。

不必再苦等顶级期刊认可,青年学者只需将创新成果上传 arXiv,就能凭学术价值获得关注。许多 AI 领域的年轻研究者,正是通过这里发布前沿算法,被顶尖高校和科技公司相中。而 arXiv 的多元评价维度,更让学术影响力不再唯期刊引次数论——论文的下载量、收藏量、跨领域应用,都成了衡量价值的标尺。

研究显示,计算机领域论文若早期在 arXiv 提交,五年内平均可多获 21.1 次引用,修订版本也能多获 18.4 次引用,让科研人员得以专注研究本身。

arXiv对于文章动态版本的管理,也让科研回归本质,从展示最终成果变成记录研究过程。一篇论文从 v1 到 v3 的迭代,清晰呈现着结论的完善与修正。论文附带 GitHub 链接、唯一的arXiv ID 成为通用引用标准,更让它构建起强大的第三方生态,成为产学研融合的重要桥梁。

“它就像我们这个领域的脊椎骨(backbone)。”在《科学美国人》的一篇报道中,欧洲核子研究中心(CERN)科学信息服务部门负责人亚历克斯·科尔斯(Alex Kohls)如此评价arXiv的地位。“它不仅是物理学家和计算机科学家的工具,也对整个学术交流过程产生了影响。”

“如果有人对我的解法感兴趣,内容都在那里,可以自行查阅”。传奇俄罗斯数学家佩雷尔曼(Grigori Perelman),其证明

庞加莱猜想

的论文迄今为止仍然仅发表于arXiv。(参见:他为何拒绝菲尔兹奖?)

从2001年到2026年,arXiv与康奈尔的共生关系,成就了今日的 arXiv,一个持续膨胀的学术宇宙。其收录论文的学科版图涵盖了物理学各个子领域,包括混沌动力学、无序系统和神经网络以及组合数学,甚至还延伸到了计算机科学、定量生物学、定量金融、统计学、电气工程与系统科学以及经济学。

随之而来的,是成长的烦恼。

运营压力首当其冲,每月2.4万篇的新增投稿,让服务器、带宽成本持续攀升。arXiv长期维持去中心化的轻资产运营模式。自2022年以来,仅有的27 名全职员工,带领 200 余名全球志愿审核员,要服务全球数十万研究者,人手短缺问题日益突出。另外,志愿审核员也缺乏制度化激励,部分领域审核效率下降,稿件审核周期从数小时延长至数天。

AI 时代的质量危机更令人担忧。“AI Slop” ,即大语言模型生成的低质论文疯狂涌入,让 arXiv 原有的初审模式难以招架。这些稿件看起格式规范、语言流畅,却缺乏实质贡献,甚至伪造数据、乱引文献。最著名的一个案例来自2023年,韩国研究者在arXiv上连发两篇论文,声称实现常压室温超导,最终被中科院物理所、德国马普所和美国普林斯顿等机构分别证伪,韩国团队承认严重学术不端行为。(参见:“室温超导体”LK-99乌龙事件始末)2024 年,arXiv拒稿率从 2%-3% 飙升至 10%,计算机综述类论文正是审核的重灾区。

而康奈尔的行政架构,也成了 arXiv 发展的枷锁。作为院系下属项目,arXiv 的人事招聘、技术升级都要走大学层层审批流程。例如,2024年,arXiv亟需将服务器迁至云端以提升速度,仅审批程序就需数月。系统的更新要招聘互联网专业人才,而受限于大学的编制和薪酬体系,导致平台界面和技术体验长期被诟病“老旧”。2022年,arXiv 科学总监 Steinn Sigurdsson在接受《科学美国人》采访时,曾如此描述这一处境:“我们就像一辆老爷车,锈迹终于显现出来,活塞也磨损了。”

而在资金层面,arXiv 的运营资金需与大学其他科研项目竞争。尽管其资金自给率已经达到37%,2025 年还是出现 29.7 万美元的运营赤字,最终由康奈尔大学弥补,并另获价值 81.9 万美元的实物支持。

arXiv在寻求外界资助时,还面临着有关中立性的质疑。作为服务全球的公共平台,长期挂靠康奈尔让它难逃机构偏向的疑虑。根据《科学》杂志的报道,部分机构担心如果把支票寄给康奈尔大学,这笔钱究竟能不能真正流入arXiv的账户。另外,依附于美国顶尖大学的身份,也让arXiv在国际学术交流中面临尴尬,不利于全球化发展。

内外压力交叠之下,arXiv 走向独立成了必然。这并非孤例。受 arXiv启发创立的生物预印本平台 bioRxiv、医学预印本平台 medRxiv,此前也因相似原因,从冷泉港实验室剥离,并入独立非营利机构 OpenRxiv。

创始人Paul Ginsparg的退休规划,为这场转型提供了契机。这位为 arXiv 付出 35 年心血的创始人,希望通过独立治理让平台摆脱对个人的依赖,实现制度化运营。

2023 年,arXiv 启动治理结构改革,撤销原有委员会,成立三大咨询理事会:编辑咨询理事会把控内容审核规则,机构咨询理事会为可持续运营献策,科学咨询理事会研判学科发展趋势,三者相互制衡,为独立奠定了治理基础。同时,arXiv 构建起 “会员费 + 基金会捐赠 + 机构资助” 的多元资金体系,2025 年施密特科学与 NASA 联合追加的 700 万美元赠款,为技术升级提供重要支撑。

在内容质量管控上,为应对 AI 低质论文,arXiv 也做了布局。2025 年 11 月起,不再接收未经期刊或会议审核的计算机科学综述类文章,大幅减少了 AI 垃圾稿件;同时加大自动化审核工具研发,用 AI 识别 AI 生成论文、伪造数据,提升审核效率。

与康奈尔制定的过渡计划,力求这场转型无缝衔接。康奈尔将在 1-2 年内继续提供技术支持,arXiv 的域名、投稿流程、检索方式均保持不变。正如康奈尔科技学院院长 Greg Morrisett 所言:希望“让全球研究者感受到的,只有平台的持续优化,没有转型的混乱。”

独立后的 arXiv 将继续坚持双向免费,让发展中国家科研人员平等接触前沿成果,打破学术资源的地域和机构壁垒;而“预印本首发、同行评审后置”的模式,也将进一步倒逼传统学术期刊转型。

当然,独立后的 arXiv 也面临着挑战:资金可持续性仍是最大风险,如何在资金压力下坚守公益属性,避免数据商业化,是学术界的核心担忧。AI时代,arXiv 作为计算机科学论文的核心资源库,对大语言模型训练具有极高的商业价值,若未来面临资金压力,是否会放弃公益属性,与科技公司合作进行数据商业化,这成为学术界担忧的核心问题。更为严重的是,类比医学领域的事件,1967年美国糖业协会资助哈佛学者,在《新英格兰医学杂志》发表论文,刻意弱化糖对心血管的危害,将饱和脂肪塑造成心脏病主因,误导学界与膳食指南近 50 年,英国医学杂志也曾报导《柳叶刀》揭开药企阿斯利康不合规赞助研究论文等,这一幕是否会在资金短缺的arXiv重演?此外,在保持开放和提升质量之间找到平衡,为不同学科制定精细化审核规则,考验着平台的智慧;去中心化治理结构虽能保障中立,却也可能导致决策效率降低。

但正如 Paul Ginsparg 所说:“arXiv 从来不是我一个人的平台,而是属于全球所有科研人员的公共财富。”

这位创始人在退休信中写下的期许,更是 arXiv 前行的方向:“真正的革命不在技术,而在人心。当科学家愿意放下对发表权的执念,真正的创新才会来临。”

作者简介:

黄磊,《赛先生》科学写作小组成员,香港大学经管学院-北京大学光华管理学院联培管理学博士,同济大学自动控制硕士,目前在互联网企业从事数字营销相关业务管理工作。

参考文献:

[1] https://www.gairdner.org/resource-hub/2026-canada-gairdner-award-winners

[1] ArXiv, the pioneering preprint server, declares independence from Cornell.

[2] https://jobs.chronicle.com/job/37961678/chief-executive-officer/

[3] https://www.firstprinciples.org/article/the-arxivist-paul-ginsparg-on-the-founding-and-future-of-the-world-s-physics-repository

[4] https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/

[5]nhttps://arxiv.org/html/1108.2700v2

[6] https://pmc.ncbi.nlm.nih.gov/articles/PMC8335983/

[7] Nature:LK-99 isn’t a superconductor — how science sleuths solved the mystery

[8] Ramin Zabih on the Future of arXiv. https://www.ams.org/journals/notices/202509/noti3244/noti3244.html?type=.html

[9] Reclusive mathematician rejected honors for solving 100-year-old math problem, but he relied on Cornell's arXiv to publish.

[10] https://news.cornell.edu/stories/2006/09/proof-100-year-old-math-problem-posted-exclusively-arxiv

[11] MIT科技评论:arXiv宣布“单飞”!和康奈尔大学合作25年后,转型为非营利组织

[12] BMJ. 2003 Nov 1;327(7422):1005. Lancet accuses AstraZeneca of sponsoring biased research. https://pmc.ncbi.nlm.nih.gov/articles/PMC261683/

[13] Effects of Research Paper Promotion via ArXiv and X. https://arxiv.org/abs/2401.11116

[14] Lessons from arXiv’s 30 years of information sharing. Nature Reviews Physics, 2021