康奈尔大学研究:AI写作改变科研生态 论文增多但评审难度加大

发布时间:2025-12-25 18:44  浏览量:1

2022年底ChatGPT广泛普及后,许多研究者开始告诉同事,使用这些新人工智能工具能提高工作效率。与此同时,期刊编辑报告称,流畅撰写但科学价值不高的投稿数量激增。

康奈尔大学一项新研究表明,这些非正式报告指向科学家撰写手稿方式的更广泛变化。研究者发现,ChatGPT等大语言模型(LLMs)能提高论文产出,对非英语母语科学家的益处尤其显著。但AI撰写文本的增多也让关键决策者更难区分有意义的工作和低价值内容。

“这是一个非常普遍的模式,跨越不同科学领域——从物理和计算机科学到生物和社会科学,”康奈尔大学安·S·鲍尔斯计算与信息科学学院信息科学助理教授尹伊安(音)说,“我们当前的生态系统发生了重大转变,值得认真审视,尤其是对那些决定我们应支持和资助哪些科学的人而言。”

该研究结果发表在12月18日《科学》期刊上,论文标题为《大语言模型时代的科学产出》。

为探究LLM对科学出版的影响,尹伊安(音)团队收集了2018年1月至2024年6月期间三大预印本平台(arXiv、bioRxiv和Social Science Research Network,SSRN)上发布的200多万篇论文。这些平台分别代表物理科学、生命科学和社会科学领域,发布尚未经过同行评审的研究。

研究者将2023年前推测为人类撰写的论文与AI生成文本进行对比,构建了一个模型来标记可能使用LLM辅助撰写的论文。利用该检测器,他们估算出哪些作者可能使用LLM写作,跟踪这些科学家在采用工具前后发布的论文数量,然后检查这些论文是否后来被科学期刊接受。

结果显示,明显使用LLM与生产力跃升存在关联:在arXiv上,被标记使用LLM的科学家比未使用AI的科学家多发表约1/3的论文;在bioRxiv和SSRN上,增幅超过50%。

对英语作为第二语言、在技术工作交流中面临额外障碍的科学家而言,提升最为显著。例如,根据预印本平台不同,亚洲机构的研究者在检测器显示他们开始使用LLM后,比未采用该技术的同类研究者多发表43.0%至89.3%的论文。尹伊安(音)预计,这种优势最终可能将全球科学生产力格局转向曾受语言障碍制约的地区。

研究还指出,在文献检索和引用构建过程中存在潜在益处:当研究者寻找相关工作引用时,被描述为首个广泛采用的AI驱动搜索工具Bing Chat,比传统搜索工具更擅长呈现较新论文和相关书籍;而传统工具更可能返回较旧且被引次数更多的来源。

“使用LLM的人正在连接更多样化的知识,这可能推动更具创造性的想法,”第一作者、信息科学领域博士生Keigo Kusumegi说,他计划未来研究AI使用是否与更具创新性和跨学科的科学相关。

尽管LLM帮助个人产出更多手稿,但这些工具也让他人更难判断真正优秀的科学成果。在人类撰写的论文中,更清晰且复杂的写作(包括更长句子和更难词汇)通常是高质量研究的有用信号——在arXiv、bioRxiv和SSRN上,人类撰写且写作复杂度测试得分高的论文最有可能被期刊接受。

但对可能使用LLM辅助撰写的论文而言,这种模式有所不同:即使这些被AI标记的论文在写作复杂度测试中得分很高,也更难被期刊接受。研究者认为,这表明流畅的语言可能不再可靠反映科学价值,评审者可能会拒绝一些写作精良但科学价值不足的论文。

尹伊安(音)表示,写作质量与研究质量之间的差距可能产生严重后果:编辑和评审者可能更难识别最有价值的投稿,而大学和资助机构可能发现原始出版数量不再反映科学贡献。

研究者强调,这些发现是观察性的。下一步,他们希望通过对照实验测试因果关系,例如随机分配部分科学家使用LLM、另一部分不使用。

随着AI在写作、编码甚至生成想法方面变得越来越普遍,尹伊安(音)预计其影响力将扩大,有效将这些系统转变为一种“合作科学家”。他认为政策制定者应更新规则以跟上快速发展的技术:“现在的问题不再是‘你是否使用AI’,而是‘你具体如何使用AI,以及它是否有用’。”