Google与康奈尔用1726篇论文测试大模型理解科学的极限

发布时间:2026-03-18 12:13  浏览量:1

编辑丨&

在过去几年里,大语言模型已经在写作、编程和知识问答上展示出惊人的能力。它们可以总结论文、解释概念,甚至提出科研假设。

但一个关键问题始终存在:

当面对真正的科学研究问题时,这些模型是否真的「理解」科学?

为了回答这个问题,Google Research 与康奈尔大学的一组物理学家设计了一场不同寻常的实验: 不是用考试题,也不是用标准 AI benchmark,而是直接把

真实的科学研究问题

交给大语言模型。

他们选择的测试领域是

高温超导

。这个研究方向拥有几十年的理论争论、复杂的实验结果以及大量彼此矛盾的解释,被认为是凝聚态物理中最难理解的问题之一。如果一个 AI 模型真的能够理解科学文献,那么它应该能在这样的领域中给出接近专家水平的回答。

于是,一场前所未有的测试开始了。

这些研究内容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」为题,于 2026 年 3 月 10 日发布在《Proceedings of the National Academy of Sciences》。

论文链接:https://www.pnas.org/doi/10.1073/pnas.2533676123

专家级科学考试

高温超导是自 1987 年诺贝尔奖发现以来的一个开放研究领域。本次研究案例中的铜酸盐便是已知的相关材料之一。它可在远高于传统超导材料的温度下导电零电阻的电子(即使最高温度阈值仍为 -140℃),理解这种行为背后的机制,可能有助于发现更多具有类似性质的化合物,甚至可能在更高温度下,并为更多应用铺平道路。

研究团队邀请了共计六个大型语言模型,包括四个完全访问网络的模型与两个封闭系统。他们首先构建了一套高度专业化的知识基础,整理了

1,726 篇关于铜氧化物高温超导体(cuprates)的研究论文

,覆盖这一领域几十年的实验和理论成果,并在此基础上设计了一组

67 个专家级研究问题

图示:封闭系统的创建。

这些问题将在六个指标上对模型进行评判:

平衡视角

:是否考虑了不同的科学观点。

全面性

:事实深度且不遗漏相关实验。

简洁

:提供简明明快的答案。

证据

:有证据支持,并附有来源链接。

视觉相关性

:任何提供图像的质量(适用于持续包含图像的两个大型语言模型)。

定性反馈

:开放式专家评论。

图示:文献数据库的组成。

AI 能读懂论文,但不一定理解科学

实验结果呈现出一个耐人寻味的图景。

在某些问题上,大语言模型确实表现出令人印象深刻的能力。它们能够快速总结多篇论文的结果,提取关键实验结论,并组织出结构清晰的回答。尤其是在使用检索增强系统(RAG)的情况下,一些模型的表现甚至超过了传统闭源模型,在多个指标上取得更高评分。

图示:六名大型语言模型在回答专家提出的问题时的平均得分。

不过,尽管 RAG 系统表现更优,但专家们在评估中指出了所有模型的共同且严重的局限性,揭示了它们与「真正理解」的差距:模型常能找到包含相同关键词的论文,却无法建立概念上的联系;模型会不加区分地引用早期和近期的文献,无法识别出某些早期结论已被后续研究修正。

最后,所有模型都有一个显著的短板:虽然自定义 RAG 系统能返回相关图片,

但它无法像人类专家那样,从图像的坐标轴、刻度、标尺、图注和曲线趋势中定量地提取信息并进行推理

通向可信 AI 科学助手的漫漫长路

尽管当前模型仍存在局限,这项研究并不意味着 AI 在科学研究中没有价值。

事实上,AI 可以协助浏览大量文献,总结实验结果。在材料科学等领域,一些研究已经开始利用 LLM 从论文中自动提取实验数据,并构建新的材料数据库。这些工作表明,AI 可能成为科学发现流程中的一种新工具,但真正的科学推理仍然需要人类专家的参与。

相关链接:https://research.google/blog/testing-llms-on-superconductivity-research-questions/