Google与康奈尔用1726篇论文测试大模型理解科学的极限

发布时间：2026-03-18 12:13 浏览量：17

编辑丨&

在过去几年里，大语言模型已经在写作、编程和知识问答上展示出惊人的能力。它们可以总结论文、解释概念，甚至提出科研假设。

但一个关键问题始终存在：

当面对真正的科学研究问题时，这些模型是否真的「理解」科学？

为了回答这个问题，Google Research 与康奈尔大学的一组物理学家设计了一场不同寻常的实验：不是用考试题，也不是用标准 AI benchmark，而是直接把

真实的科学研究问题

交给大语言模型。

他们选择的测试领域是

高温超导

。这个研究方向拥有几十年的理论争论、复杂的实验结果以及大量彼此矛盾的解释，被认为是凝聚态物理中最难理解的问题之一。如果一个 AI 模型真的能够理解科学文献，那么它应该能在这样的领域中给出接近专家水平的回答。

于是，一场前所未有的测试开始了。

这些研究内容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」为题，于 2026 年 3 月 10 日发布在《Proceedings of the National Academy of Sciences》。

论文链接：https://www.pnas.org/doi/10.1073/pnas.2533676123

专家级科学考试

高温超导是自 1987 年诺贝尔奖发现以来的一个开放研究领域。本次研究案例中的铜酸盐便是已知的相关材料之一。它可在远高于传统超导材料的温度下导电零电阻的电子（即使最高温度阈值仍为 -140℃），理解这种行为背后的机制，可能有助于发现更多具有类似性质的化合物，甚至可能在更高温度下，并为更多应用铺平道路。

研究团队邀请了共计六个大型语言模型，包括四个完全访问网络的模型与两个封闭系统。他们首先构建了一套高度专业化的知识基础，整理了

1,726 篇关于铜氧化物高温超导体（cuprates）的研究论文

，覆盖这一领域几十年的实验和理论成果，并在此基础上设计了一组

67 个专家级研究问题

。

图示：封闭系统的创建。

这些问题将在六个指标上对模型进行评判：

平衡视角

：是否考虑了不同的科学观点。

全面性

：事实深度且不遗漏相关实验。

简洁

：提供简明明快的答案。

证据

：有证据支持，并附有来源链接。

视觉相关性

：任何提供图像的质量（适用于持续包含图像的两个大型语言模型）。

定性反馈

：开放式专家评论。

图示：文献数据库的组成。

AI 能读懂论文，但不一定理解科学

实验结果呈现出一个耐人寻味的图景。

在某些问题上，大语言模型确实表现出令人印象深刻的能力。它们能够快速总结多篇论文的结果，提取关键实验结论，并组织出结构清晰的回答。尤其是在使用检索增强系统（RAG）的情况下，一些模型的表现甚至超过了传统闭源模型，在多个指标上取得更高评分。

图示：六名大型语言模型在回答专家提出的问题时的平均得分。

不过，尽管 RAG 系统表现更优，但专家们在评估中指出了所有模型的共同且严重的局限性，揭示了它们与「真正理解」的差距：模型常能找到包含相同关键词的论文，却无法建立概念上的联系；模型会不加区分地引用早期和近期的文献，无法识别出某些早期结论已被后续研究修正。

最后，所有模型都有一个显著的短板：虽然自定义 RAG 系统能返回相关图片，

但它无法像人类专家那样，从图像的坐标轴、刻度、标尺、图注和曲线趋势中定量地提取信息并进行推理

。

通向可信 AI 科学助手的漫漫长路

尽管当前模型仍存在局限，这项研究并不意味着 AI 在科学研究中没有价值。

事实上，AI 可以协助浏览大量文献，总结实验结果。在材料科学等领域，一些研究已经开始利用 LLM 从论文中自动提取实验数据，并构建新的材料数据库。这些工作表明，AI 可能成为科学发现流程中的一种新工具，但真正的科学推理仍然需要人类专家的参与。

相关链接：https://research.google/blog/testing-llms-on-superconductivity-research-questions/

标签：康奈尔科学 google 模型论文

上一篇：连丢三单刀姆布拉破门脱鞋吐槽云南玉昆主场首秀暴露隐患
下一篇：专业跑鞋界的黑马：乐途碳板跑鞋实测体验

Google与康奈尔用1726篇论文测试大模型理解科学的极限

相似文章

资讯分类

热门资讯

热门标签

热门产品