康奈尔大学等发现:用更少的题目,反而能训练出更好的AI提示词

发布时间:2026-04-21 22:12  浏览量:2

这项由康奈尔大学、微软、哈佛大学与Databricks AI Research联合开展的研究,以预印本形式于2026年4月发表,论文编号为arXiv:2604.08801,有兴趣深入了解的读者可通过该编号查询完整论文。研究的核心发现颇为反直觉:在训练AI写出更好的"指令"时,用更少的练习题,效果反而比用更多题目要好得多。

要理解这项研究在做什么,可以先从一个场景说起。假设你是一位厨师,手下有一位徒弟,你想教会他如何调配一种万能调味料,让每道菜都变得好吃。每道菜就是一道"用户题目",调味料的配方就是"系统提示词",而徒弟学习调配配方的过程,就是"提示词优化"。听起来很合理,对吧?理论上,给徒弟看的菜越多,他调出来的配方应该越好。

然而,研究团队发现,现实并非如此。当徒弟同时面对大量风格迥异、口味千差万别的菜肴时,调出来的万能配方反而越来越平庸——不咸不淡,什么特色都没有。原因在于,每道菜对调味料的偏好不一样,有的菜喜欢辣,有的菜需要清淡,平均下来,配方反而失去了辨别"好"与"差"的能力。

这个研究用严谨的数学语言描述了这一现象,并提出了一个名为"p1"的方法来解决它。p1的核心思路就是:不用所有菜来训练,只挑那些能最清楚区分好配方和坏配方的菜来练习。这项研究对AI领域具有相当重要的实际意义,因为"系统提示词"如今已成为控制AI行为的关键工具,而如何高效地优化这些提示词,直接影响着AI的实际表现。

一、什么是"系统提示词",它为什么这么重要

要彻底理解这项研究,首先得搞清楚什么叫"系统提示词"。当你打开一个AI助手,比如某个客服机器人或数学辅导工具,在你提问之前,系统其实已经偷偷地给AI传达了一段"幕后指令",告诉它要表现得像个什么样的角色、用什么风格回答、遇到什么情况该怎么处理。这段幕后指令,就是系统提示词。

系统提示词的神奇之处在于,它能在不改变AI内部参数的前提下,大幅改变AI的行为。好比同一位演员,给他不同的剧本,他就能演出截然不同的角色。如果系统提示词写得好,AI回答问题的准确率可以大幅提升;写得差,AI可能会答非所问甚至犯错连连。

正因如此,"提示词优化"这一研究方向近年来受到了广泛关注。研究人员希望让AI自动去寻找最好的系统提示词,而不是依靠人工反复试验。这个过程有点像自动化地调整调味料配方,用的是"强化学习"的方法——让一个负责"出提示词"的AI不断尝试不同的写法,另一个"做题"的AI来检验哪种提示词效果更好,然后根据结果反复改进。

然而,研究团队发现,这套方法在某些任务上效果显著,在另一些任务上却几乎没有任何改善。就像同一套教学方法,教语文课很管用,教数学竞赛却毫无进展。研究的起点,正是这个令人困惑的现象。

二、发现问题:为什么有些任务根本学不动

研究团队选取了两类典型任务进行对比实验。第一类是"指令遵循"任务,也就是让AI按照严格的格式要求来回答问题,比如"用不超过三个词回答"或"回答必须以某个词开头"。第二类是"竞赛数学"任务,也就是让AI解答高难度的数学竞赛题,例如AIME(美国数学邀请赛)的题目。

实验结果非常鲜明。在指令遵循任务上,提示词优化非常成功,随着训练的进行,AI的表现持续稳步提升。而在数学竞赛任务上,提示词优化几乎完全失败——无论训练多少步,AI的成绩几乎纹丝不动,就好像在原地踏步。

为了理解这种差异,研究团队引入了一个关键分析工具:方差分解。这个概念听起来复杂,但其实就像区分"骰子本身的不确定性"和"不同骰子之间的差异"。

具体来说,当你用不同的系统提示词让AI解题,每次得到的成绩会有波动。这种波动来自两个来源:一是AI在同一个提示词下,每次回答的随机性(就像骰子每次摇出的数字不同);二是不同提示词之间真正的质量差距(就像一个六面骰和一个十面骰的本质区别)。

在指令遵循任务中,不同提示词之间的真实质量差距很大——好的提示词和差的提示词,导致AI答对的概率相差悬殊。这就像用不同的调音工具弹同一首曲子,好乐器和坏乐器的差距一听便知。而在数学竞赛任务中,提示词之间的差距极小,但AI每次回答的随机性却很大——同一道题,用同一个提示词,有时AI能解出来,有时又解不出来。这时候,区分好提示词和坏提示词就变得极为困难,就像在嘈杂的工厂里试图分辨两种音叉的音高——背景噪音太大,你根本听不出来哪个更准。

研究团队还做了一组更精细的实验:他们把AIME 2024的30道题拆开,每次只用一道题来训练,观察不同题目的学习效果。结果发现,有些单独的题目确实能产生足够大的提示词差异,用这些题单独训练时,AI的提示词质量真的得到了提升。这个发现引出了下一个关键谜题。

三、反常识的发现:更多练习题,反而学得更差

既然单独用某几道题训练是有效的,那为什么把所有30道题放在一起反而不行?研究团队深入分析后,揭示了一个颇为反直觉的机制。

随着训练数据中题目数量增加,不同提示词之间的真实差距会系统性地缩小。原因在于,不同题目对"好的系统提示词"各有偏好——对题目A有效的提示词,未必对题目B也有效,甚至可能反而让B的表现变差。当这些题目混在一起取平均时,各种偏好相互抵消,所有提示词的平均表现开始趋于相同,原本的优劣差距被"稀释"掉了。

这就好比你在调配一种万能调味料,但锅里同时有一道需要辣的川菜、一道需要甜的粤菜、一道需要酸的湘菜和一道需要清淡的素菜。你调出来的配方必然是四不像,哪道菜都不能特别突出。而如果你单独为川菜调配,辣味就能被充分放大。

研究团队用数学公式精确地描述了这一现象。当题目数量增加时,不同提示词的平均奖励差距会以一定的速率下降,而背景随机噪音的衰减速度却跟不上,导致信噪比(即有效信号相对于噪音的比例)持续恶化。如果想维持原来的信噪比,就必须以超过题目数量增长速度的比例来增加每题的采样次数,这在计算上是极其昂贵的。

相比之下,指令遵循任务的表现则大相径庭。增加题目数量时,信噪比几乎保持不变,说明这类任务中好的提示词对大多数题目都是一致地有帮助的——调味料对这些菜的偏好是高度一致的,无论加多少道菜,"好配方"始终鹤立鸡群。研究团队将这类任务称为"同质性"任务,而将像数学竞赛这样每道题偏好不同的任务称为"异质性"任务。

四、p1方法:只挑最能说明问题的题目来练习

正是基于上述分析,研究团队提出了"p1"方法。p1的名字来源于其核心思想——用极少量、但极具代表性的用户题目来进行提示词优化。

p1的工作流程分为两个阶段,可以用"选材"和"烹饪"来类比。在选材阶段,研究团队首先从提示词生成模型中随机采样一批候选系统提示词,然后把每个候选提示词分别应用于数据集中的每一道题,收集大量答题结果。这一步的目的是估算每道题在不同提示词下的答对率,以及这些答对率之间的差距。关键在于,他们要找出那些在不同提示词之间答对率差异最大的题目。换句话说,就是找出那些最能"区分好提示词和坏提示词"的题目——这些题目,就是选材时的"高区分度"食材。

在选材时,研究团队特别注意一个细节:他们不是直接计算不同提示词答对率的方差,而是要减去因随机性带来的那部分"假方差",只保留真正反映提示词质量差异的那部分。这就像在评比厨师手艺时,要把厨房温度波动造成的菜品差异扣除掉,只看厨师本身技术水平带来的差异。

完成选材之后,就进入"烹饪"阶段:只用选出来的少数题目来训练提示词生成模型,训练方式和常规的强化学习方法完全一样,但因为题目少了,每道题可以分配更多次的采样,从而让每一步训练都有更清晰的学习信号。

p1方法的默认设置非常激进:Ktop(保留的题目数量)默认为2,也就是说,从30道AIME题中只保留2道来训练。这个数字在直觉上很难接受,但实验结果证明它是有效的。

五、实验结果:两道题打败了三十道题

研究团队在多个基准测试上对p1方法进行了系统评估,对比的基线方法包括全数据集强化学习(RL)和一种叫做GEPA的进化式提示词优化方法。

在数学竞赛任务上,结果非常清晰。用全部30道AIME 2024题目训练的强化学习方法,最终在AIME 2025测试集上的准确率约为47%,几乎与未经任何训练的基础模型相当,说明优化几乎没有产生效果。GEPA方法的表现同样如此,不管用什么数据分配方式,准确率都在47%上下徘徊。

而p1方法,仅仅用AIME 2024中的第1题和第23题(两道被识别为高区分度的题目)来训练,在AIME 2025上的准确率达到了54%,比基础模型提升了约7个百分点,是所有方法中最高的。不仅如此,这一提升还跨越了多个测试集:在AIME 2026上从54%上升到62%,在HMMT(哈佛-MIT数学锦标赛)2025和2026上也分别取得了明显的进步。

更令人印象深刻的是,研究团队还把用Qwen3-4B模型优化出来的系统提示词,直接拿去用在体量更大的Qwen3-30B模型上,发现同样能带来性能提升。这意味着p1找到的提示词并不是针对特定模型的"作弊技巧",而是能够泛化的、真正有效的思维引导策略。

相比之下,GEPA方法生成的系统提示词内容非常具体,充满了针对特定题目类型的详细数学知识点,比如专门针对某类几何问题的解法步骤,甚至包含了具体的计算结果。这种提示词明显是对训练数据的"记忆"而非"理解",自然无法推广到新题目上。而p1生成的提示词内容则更为普适,主要是关于如何组织思路、如何展开推理过程的一般性引导,更像是教会AI一种思维方式,而非背诵具体答案。

在指令遵循任务上,情况则完全相反。全数据集强化学习方法和GEPA方法都取得了明显的提升,将IFBench测试集的准确率从35%提升到了约39%。而p1方法在这一任务上表现欠佳,当题目减少到极少时,模型容易过拟合到那几道题上,在更广泛的测试集上的表现反而下降。这一结果恰好印证了研究团队的理论分析:对于同质性任务,用更多数据训练是有益的,因为学习信号本来就强且一致。

六、为什么p1找到的提示词能推广,而GEPA找到的不能

这个问题的答案其实藏在两种方法的优化目标差异里。GEPA是一种进化式方法,它通过反复修改和筛选提示词来改进,这个过程天然倾向于把训练集的特征"编码"进提示词里——就像考前背题,背的内容越具体,考场上遇到原题就越有把握,但遇到新题就越束手无策。

而p1通过强化学习来优化提示词生成策略,由于训练信号更清晰、更纯粹(因为排除了会稀释信号的题目),模型能更顺畅地向"真正好的提示词"方向移动,而不是被噪音拉着原地转圈。这就好比在寂静的环境里练习辨音,比在嘈杂环境里更容易找准音调。

从生成的提示词内容来看,p1优化出的最佳提示词(AIME 2025准确率54%)主要要求AI以"流水账式的原始思维"展开推理过程——不用格式化的段落,不用数学符号,就像人在脑子里自言自语一样,把每个想法、每个试错、每个疑问都写下来,最后才给出答案。这种风格让AI能充分探索解题路径,而不是过早收敛到某个可能错误的方向上。另一个p1找到的有效提示词(准确率50%)则反其道而行之,要求AI表现得像一个混乱、缓慢、犯错连连的人类思维过程,充满错误猜测和死胡同。尽管这个风格听起来匪夷所思,但它同样让AI在推理时更加"放松",减少了过于自信的快速跳步。

这两种风格表面上看起来截然相反,但背后的逻辑是一致的:它们都在引导AI进行更充分、更深入的思维展开,而不是走捷径。

七、数学背后的逻辑:信号与噪声的博弈

对于希望深入理解这项研究的读者,研究团队在论文中提供了完整的数学推导,这里用直觉性的语言加以解释。

当我们用N个候选提示词去评估,每个提示词用K道题、每题采样M次来估算其表现时,观察到的总体波动(方差)可以被分解为两部分:来自随机采样的"噪音方差"和来自提示词本身质量差异的"信号方差"。

噪音方差与1/(KM)成反比——即题目数量和采样次数的乘积越大,噪音越小。信号方差则是各提示词真实表现之间的差距,与K和M无关,但在异质性数据集上,随着K增大,信号本身会系统性地缩小(因为偏好相互抵消)。

这就产生了一个根本性的矛盾:在异质性数据集上,增加题目数量K虽然能降低噪音,但同时也在压缩信号,导致信噪比并不能改善,甚至可能恶化。而p1通过主动筛选高信号题目,在不牺牲信号的前提下保持了足够低的噪音,从根本上破解了这个困境。

研究团队还通过实验验证了这一理论:他们单独对AIME 2024的10道不同题目进行训练,测量每道题的提示词差异度(信号方差),结果发现训练奖励的改善程度与这个差异度之间呈现清晰的线性正相关关系——差异度越高的题目,训练越有效。这一结果完美地支持了理论预测。

八、这项研究的局限与未来方向

研究团队在论文中也诚实地指出了几个值得关注的局限性。首先,整个理论分析建立在"奖励是0或1的二元值"这一假设上,而现实中的很多任务会给出连续的评分,这类情况下的方差分解和最优题目选择策略还需要进一步研究。其次,虽然实验结果表明用少数高区分度题目训练出的提示词能够泛化到更广泛的测试集,但研究团队坦言,目前还没有完整的理论来解释什么条件下这种泛化能够成立——这是一个留给未来研究的重要开放问题。

此外,p1方法在选题阶段需要对所有候选题目进行大量采样,这本身也是有计算成本的。当数据集非常大时,如何高效地找到高区分度题目,可能需要更巧妙的近似方法。

---

说到底,这项研究传达了一个非常朴素的道理:学习的效率不在于做了多少题,而在于做了什么题。在AI提示词优化这个具体问题上,盲目堆砌训练数据不仅无益,甚至有害;真正有价值的是找到那些能最清楚地揭示质量差异的例子,专注地从它们身上学习。这个道理或许对人类学习同样适用——与其漫无目的地刷题,不如精准地找到最能检验薄弱点的题目来练习。

对于使用大型语言模型的从业者而言,这项研究提供了一个实用的思路:当提示词优化效果不佳时,问题很可能不在于算法本身,而在于训练数据的选择。通过评估哪些样本对不同提示词最敏感,可以用极少的计算资源获得显著的优化效果。有兴趣复现或扩展这一方法的读者,可以通过arXiv:2604.08801获取完整论文和技术细节。

---

Q&A

Q1:提示词优化为什么在数学竞赛题上效果差,在指令遵循任务上效果好?

A:核心原因是两类任务的"异质性"不同。在数学竞赛中,不同题目对系统提示词的偏好差异很大,有的题喜欢A提示词,有的题喜欢B提示词,混在一起平均后,各提示词的表现趋于相同,优化算法就无从辨别好坏,学习信号被"稀释"掉了。而指令遵循任务中,好的提示词对大多数题都一致地有帮助,信号清晰,优化自然有效。

Q2:p1方法是如何挑选"高区分度题目"的?

A:p1首先随机采样一批候选系统提示词,然后让每个提示词在所有候选题目上大量作答,估算出每道题在不同提示词下的答对率差异。关键是要减去纯粹由随机性造成的"假差异",只保留真正反映提示词质量差距的部分。差异最大的题目就是最能区分好坏提示词的题目,p1会选出这些题目用于正式训练。

Q3:p1训练出的系统提示词为什么能迁移到没见过的题目和更大的模型?

A:因为p1找到的是能激发模型充分展开推理过程的通用引导策略,而不是针对特定题型的具体知识。实验表明,p1生成的提示词主要引导模型以更自然、更充分的方式思考,这种思维方式对新题目和体量更大的模型同样有效,而不像GEPA那样把训练集的具体内容"记忆"进提示词里。