跟着大年夜说话模型范围和预练习强度的赓续晋升,强化进修在后练习阶段的角色正在产生奥妙变更。
一方面,它仍然是当前晋升模型推理才能和多步决定计划表示的关键技巧手段;另一方面,越来越多的经验性成果注解,在很多义务上,强化进修带来的机能晋升往往难以与“新才能的形成”直接划等号。
进一步的对比实验显示,仅供给组合练习数据并不足以产生这种才能。研究团队在完全雷同的二层组合数据上,用监督进修替代强化进修进行练习,发明这个模型在三层组合义务上的精确率始终处于极低程度,甚至在同一难度但函数不合的二层组合测试中也表示不稳定。
尤其是在 pass@k 等评测指标下,强化进修模型与基本模型之间的差距经常跟着采样数的增长而敏捷缩小,这使得一种不雅点逐渐占据优势:强化进修可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的才能界线。
问题在于,这一断定本身并不轻易被验证或辩驳。天然说话义务中,技能界线高度交错,模型在预练习阶段所接触的数据分布几乎无法完全清除,使得机能变更很难被明白归因于才能构造的改变。在如许的情况下,关于强化进修是否“教会模型新才能”的评论辩论,往往逗留在指标层面的解释差别,而缺乏一个可以或许清楚描述技能、控制义务难度并清除干扰身分的实验基本。
论文地址:https://arxiv.org/pdf/2509.25123
当说话模型开端真正「会组合」
研究的实验成果注解,在合适的鼓励前提下,强化进修可以或许使大年夜说话模型获得此前并不存在的新才能,而不仅仅是对已有谜底进行重排。
这种新才能具体表现为一种体系性的技能组合才能,即模型可以或许将已经控制的原子技能按照构造化方法进行组合,并将这一组合策略泛化到更高难度的问题,甚至迁徙到完全不合的义务中。
研究中经由过程设计 20 余个“非惯例”字符串操作函数,将「函数成果猜测」作为义务。为彻底清除预练习语料污染及模型语义联想(即根据函数名盲猜代码逻辑)的影响,所有函数均采取随机定名的无意义字符串。研究核心在于比较以下两种才能:
原子才能:手印型在不依附 Prompt 中函数定义的前提下,精确猜测单一函数f(x)输出的才能。
组合才能:手印型猜测多层复合函数(如 f(g(x)))履行成果的才能。
因为函数随机定名,没有模型具备该义务的原子才能。是以为了零丁练习模型在该义务上的原子才能,在数据收集阶段,研究者起首在 Prompt 中供给明白的函数定义以及单函数的输出猜测标题,获取模型生成的思维链与猜测成果,且仅保存精确样本。
随后在 SFT(监督微调)阶段,研究者移除了 Prompt 中的函数定义,让模型进修本来的思维链与猜测成果。经由过程这种练习方法,模型被强迫将函数逻辑内化至参数空间,从而在不查阅定义的情况下控制“原子才能”,为后续评估复杂的“组合才能”奠定基本。
研究人员在对拥有了原子才能的SFT模型进行强化进修练习,经由过程改变强化进修阶段供给的标题难度(仅单函数、仅二层嵌套函数、单函数与二层嵌套函数混淆),不雅察模型在三层、四层甚至更深层次的组合问题上的测试机能(这些问题在练习中从未出现过,且所涉及的原子函数本身也未在强化进修阶段见过),研究人员发明仅在单函数长进行强化进修的模型,在三层及以上组合义务上的精确率几乎为零,而一旦练习数据中包含最基本的二层嵌套函数,模型在三层组合上的精确率可晋升至约 30%,在四层组合上仍保持约 15%,并在更高层级上持续明显优于随机程度。
这注解模型并非依附有时猜测或记忆模板,而是学会了一种可递归应用的组合策略;假如强化进修仅仅激活或重排已有推理模式,这种随组合深度增长仍能发挥感化的行动是难以解释的。

比拟之下,强化进修模型不仅可以或许稳定解决二层组合问题,还能体系性地外推到更深层的组合义务,解释真正起关键感化的是强化进修所引入的成果驱动、摸索机制与策略更新过程,它们合营促使模型形成新的推理构造。
恰是在如许的背景下,清华大年夜学的孙茂松、刘知远团队提出了《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old>

研究还经由过程跨义务实验验证了这种组合才能的通用性:假如模型在A、B义务上进修了原子才能,仅在A义务长进行合适的组合才能强化进修,模型就能将该才能泛化至B义务上。在SFT阶段,除了先前说起的函数输出猜测义务,研究人员混入了另一个义务,Countdown义务的SFT数据,以使得模型同样具备Countdown义务的原子才能。而在强化进修阶段,仍然只在包含二层嵌套函数的输出猜测义务长进行强化进修。
测试成果显示,尽管未在Countdown义务长进行强化进修,仅在复合函数输出猜测长进行强化进修后的模型在多步Countdown义务上的表示也取得了明显晋升。这注解强化进修获得的并非特定于字符串义务的技能,而是一种可以或许组织和调剂已有原子技能的通用才能,即一种元技能。然而,这一迁徙也是有前提的,在其他义务上学到的组合才能并不克不及泛化到模型不具备原子才能的义务上,即SFT阶段假如未进修Countdown的原子才能,模型在强化进修后无法完成Countdown义务。

针对“强化进修只是将 pass@k 紧缩为 pass@1”的不雅点,研究人员进一步分析了不合难度义务下的表示差别,发明这个现象重要涌如今简单问题中。在低难度义务上,基本模型本就可以或许经由过程多次采样获得精确谜底,强化进修的感化确切重要表现为重排。

而在高难度组合义务中,基本模型即使在极大年夜采样预算下仍表示不佳,强化进修模型的优势却跟着采样数增长而赓续扩大年夜。研究团队据此指出,这种“强化进修只是重排”的结论在必定程度上是一种评测假象。
最后,缺点类型分析注解,强化进修带来的变更并不仅表如今精确率上,而是表如今模型行动构造的根本改变上。基本模型、监督进修模型以及仅进行原子强化进修练习的模型,其重要缺点来源于忽视组合构造或误会嵌套关系。
而经由组合义务强化进修练习的模型,其缺点更多来自原子步调的履行掉误,而非对整体组合构造的误会。这解释强化进修起首教会模型精确懂得和履行组合构造,即使掉败,也掉败在更低层级,从而表现出一种认知层面的变更。

从模糊才能到可量化技能
为了包管研究结论具有高度可托性,研究团队在实验设计长进行了近乎教科书级的严格控制。
研究人员没有直接采取天然说话义务,而是选择了字符串变换函数作为研究载体,重要原因在于天然说话义务中技能界线往往模糊不清,模型表示轻易受到预练习语料的潜在污染,同时也难以明白断定模型毕竟学会了何种才能。雷峰网("大众,"号:雷峰网)
比拟之下,字符串变换函数具有行动完全肯定、复杂度可以被严格控制以及可以或许工资构造模型在预练习阶段几乎弗成能接触过的义务等优势,从而为分析强化进修是否产生新才能供给了一个干净且可控的实验情况。
在这一框架下,研究人员对“技能”给出了清楚而可操作的定义。原子技能被定义为在给定输入的情况下,模型可以或许精确猜测单个函数感化后的输出,而组合技能则手印型在面对嵌套函数时,可以或许精确揣摸多个函数次序感化后的最终成果。技能难度由函数嵌套的深度直接描述,这使得“新技能”不再是抽象或主不雅的概念,而成为可以被精确考验和逐层分析的研究对象。
在练习流程上,研究团队采取了两阶段设计,克意将“控制单个技能”和“学会组合技能”这两个过程分别。第一阶段应用监督进修练习模型,使其充分控制每一个字符串变换函数的具体行动,这一阶段仅进行一次,用于建立稳定的原子技能基本。
第二阶段则完全隐蔽函数定义,仅向模型供给函数名称和输入字符串,从而迫使模型要么真正懂得并精确组合已控制的原子技能,要么在义务中掉败。在这一阶段中,研究人员体系比较了监督进修和强化进修两种练习方法,个中强化进修只供给基于最终成果精确与否的嘉奖旌旗灯号,用以考验不合练习机制对组合才能进修的影响。雷峰网

在评测办法上,研究团队没有依附单一的整体指标,而是从多个维度对模型才能进行分析。他们经由过程测试新函数的组合才能清除了简单记忆的可能,经由过程更深层次的函数嵌套考察模型是否形成了可泛化的组合策略,并经由过程跨义务迁徙实验考验模型是否仅对特定义务产生适应。
结合不合难度下的精确率、不合采样预算下的 pass@k 表示以及缺点类型的过细分析,研究人员构建了一条完全而自洽的证据链,从多个角度支撑了其关于强化进修技能获取机制的结论。
关于 RL 价值之争,一个更成熟的答复
这项研究的意义远不止于在字符串义务上取得了具体实验成果,更在于其对当前大年夜说话模型强化进修研究中的核心争辩给出了本质性回应。
环绕“强化进修是否可以或许教会大年夜说话模型新的才能”这一问题,研究团队并未给出简单的肯定或否定谜底,而是提出了一个前提化结论,即强化进修确切可以或许促使模型获得新的才能,但前提在于模型已经具备完成义务所需的原子技能,同时练习义务的设计可以或许真实地鼓励模型去应用并成长这种新才能。这种表述超出了以往非黑即白的评论辩论方法,使相干争辩在概念上加倍精细和成熟。
在此基本上,研究还为大年夜说话模型的练习流程供给了一种具有启发性的技能分工范式。研究人员隐含提出,预练习或监督微调阶段的核心感化在于赞助模型控制根本操作和原子才能,而强化进修更合实用于进修若何组织和调剂这些已有才能,从而形成更高层次的推理和决定计划构造。这一练习思路与人类技能进修理论高度一致,也为当前环绕强化进修价值的不合供给了一个清楚的实践偏向。
此外,这项研究初次使跨义务泛化这一经久存在但缺乏解释的问题变得加倍可懂得。研究成果注解,模型在不合义务之间表示晋升的根来源基本因并非常识层面的直接迁徙,而是技能构造层面的迁徙,即模型学会了一种更通用的才能组织方法,从而可以或许在新的义务中更有效地应用已有的原子技能。这一视角为懂得多种先辈大年夜说话模型在不合范畴中展示出的泛化才能供给了重要的分析框架。
强大年夜背景的研究团队

这篇论文的一作是袁立凡,今朝为伊利诺伊大年夜学喷鼻槟分校博士研究生,师从彭昊传授。在此之前,他曾在清华大年夜学天然说话处理实验室开展研究工作,与刘知远传授等合作,积聚了扎实的大年夜范围说话模型研究基本,并与纪恒传授团队保持学术合作。
其研究兴趣重要集中于大年夜说话模型的反馈进修与强化进修、可扩大数据合成办法以及可自我进化的人工智能体系设计,致力于经由过程高质量反馈和情况交互晋升模型的推理才能、对齐性与靠得住性。
在相干偏向上,他作为作者在 ICLR、ICML 等国际顶级会议及 arXiv 上揭橥多项研究成果,提出并介入构建了 UltraFeedback、Eurus 等具有影响力的数据集与办法,对推动大年夜模型练习范式和反馈加强进修研究产生了积极影响。

他在多项国度级科研项目中担负负责人或重要介入者,曾获教导部天然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技巧奖一等奖、世界互联网领先科技成果奖、北京市青年教授教化名师奖等多项科研嘉奖,并入选包含国度青年人才筹划、Elsevier 中国高被引学者、《麻省理工科技评论》中国区“35 岁以下科技立异 35 人榜单”及中国科协青年人才托举工程等人才项目。
参考链接:https://lifan-yuan.github.io/
论文的另一位一作为陈纬泽,今朝在清华大年夜学天然说话处理实验室攻读计算机科学与技巧博士,师从刘知远传授。
陈纬泽的重要研究兴趣涵盖大年夜范围说话模型、智能代理体系、多智能体协作进修以及强化进修与嘉奖建模等范畴,尤其存眷若何晋升说话模型在复杂义务推理、协作与可推广性方面的才能。
他在构建加强型 LLM 基本架构、嘉奖建模(Reward Modeling)、多智能系一切优化、难度感知练习等偏向取得了一系列重要成果,并积极介入多项领先的研究项目,在推动说话模型机能效力与泛化才能晋升方面做出了供献。
作为重要作者或合营作者,陈纬泽在天然说话处理与人工智能范畴的顶级会议与期刊(如 ACL、Findings of ACL 等)上揭橥了多篇具有影响力的论文,他的研究成果广泛被引用,涉及强化进修优化、多智能体协作策略、嘉奖模型构建等前沿课题,为推动 LLM 在复杂协作与进修义务中的广泛应用供给了理论与实践支撑。

参考链接:https://weizechen.com/
论文的通信录作者为刘知远,他是清华大年夜学计算机科学与技巧系传授、博士生导师,,兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。
刘知远分别于 2006 年、 2011 年于清华大年夜学计算机科学与技巧系获得学士、博士学位,并在清华大年夜学开展博士后研究,后留校任教。其重要研究偏向包含大年夜模型技巧、天然说话处理、常识图谱与语义计算以及社管帐算等核心范畴。
刘知远在国际主流学术会议和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上揭橥了 200 余篇论文,其 Google Scholar 引用量跨越 7 万次,反应出广泛的学术影响力。
参考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html
另一位通信录作者为打发,他是清华大年夜学电子工程系的助理传授、博士生导师,研究横跨天然说话处理、机械进修与人工智能等核心范畴。
他的重要研究偏向是通用智能与推理才能的理论、算法和体系设计,特别存眷若何经由过程强化进修、反馈机制和可扩大进修办法晋升大年夜范围说话模型和智能体系的推理才能与摸索进修才能,同时摸索这些技巧在科学发明和复杂义务中的应用。
在学术供献上,打发已在诸如 Nature Machine Intelligence、ICLR、NeurIPS、ICML、ACL 等国际顶级会议和期刊上揭橥多篇高引用论文,其谷歌学术引用量跨越一万次。

打发曾入选中国科协青年人才托举工程,并荣获包含 ACL 最佳体系演示论文奖、世界人工智能大年夜会青年优良论文奖、中国算力大年夜会最佳学术论文奖、清华大年夜学优良博士论文奖等多项重要荣誉。

参考链接:https://www.stingning.cn
第三位通信录作者为崔淦渠,今朝在上海人工智能实验室担负青年科学家,并于清华大年夜学天然说话处理实验室获得计算机科学与技巧博士学位,导师为刘知远传授。
他还积极推动开源项目和对象的扶植,并因在说话模型强化进修与对齐范畴的凸起供献获得包含 WAIC 云帆新星奖、国度天然科学基金赞助与清华优良博士论文奖等多项荣誉。
参考链接:https://cgq15.github.io
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
崔淦渠的研究偏向重要包含大年夜范围说话模型对齐、强化进修,同时他也早期从事图神经收集及其在图表示进修中的应用研究。

发表评论 取消回复