昔时夜说话模型开端被请求解数学题、写证实、筹划义务流程,人们才真正意识到一件事:会生成并不等于会推理。

以前几年,行业把大年夜模型推向前所未有的范围,用 RLHF 和各类嘉奖技巧把谜底校准得越来越像人类。但一个越来越尖利的实际问题也随之浮现:模型为什么有时一本正经地胡说八道?为什么在同一练习框架下,它有时异常自负却缺点,有时又显得畏首畏尾?在人们赓续强化进修旌旗灯号、寻求更高分数的同时,一个关键问题始终没有被真正答复:正样本与负样本到底在模型内部改变了什么。

恰是在如许的背景下,来自人大年夜高瓴学院的赵鑫团队把留意力放在了这一核心问题上。他们没有急于再提出一个更大年夜的模型或更复杂的算法,而是克意退后一步,环绕 RLVR 框架设计了一整套体系实验:假如只用正样本会产生什么,只用负样本又会产生如何的行动变更。模型是在真正形成推理才能,照样被嘉奖函数推着走向某些看似合理的套路?进一步地,在一条完全的推理链中,是否存在少数关键 token,像岔路口一样决定模型是走向精确,照样自负地偏离轨道。

环绕这些问题,研究团队完成了论文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型练习办法 A3PO。与其说这是一次办法层面的立异,不如说它起首完成了一次机制澄清:正样本重要紧缩策略空间,使模型在既有精确路径上加倍笃定,负样本则扩大策略空间,推动模型跳出旧有模式持续摸索,而真正决定练习走向的,并非整条样本本身,而是推理过程中那些冷门却精确、以及自负但缺点的关键 token。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

赵鑫传授先后获得吴文俊人工智能优良青年奖(2020)、ECIR 2021 时光考验奖、RecSys 2022 最佳学生论文提名、CIKM 2022 最佳资本论文提名等荣誉称号,同时入选中国科协青年人才托举工程、北京智源青年科学家和 CCF–IEEE CS 青年科学家筹划,其系列研究成果还荣获教导部天然科学一等奖、北京市天然科学二等奖及中国计算机学会天然科学二等奖。

论文地址:https://arxiv.org/pdf/2512.21625v1

正样本「紧缩」vs 负样本「摸索」

实验中,研究人员起首比较了正样本和负样本,并发明它们在练习过程中起到的感化完全不合。

具体表示为,当只用正样本练习(PSR)时,模型会变得越来越肯定:熵敏捷降低,输出分布越来越尖利,谜底长度明显变短,经常直接给出成果而不展开完全推理。这解释正样本更多是在强化已经精确的推理路径,让模型赓续反复熟悉的解题套路,同时也会克制持续摸索新路径。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

与此相反,只用负样本练习(NSR)时,模型的熵保持在较高程度甚至上升,答复长度变长,推理步调增多,表示出更强的测验测验和摸索偏向。这是因为负样本练习重要在减弱缺点 token 的概率,使本来集中的概率被分散到其他候选路径上,从而带来更强的摸索才能。

不过,实验也注解,两种极端方法其实都不睬想:只用正样本轻易出现 reward hacking,只答谢案不推理,只用负样本练习不稳定,甚至可能生成乱码。整体比较下来,正负样本同时应用(DAPO)时练习曲线更安稳,泛化才能也最好。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

在此基本上,研究人员又引入锐化(sharpen)和发明(discovery)两个指标来描述模型生成内容的变更。锐化指标反应模型是否在反复汗青精确谜底中已经出现过的 n-gram,而发明指标反应是否产生了新的、从未出现过的 n-gram。雷峰网("大众,"号:雷峰网)

成果显示,在锐化指标上,PSR 高于 DAPO,DAPO 又高于 NSR,在发明指标上则相反,NSR 最高,DAPO 居中,PSR 最低。这注解正样本更像在磨刀,使已有精确模式变得更闇练、更稳定,而负样本更像在开路,推动模型寻找新的推理方法,两者结合才能既包管稳定性,又拓展才能上限。

研究团队还从极性级 advantage 的角度分析了正负样本权重的影响。以 Qwen2.5-7B-Math 为例,当增大年夜正样本权重(如 P2N1、P1N0.5)时,练习嘉奖上升更快,但熵明显降低、输出变短,摸索才能减弱,权重过大年夜时甚至会过拟合既有模式,而当增大年夜负样本权重(如 P1N5)时,熵和输出长度都更高,摸索更充分,但嘉奖上升变慢,模型表示得加倍谨慎。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

实验注解,决定练习动态的关键不在于各自权重的绝对大年夜小,而在于正负样本之间的比例,例如 P2N1 与 P1N0.5 的比例雷同,曲线表示也异常类似。总体来看,正负 advantage 比例大年夜约在 1:2 阁下时,可以或许较好地兼顾收敛速度与摸索才能。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

最后,在 token 级其余实验中,研究人员进一步分析了哪些 token 在练习中最关键。成果发明,并不是所有 token 都一致重要,而是两类最关键:一类是正样本中的低概率 token,即冷门但精确的推理步调,另一类是负样本中的高概率 token,也就是模型异常自负但实际上是缺点的部分。

前者须要重点嘉奖,以保存多样但精确的推理路径,后者须要重点处罚,防止模型固执地保持缺点谜底。新提出的 A3PO 办法恰是环绕这两类关键 token 进行非对称加权设计的,这一点也获得了实验数据的支撑。

在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 与 AIME25 上分别从 DAPO 的 27.6 和 21.4 晋升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也从 34.2/26.1 晋升到 37.8/30.4;在 DeepSeek-R1 蒸馏模型上,则从 60.8/50.8 晋升到 65.2/54.1。并且,这些晋升不仅涌如今单一数据集上,而是在 AIME、MATH500、GPQA 等多个基准上同时出现,个中多项成果还经由过程了明显性考验。

是以,可以认为 A3PO 在保持较强摸索才能的同时,确切在不合模型与不合评测义务上带来了稳定且明白的机能晋升。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

在机制分析基本上构建 A3PO

为了获得周全的实验成果,研究人员起首环绕 RLVR 框架搭建了一系列对比实验,目标是不急于提出新办法,而是先把正样本和负样本的感化拆开来看,分别考察只用正样本、只用负样本以及正负样本同时应用时模型的具体表示。雷峰网

实验选择了三种类型不合的大年夜说话模型作为基座,包含数学才能加强的 Qwen2.5-7B-Math、通用预练习模型 Qwen3-8B-Base 以及经由推理蒸馏的 DeepSeek-R1-Distill-Qwen-7B,并分别在三种练习范式下进行比较:只应用正样本更新的 PSR,只应用负样本更新的 NSR,以及同时应用正负样本、今朝较常用的 DAPO 办法。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

全部练习过程中不仅跟踪模型的熵、生成答复长度和嘉奖值等指标,以反应其肯定性与摸索性的变更,还在验证集上测试 AIME25 的 Avg@32 和 Pass@32 等指标,来评估真实推理才能。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

在确认正负样本都发挥重要且不合感化之后,研究人员进一步进行粗粒度的参数控制实验,从极性层面调剂 advantage 权重。在 Qwen2.5-7B-Math 上,将 RLVR 的损掉函数拆分为正样本项和负样本项,经由过程设置不合的权重组合(如正负 1:5 或 2:1 等),体系比较不合权重比例下模型的熵、输出长度、练习嘉奖以及 AIME24 上的表示,从而分析正负样本整体权重对练习动态的影响。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

在完成以上一系列分析之后,研究团队提出了新的 A3PO 办法,其核心思惟是在 RLVR 目标中引入自适应且非对称的 token 级 advantage 加权机制:对正样本中低概率的 token 赐与更高嘉奖,以鼓励保存多样但精确的推理路径,对负样本中高概率的 token 赐与更强处罚,以重点改正模型自负但缺点的推理。同时,这些加权系数在练习过程中慢慢衰减,使模型可以或许早年期的更强摸索天然过渡到后期的稳定收敛。

实验采取与前述雷同的三种模型,在 DAPO-Math 数据集长进行练习,基于 Verl 与 vLLM 的离线强化进修框架,每个提示生成 8 个样本,练习 300 步,并与 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等办法进行比较,测试义务涵盖 AIME24、AIME25、MATH500、GPQA 与 LiveCodeBench 等多个推理基准。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

此外,研究团队还体系评估了 A3PO 在不合模型范围和不合练习数据集上的泛化才能,并对其关键超参数(包含 token 选择比例、初始缩放系数 ρ 以及衰减系数 α)进行了敏感性分析,从而形成完全的实验设计框架。

正负样本感化界线的从新界定

在这一熟悉基本上形成的 A3PO 办法,将练习重点从整体样本转向关键决定计划点,使推理模型的进修过程变得加倍可解释、也更可控制。这一改变注解,推理大年夜模型的进步不再只是依附范围和算力,而正在走向对练习机制本身的深刻懂得。

整体来看,这项研究的核心意义在于,它把原本相对模糊的 RLVR 练习过程,转化为一个具有清楚构造和内部机制解释的框架。以前在强化进修练习推理模型时,人们大年夜致知道须要正样本,也会应用负样本,但往往难以答复一个根本问题:正负样本各安闲练习中毕竟起什么感化,它们若何改变模型的进修动力学。

这项工作经由过程体系实验给出了明白谜底:正样本重要紧缩策略空间,使模型已经控制的精确模式加倍集中和稳定,负样本则扩大策略空间,迫使模型离开旧有模式,去摸索新的推理路径。更重要的是,研究并未逗留在正样本锐化才能、负样本促进摸索如许的概括层面,而是进一步指出练习质量真正取决于哪些具体决定计划点被重点强化。

研究注解,正样本中那些本来选择概率较低但通向精确谜底的 token,以及负样本中那些模型高度自负却指向缺点谜底的 token,对摸索与应用均衡具有决定性影响。

A3PO 的设计恰是把这一熟悉具体化为练习原则,在这些关键拐点长进行非对称 advantage 放大年夜,并随练习过程慢慢衰减这种偏置。由此,强化进修不再只是简单地增长精确嘉奖或扣减缺点分数,而是转向环绕症终局部决定计划点有针对性地塑造策略分布。如许的视角,使正负样本从被动的数据来源,改变为可被精细调控的优化对象,也把办法研究从经验性调参晋升到机制性设计层面。

从更长远看,这一思路为大年夜模型对齐、多模态推理以及智能体决定计划中的强化进修供给了合营的偏向,即不再平均对待所有行动旌旗灯号,而是抓住那些对整体策略构造影响最大年夜的关键 token 和关键状况进行重点塑形。

背后的学术力量

这篇论文的通信作者为赵鑫,现任中国人平易近大年夜学高瓴人工智能学院传授、长聘副传授,同时他也是国度优青项目获得者。

赵鑫传授于 2014 年 7 月在北京大年夜学取得博士学位,之后就职于中国人平易近大年夜学,至今一向从事教授教化与科研工作。他的重要研究范畴为信息检索与天然说话处理,今朝已揭橥学术论文 200 余篇,谷歌学术引用量跨越 1.8 万次。

他牵头开辟了开源推荐体系对象 RecBole(伯乐)和文本生成对象 TextBox(妙笔),并组织撰写了《A Survey of Large Language Models》综述论文及中文专著《大年夜说话模型》。

在此基本上,研究视角被进一步细化到 token 层面。研究人员不再仅评论辩论“正负样本整体重要与否”,而是考察一条推理序列内部不合 token 的差别感化。具体做法是根据 token 的熵和概率两个维度,遴选出正样本和负样本中高熵与低熵、高概率与低概率的不合 token 类型,然后分别对这些 token 的 advantage 进行大年夜幅放缩,例如乘以 0.2 或 5,不雅察模型练习曲线与生成行动随之产生的变更,从而找出真正对练习最敏感、最关键的 token 区域。

参考链接:https://gsai.ruc.edu.cn/waynexinzhao

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

人大年夜高瓴赵鑫团队新作:先拆掉落 RLVR,再重建推理模型练习

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部