在这个阶段,体系同时保护两个模型:策略模型负责生成完全的 OR 解题轨迹,而 GenPRM 则从全局视角对整条推理过程进行回想式评估,断定各个步调在整体建模逻辑中的合理性。与传统过程嘉奖模型不合,GenPRM 并非对单个步调进行简单打分,而是具备推理与综合断定才能,可以或许捕获步调之间的依附关系。

在大年夜说话模型慢慢从通用推理对象走向专业范畴应用的过程中,运筹优化(OR)成为一个极具吸引力、同时也极具挑衅性的偏向。

一方面,运筹优化问题天然具备清楚的数学构造和可验证的求解成果,看似异常合适由模型主动完成建模与求解;另一方面,真实运筹建模高度依附变量定义、束缚设计与目标函数之间的整体一致性,其推理过程往往出现出强步调依附和强耦合特点,远非算出一个精确谜底所能覆盖。

恰是在这一张力之下,当前运筹建模大年夜模型研究逐渐裸露出一个核心困境:模型在求解器层面获得精确成果,并不料味着其完成了精确的建模。在现有主流练习范式中,无论是仅根据最终求解成果进行嘉奖,照样对中心步调进行局部、慢慢的过程监督,都难以精确描述运筹建模这种长链条推理义务的真本质量。

这篇论文的第一作者为周宸宇,他今朝是上海交通大年夜学智能计算研究院博士生,导师为叶荫宇传授和葛冬冬传授,研究偏向聚焦于大年夜说话模型与运筹优化、复杂推理义务及其练习办法。

这种监督旌旗灯号与义务本质之间的错位,使得建模缺点可能被掩盖,甚至被反复强化,逐渐成为大年夜模型走向工业级运筹优化应用的关键瓶颈。在如许的研究背景下,来自上海交通大年夜学智能计算研究院葛冬冬、林江浩研究团队提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。

这项研究并未仅从模型范围或数据量入手,而是从练习范式本身出发,体系性反思了成果嘉奖与传统过程监督在运筹建模义务中的根本局限,并提出了一种由策略模型与生成式过程嘉奖模型(GenPRM)协同进化的自进化练习框架。经由过程将最终求解成果与对完全推理过程的回想式、全局评估相结合,StepORLM 试图引导模型真正进修若何构建一致、靠得住的运筹优化模型,而不仅仅是生成一个可行解。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

传统办法往往假设最终成果精确即可反应推理质量,或认为经由过程对中心步调进行慢慢、局部打分便能弥补成果嘉奖的不足,而这项研究注解,这两种监督方法在运筹建模场景下均存在体系性误差。

论文地址:https://arxiv.org/abs/2509.22558

小模型,赢在办法

在实验评估方面,这项研究在 6 个具有代表性的运筹优化基准数据集上对所提出的办法进行了体系测试,这些数据集涵盖了从相对简单的线性筹划问题到高复杂度、切近真实应用处景的工业级混淆整数筹划问题,具体包含 NL4Opt、MAMO(EasyLP 与 ComplexLP)、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。

所有实验同一采取 Pass@1 accuracy 作为评价指标,即模型仅生成一次完全的解题轨迹,并经由过程外部 OR 求解器进行验证,只有当生成的代码可以或许成功履行、建模过程精确且最终成果被求解器剖断为可行且最优时,才被视为一次成功。这一评价标准对模型提出了较高请求,不仅考察最终数值成果的精确性,也严格束缚了建模逻辑和实现层面的靠得住性。

再看实验成果,在与不合类别办法的比较实验中,StepORLM 展示出明显优势。起首,与零样本通用大年夜说话模型比拟,仅有 8B 参数范围的 StepORLM 在平均精确率上明显跨越了 DeepSeek-V3(671B)和 Qwen2.5-72B 等超大年夜模型,并周全优于 GPT-4o 的零样本表示,尤其在 ComplexOR 和 IndustryOR 等高难度场景中优势加倍凸起。

其次,与现有专门针对 OR 义务进行微调的模型比拟,StepORLM 在所有基准数据集上均取得了更优成果,且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依附多步调推理精确性的义务中晋升尤为明显,这进一步解释其机能增益并非来源于更多或更大年夜范围的数据,而重要得益于练习过程中引入了更高质量、更相符义务本质的监督旌旗灯号。

进一步地,与多种 agentic method 推理办法(如 CoT、Chain-of-Experts、OptiMUS 和 CAFA)比拟,StepORLM 仅经由过程单次生成就能取得更稳定的表示和更少的建模缺点。其根来源基本因在于,agent 办法重要在推理阶段测验测验对已生成的成果进行修改,而 StepORLM 则经由过程在练习阶段引入过程级监督,从根源上削减了缺点推理路径被模型进修和强化的可能性。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

此外,研究还评估了将合营进化获得的生成式过程嘉奖模型引入推理阶段、作为验证器的后果。实验成果显示,当 StepORLM 与 GenPRM 结合应用时,其平均 Pass@1 精确率可进一步晋升至 85.6%,并在最具挑衅性的 ComplexOR 和 IndustryOR 数据集上分别取得了约 9.9% 和 9.5% 的明显增益。

更为重要的是,GenPRM 并不只对 StepORLM 有效,当其与其他运筹优化模型(如 ORLM)结合应用时,同样可以或许带来接近 10% 的机能晋升,这注解 GenPRM 学到的是模型无关的运筹推理判据,而非仅针对某一特定模型的启发式规矩。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

这一成果注解,在运筹优化建模义务中,模型参数范围本身已不再是决定性身分,练习范式与监督旌旗灯号设计才是机能晋升的关键。

最后,经由过程一系列消融实验,研究验证了各个关键组件在整体框架中的须要性:移除 warm-up 阶段的监督微调会导致机能大年夜幅降低,撤消自进化练习会使模型机能敏捷停止,冻结 GenPRM 不再进化或用通俗 DPO 替代加权 DPO 均会减弱进修后果。

针对上述问题,研究人员提出了 StepORLM 的整体练习框架,这个框架采取“两阶段练习 + 自进化闭环”的设计思路。在第一阶段的 warm-up 过程中,研究团队旨在构建一个高质量的初始策略模型,使其具备根本的运筹优化建模才能,可以或许输出构造化、多步调的推理过程,并避免在建模和代码生成阶段出现大年夜量随便性缺点。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

同时,练习过程分析成果也注解,模型机能的晋升是跟着自进化迭代慢慢累积的,而并非经由过程一次监督微调即可达到最终程度。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

从有时精确,到体系靠得住

这项研究针对大年夜说话模型在运筹优化建模义务中存在的靠得住性问题展开,研究团队指出,现有办法重要存在两类根本性缺点。

第一类是成果导向嘉奖的信用分派问题(Credit Assignment Problem),即仅根据外部求解器是否成功对模型进行嘉奖。在这种情况下,只要模型最终获得一个可行且精确的解,即便中心推理过程存在明显缺点,也会被强化。

这在运筹场景中尤为危险,例如漏掉落某个较松的束缚、变量定义不严谨等缺点,可能在特定实例里不影响最优值,却会让模型误认为“这类建模也行”,从而把不稳定甚至缺点的建模逻辑固化下来。

第二类缺点来自传统判别式过程监督的短视性(Myopic Supervision),这类办法平日对推理过程中的每一步进行自力评估,难以懂得步调之间的依附关系,也无法断定某些早期决定计划在整体建模语境下是否合理。

然而,运筹优化建模本质上是一种步调之间高度依附、强耦合的长链条推理义务,局部、割裂的监督旌旗灯号难以精确反应整体推理质量。

为此,研究人员应用教师模型(GPT-4o)主动生成运筹优化问题,并经由过程改写、单位转换和参数缩放等方法加强问题多样性。随后,教师模型为每个问题生成完全的推理轨迹,覆盖问题分析、变量定义、目标函数构建、束缚设计、数学模型表述以及求解代码实现等关键步调。

所有生成轨迹均需经由严格验证,包含代码履行以及外部 OR 求解器对可行性、最优性和履行精确性的检查。若验证掉败,体系会主动将反馈返回给教师模型进行修改,直至经由过程验证或达到重试上限。最终,这个阶段构建了由问题及其对应的完全且精确推理轨迹构成的数据集,用于对策略模型进行监督微调。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

在此基本上,这项研究进入第二阶段,即策略模型与生成式过程嘉奖模型(GenPRM)协同进化的自进化练习阶段,这也是研究团队提出的核心立异。雷峰网("大众,"号:雷峰网)

在每一轮练习迭代中,策略模型针对同一问题生成多条候选解题轨迹,并引入双源反馈机制进行评估。一方面,研究人员经由过程外部求解器为每条轨迹供给最终成果的精确性反馈;另一方面,GenPRM 对整条推理过程进行评价,衡量不合轨迹在过程层面的质量。

在此基本上,不合轨迹被两两比较以构造偏好对,个中求解器验证成功的轨迹优于掉败的轨迹,而在成果雷同的情况下,则由过程质量更高的轨迹胜出。研究团队进一步引入加权的 Direct Preference Optimization 办法,对不合偏好对付与不合权重,从而区分严重建模缺点与细微推理改进,并据此更新策略模型。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

跟着练习迭代的推动,策略模型生成的轨迹质量赓续晋升,反过来为 GenPRM 供给更高质量的练习样本,而赓续进化的 GenPRM 又可以或许为策略模型供给更精确的过程反馈,从而在二者之间形成稳定的正反馈闭环,推动全部体系在自进化过程中持续晋升运筹优化建模才能。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

一种可迁徙的练习范式

在实验成果的基本上,这项研究在办法论和应用层面均具有重要意义。起首,从办法论角度来看,研究团队明白指出并经由过程实证验证了一个关键熟悉:在运筹优化这类具有强步调依附特点的义务中,嘉奖模型本身若缺乏推理才能,将难认为策略模型供给有效监督。雷峰网

因为运筹建模中各步调之间高度耦合,局部精确并不等价于全局一致,只有具备整体懂得才能的过程监督,才能有效缓解归因缺点和短视问题。

其次,在运筹优化与大年夜说话模型结合的研究范畴中,这项研究明显晋升了模型在建模精确性、束缚完全性以及实际应用靠得住性等方面的表示。研究团队经由过程引入过程级监督与自进化练习机制,使模型不仅可以或许生成情势精确的筹划表达式,还可以或许构建逻辑一致、可被求解器稳定履行的完全运筹优化模型,从而推动大年夜说话模型从“会写线性筹划”向“会进交运筹建模”改变。

与此同时,GenPRM 也应用经求解器验证的高质量推理轨迹进行持续监督微调,使其评估标准慢慢变得加倍精确和严格。

进一步而言,这项研究提出的练习范式对其他复杂推理义务同样具有启发意义。其强调的整体化、回想式过程监督思惟,可推广至数学证实、代码生成、科学建模以及其他长链条决定计划义务,为解决强依附推理场景中监督旌旗灯号掉真的问题供给了一种具有普适性的思路。

构建 StepORLM 的人

他的研究兴趣还涵盖强化进修与区块链等偏向,曾获得 ACM-ICPC 亚洲区域赛金牌,并在 ICLR、WWW、CSCW 等国际会议上揭橥多篇学术论文。

除学术研究外,周宸宇具有较为丰富的家当与工程实践背景,曾在杉数科技、腾讯、美团等公司从事与人工智能和优化相干的研究或技巧工作,并在量化投资与金融科技范畴积聚了实践经验。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

参考链接:https://0xzhouchenyu.github.io

论文的通信录作者为林江浩,2025 年博士卒业于上海交通大年夜学计算机科学与技巧专业,现任上海交通大年夜学安泰经济与治理学院助理传授,研究偏向包含大年夜说话模型和 AI 智能体,以及此类技巧在推荐体系、运筹优化、智能商务等交叉范畴的应用。

学术方面,他已累计揭橥国际学术论文 40 余篇,研究成果揭橥于 ICLR、NeurIPS、KDD、WWW、TOIS 等国际顶级会议与期刊,获得两项最佳论文奖,个中 1 篇论文入选 ESI 全球 Top 1% 高被引论文,在相干研究范畴具有较高的学术影响力。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

参考链接:https://linjianghao.com

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

上交大年夜智能计算研究院论文:不只算对谜底,大年夜模型若何真正学会运筹建模丨ICLR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部