很多人都有如许的体验:让 AI 画一个角色,第一张很好看,但第二张开端有点不一样,第三张根本就像换了小我。你让它做一套海报,单张都不错,但放在一路风格却完全不同一,再或者你让它画一个故事分镜,人物形象会一会胖一会瘦,甚至连脸都对不上,你只是改一下衣服色彩,它却顺手把脸也改了。
这些看起来像小问题,但在真实应用中倒是致命的。在 IP 设计、品牌视觉、内容临盆甚至工业和医疗场景中,请求的从来不是某一张图好看,而是一整组都要一致。
问题的关键在于,当前图像2生成模型固然已经从“能用”走向“高质量”,但才能仍逗留在单次生成优化,也就是“单样本最优”。它善于把一张丹青好,却不知道哪些器械必须在多张图之间保持不变。换句话说,模型缺乏的不是生成才能,而是一种对跨图关系的稳定建模才能,而这一才能,恰是生成模型走向范围化应用的关键瓶颈。
在这一背景下,来自西安交通大年夜学与新加坡 A*STAR 的研究团队提出了论文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling 》,从建榜样式层面对这一问题进行重构。

论文地址:https://arxiv.org/pdf/2512.04784
从「不会断定」到「 稳定生成」
第二阶段环绕若何生成一致图像展开。研究人员在这一阶段引入强化进修框架,其根本流程包含模型根据输入生成图像集合,然后由嘉奖模型对生成成果进行评分,再根据评分旌旗灯号更新生成模型参数,这一过程类似人类经由过程反馈赓续优化行动的进修方法。
整体来看,实验成果可以归纳为一条完全且稀有据支撑的逻辑链。
起首,研究团队经由过程比较实验发明,现有模型并不具备真正的图像一致性懂得才能。在 ConsistencyRank 基准测试中,大年夜模型 Qwen2.5-VL-7B 的精确率仅为 0.344,而传统办法 CLIP-I 和 DreamSim 分别达到 0.394 和 0.403,反而表示更好,同时在排序相干性指标上也明显领先。
这解释通用大年夜模型固然具备较强的图文懂得才能,但在须要跨图比较并综称身份、风格和逻辑等多维身分的一致性断定义务中存在明显不足,是以一致性属于一种无法经由过程通用才能直接获得的专门才能。
在练习层面,研究进一步推动了强化进修在图像生成中的实际应用。以前这类办法往往成本高、练习不稳定,难以真正落地,而研究经由过程低分辨率练习与嘉奖均衡机制,在降低计算成本的同时晋升稳定性。这不仅晋升了模型机能,也意味着将来类似才能可以更快进入产品,通俗用户在对象中直接体验到更稳定、更一致的生成后果。雷峰网
在此基本上,研究团队练习了 PaCo-Reward 模型,并在同一基准上测试,成果显示精确率晋升至 0.449,比拟原模型晋升跨越 10%,同时在 Spearman 相干系数上也达到 0.288,明显优于所有比较办法,解释这一模型在排序才能上更接近人类断定标准。

进一步地,在 EditReward-Bench 测试中,PaCo-Reward 在一致性指标上达到 0.709,在整体指标上达到 0.751,不仅跨越所有开源办法,并且接近 GPT-5 的表示,解释模型具备优胜的跨义务泛化才能,而不是简单记忆练习数据。在此基本上,研究人员将这一嘉奖模型引入强化进修练习,在生成义务中进一步验证机能晋升。


在练习效力方面,研究发明采取低分辨率练习策略时,512 分辨率练习大年夜约 6 小时即可达到与 1024 分辨率约 12 小时练习相当的后果,在约 50 个练习轮次后机能根本收敛一致,明显降低计算成本。
在练习稳定性方面,传统多嘉奖加权办法会导致嘉奖比例在练习过程中敏捷跨越 2.5,从而出现单一嘉奖主导优化的问题,而改进办法可以或许将嘉奖比例稳定控制在 1.8 以内,从而避免优化偏移并保持多目标均衡。
综合以上实验成果可以得出结论,研究不仅成功练习出可以或许精确建模人类一致性断定的模型,并且可以或许将这一才能有效用于生成模型优化,并在包管练习效力和稳定性的前提下实现机能晋升,从而形成一个完全且可行的技巧闭环。
从可解释断定,到可控生成
全部实验过程可以清楚地划分为两个阶段。第一阶段环绕若何断定图像一致性展开。研究团队起首发明缺乏可以直接用于练习一致性断定的数据,其根来源基本因在于一致性本身具有较强的主不雅性,同时涉及身份、风格和逻辑等多维度身分,很难经由过程同一标准进行标注。
在学术成果方面,贾成铕已在多个国际顶级会议和期刊揭橥论文,包含 CVPR、AAAI、ACL、IEEE TIP 等,同时担负 NeurIPS、ICML、CVPR、ECCV 等重要会议与期刊的审稿人,表现出较高的学术影响力与承认度。
是以,研究人员设计了一套结合主动生成与人工标注的数据构建流程。具体而言,起首应用生成模型构建数据源,经由过程生成约 2000 条则本 prompt,并进一步筛选出 708 条具有代表性和多样性的 prompt,然后基于这些 prompt 应用图像生成模型生成具有内部一致性的图像网格,每个 prompt 会生成多个图像网格,每个网格包含多个子图。
接下来进入关键步调,即对子图进行拆分与组合,也就是将每个图像网格划分为多个 sub-figure,并在不合网格之间进行组合,从而构造出大年夜量具有不合一致性关系的图像对。这一过程经由过程组合方法明显扩大年夜数据范围,在约 708 个 prompt 和 2832 张图像的基本上构造出 33984 个排序样本。

随后,研究人员构建排序义务,每个样本包含 1 张参考图和 4 张候选图,标注义务是根据视觉一致性对候选图进行排序。标注过程由 6 名标注人员完成,每人标注约 5664 个样本,标注过程中不依附严格规矩,而是基于人类直觉对一致性进行断定,同时保存部分数据作为评测基准。
为了便于模型练习,研究团队进一步将排序数据转换为 pairwise 数据情势,即将排序关系转化为两两比较的样本,例如将多个候选之间的排序关系拆解为多个 A 与 B 的一致性断定,从而获得跨越 54624 个图像对,个中包含 27599 个一致样本和 27025 个不一致样本,每个样本不仅包含标签,还配有对应的推理解释,从而加强数据的可解释性与泛化才能。

模型在练习过程中不仅进修最终的断定成果,还进修推理过程,从而避免仅依附外面特点进行断定。完成练习后,研究人员经由过程排序一致性义务和图像编辑义务对模型进行验证,成果注解这一嘉奖模型在多个指标上均优于现有办法。
在完成数据构建之后,研究团队进一步设计嘉奖模型的练习方法。传统办法平日采取输入图像并输出一个标量分数的方法来表示质量或一致性,但这种方法与视觉说话模型基于自回归生成的机制不匹配,同时难以表达复杂断定过程。雷峰网("大众,"号:雷峰网)
为懂得决这一问题,研究人员提出将一致性断定建模为生成义务,在 PaCo-Reward 模型中,输入由两张图像和对应文本构成,模型输出为 Yes 或 No,用于表示两张图像是否一致,同时还会生成一段推理过程来解释断定根据。这一设计使一致性断定转化为说话生成问题,从而可以或许直接应用视觉说话模型的生成才能进行练习,并晋升模型稳定性与可解释性。

在具体实现中,研究团队提出了两个关键优化策略以晋升练习效力与稳定性。起首是分辨率解耦策略,即在练习阶段应用低分辨率图像进行采样与优化,而在推理阶段仍然生成高分辨率图像,如许可以明显降低计算开销,因为图像生成模型的计算复杂度与分辨率呈平方关系增长,而实验注解低分辨率图像已经可以或许供给足够的嘉奖旌旗灯号来指导优化偏向。
这项研究没有沿用传统的单图打分或图文对齐思路,而是将一致性问题转化为“跨图比较”的进修问题,经由过程构建成比较较的嘉奖模型,使模型可以或许进修人类在断定一致性时所依附的相对关系与多维标准,并进一步结合强化进修,将这种断定才能反向感化于生成过程之中,从而实现从“会断定”到“会生成”的才能闭环。
在 Text-to-ImageSet 义务中,一致性指标整体晋升约 10.3% 到 11.7%,在身份、风格和逻辑等多个维度均有明显改良,同时在 GEdit-Bench 图像编辑义务中,语义一致性和提示质量指标均持续晋升,例如在 Qwen-Image-Edit 模型上,整体分数从 7.307 晋升至 7.451,在多说话设置下也表示出一致的改进趋势,这解释模型不仅可以或许晋升一致性,还可以或许保持甚至晋升生成质量。
其次是嘉奖均衡策略,用于解决多目标优化中的冲突问题。在一致性生成义务中,模型平日须要同时优化一致性与文本对齐等多个目标,而不合嘉奖之间可能存在标准差别和波动差别,从而导致某一嘉奖在练习过程中占据主导地位。为懂得决这一问题,研究人员对波动较大年夜的嘉奖进行紧缩处理,从而降低其影响范围,使多个嘉奖在优化过程中保持相对均衡,避免练习偏移。
最终,研究团队在多图生成义务和图像编辑义务上对办法进行验证,成果显示模型在身份一致性、风格一致性以及逻辑一致性等多个方面均获得明显晋升,同时在编辑义务中可以或许实现局部修改与整体保持之间的优胜均衡,从而验证全部办法在实际生成义务中的有效性。

从单点生成到关系建模的范式变更
这项研究的意义不仅表如今技巧层面,也正在改变通俗人应用 AI 的体验。起首在问题层面,研究团队解决了多图一致性这一经久存在的难题。以前人工智能模型固然可以生成单张高质量图像,但一旦须要持续生成角色、设计系列海报或制造故事分镜,就会出现人物变更、风格不同一甚至逻辑纷乱的问题。
这意味着通俗用户即使生成了好看标图片,也很难真正用在创作、设计或内容临盆中。而经由过程体系性的设计与练习,这项研究让模型可以或许在多张图像之间保持一致,使 AI 从“能用”走向“可用”,真正具备持续创作才能。
在办法层面,研究提出了一种更接近人类思维的进修方法,即经由过程比较来进修,而不是直接打分。对于通俗用户来说,这种变更意味着模型更“懂人”的审美和断定标准,不再只是机械优化指标,而是可以或许更天然地舆解“像不像”“一致不一致”如许的主不雅概念,从而生成更相符人类预期的成果。
更深层来看,这项研究构建了一种生成与评价相结合的闭环机制。传统模型只负责“生成”,而在这一办法中,模型不仅可以或许生成图像,还可以或许在生成过程中赓续“自我检查”和优化成果。
对于通俗人而言,这意味着将来的 AI 不再须要反复手动调剂提示词,而是可以主动修改误差,慢慢生成相符预期的内容,从而大年夜幅降低应用门槛。
构建 PaCo-RL 的人
这篇论文的合营一作分别是平博文和贾成铕。个中,贾成铕今朝是西安交通大年夜学计算机科学专业博士研究生,处于博士阶段后期,导师为罗敏楠传授,同时与常晓军传授开展合作研究,并且将来将参加腾讯混元的青云筹划从事研究工作。在科研经历方面,贾成铕曾在新加坡进行拜访研究,并在上海人工智能实验室担负研究练习生。
在研究偏向上,重要从事计算机视觉与多模态范畴的研究,重点存眷视觉生成与智能体相干问题。具体研究内容包含一致性图像生成、视频生成,以及嘉奖模型与强化进修在视觉生成中的应用,整体目标是晋升模型在生成义务中的一致性、可控性与智能性。

参考地址:https://chengyou-jia.github.io/
这篇论文的通信作者钱航薇,今朝在新加坡 A*STAR 前沿人工智能研究中间从事研究工作。
在研究偏向方面,钱航薇重要从事人工智能与多模态进修相干研究,重点包含多模态大年夜说话模型、面向科学研究的人工智能、生成式人工智能与智能系一切,以及基于大年夜模型的科学发明办法,同时还存眷可托与可解释人工智能以及时光序列建模等偏向 。
在科研成果方面,钱航薇在 AAAI、IJCAI、KDD 等国际会议以及人工智能范畴重要期刊揭橥多篇论文,研究内容涵盖比较进修、强化进修、时光序列建模以及可解释性等偏向,并介入多个科研项目,包含 A*STAR Career Development Fund 和相干研究基金项目 。

参考链接:https://hangwei12358.github.io/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复