现如今,扩散模型已经成为当前图像生成范畴的核心技巧之一。从文本生成图像到复杂视觉内容合成,这类模型已经可以或许生成高度逼真的画面。然而,在真实应用处景中,人们对生成模型的请求并不仅仅是“生成逼真图像”,而是欲望模型可以或许严格按照提示完成特定义务。

例如,在请求生成包含指定文字的图像时,模型可能 simply 将文字放大年夜到占据画面大年夜部分区域,从而轻松获得 OCR 体系的高分,而在须要生成多个对象的义务中,模型也可能经由过程极端简化场景构造来知足评分规矩。这种现象平日被称为“嘉奖作弊”,已经成为当前生成模型对齐研究中的一个重要挑衅。
为懂得决这一问题,近年来一些研究开端测验测验应用强化进修或嘉奖机制对扩散模型进行后练习,欲望经由过程嘉奖旌旗灯号引导模型生成加倍相符义务请求的内容。然而实践中逐渐发明,这种办法轻易带来一个新的问题:模型可能学会逢迎评价指标,而不是懂得义务本身。
在如许的研究背景下,喷鼻港大年夜学赵恒爽团队提出了一种新的扩散模型后练习办法,并在论文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中体系商量了这一问题。研究经由过程引入组级嘉奖优化机制对扩散模型进行后练习,在晋升模型义务表示的同时有效缓解嘉奖作弊问题,并且还可以明显进步练习效力。
更重要的,这一办法在实际应用中也具有明显的工程价值。传统的在线强化进修办法平日须要在每一次优化步调中从新履行完全的扩散采样过程来生成图像,这意味着模型须要赓续运行完全的扩散链进行图像生成,在线采样往往成为练习过程中最重要的时光和计算开销。
比拟之下,GDRO 支撑完全离线的练习方法,在练习开端之前师长教师成并保存带有评分信息的图像数据,之后的优化过程无需再依附扩散采样,从而避免了反复履行扩散链带来的巨大年夜计算成本。同时,这个办法也不依附特定的扩散采样器,不须要经由过程 ODE 到 SDE 的近似来引入随机性,使练习流程加倍简单稳定。
对于工业界而言,这意味着企业可以在不明显增长算力投入的情况下,对大年夜范围扩散模型进行后练习优化,从而以更低的计算资本消费晋升模型表示。

论文地址:https://arxiv.org/pdf/2601.02036
不仅得分更高,还能避免「嘉奖作弊」
整体成果注解,GDRO 不仅可以或许晋升扩散模型在相干义务中的评分表示,还可以明显削减嘉奖作弊问题,同时在练习效力和稳定性方面也具有优势。研究人员重要经由过程两个义务来评估模型才能,分别是 OCR 义务和 GenEval 义务。

此外,研究还比较了不合办法在练习效力方面的表示。传统强化进修办法在练习扩散模型时,每一步练习平日都须要完成三个步调,即生成新的图片、计算嘉奖以及更新模型。因为扩散模型生成图片本身计算成本较高,这种练习方法往往须要大年夜量时光和计算资本。
OCR 义务用于测试图像中生成文字的精确性。具体流程是:起首向模型输入一个提示词,例如 “ 一个告白牌,上面写着 diamond sale ”或者“ 一张卡片写着 we meet never ”;随后扩散模型根据提示词生成图片;接着 OCR 体系读取图片中的文字;假如 OCR 辨认出的文字与提示词中的内容一致,则会获得较高评分。
实验不雅察发明,原始模型生成的文字经常出现多种问题,例如拼写缺点、字体模糊、字符缺掉以及分列纷乱。有些图片中的文字还会出现明显倾斜或不完全的情况,导致 OCR 辨认体系无法精确辨认。经由 GDRO 练习之后,生成图片中的文字加倍清楚,文字排版加倍规范,OCR 识其余精确率也明显进步。
此外,研究团队还进行了消融实验,用于分析不合参数设置对模型表示的影响。个中一个重要实验是改变图像组大年夜小。当图像组大年夜小只有 2 时,练习过程会出现明显的不稳定现象,模型甚至轻易产生崩溃。

在实验成果方面,研究重要从模型义务表示、嘉奖作弊现象以及练习效力等多个方面进行了分析。

除了 OCR 义务,研究还经由过程 GenEval 义务评估模型对文本描述的懂得才能。GenEval 义务重要存眷四个方面的才能:物体数量是否精确、物体属性是否精确(例如色彩和类别)、物体之间的地位关系是否精确,以及图像整体是否相符文本描述。
例如提示词可能包含 “一张黄色餐桌和一只粉色狗” “一个笔记本电脑在球下面” “两辆火车” “一个酒杯和一只熊” 等。评测体系会进一步检查生成图像中是否确切包含指定对象、对象数量是否相符描述、对象之间的地位关系是否精确。实验成果显示,在应用 GDRO 练习之后,图像中的对象数量加倍精确,对象之间的地位关系加倍相符提示描述,对象属性匹配也加倍稳定。
在分析实验成果的过程中,研究人员还发清楚明了一个异常重要的问题,即嘉奖作弊现象。所谓嘉奖作弊,是手印型为了获得更高评分,并没有真正进步生成图像的质量,而是经由过程某种投契方法去欺骗评分体系。

在 OCR 义务中,一些强化进修办法(例如 Flow - GRPO )在练习过程中会采取某些极端策略来进步 OCR 评分,例如把目标文字做得异常大年夜,将文字放在图像中心地位,同时削减图像中的背景内容。如许 OCR 体系更轻易辨认文字,是以评分会很高。但这种策略会带来明显问题,包含图像整体变得不天然、背景细节消掉以及图像构造被破坏。例如本来应当是一个复杂的地图场景,但最毕生成成果却变成了一个巨大年夜横幅。图像示例显示,一些办法固然获得更高 OCR 评分,但图像细节明显削减。雷峰网("大众,"号:雷峰网)
在 GenEval 义务中也存在类似的嘉奖作弊现象。一些办法生成的图像会变得异常简单,只保存最根本的对象,同时几乎没有任何细节。例如在提示词为“一个绿色热狗”的情况下,一些办法生成的图像只有一个简单的图形,背景几乎为空。固然对象类型精确,但整体图像质量明显降低。比拟之下,应用 GDRO 练习后的模型生成图像平日仍然保持完全场景,同时可以或许知足评分体系的请求,从而削减了这种嘉奖作弊现象。

为了进一步验证主动评分体系的靠得住性,研究团队还进行了人工评估实验。实验邀请了 21 名介入者,对不合办法生成的图片进行比较评价。
评价重要从三个方面进行,包含文字精确性、图像与提示词之间的匹配程度以及图像整体质量。每组图片中同时包含原始模型生成成果、GDRO 生成成果以及其他强化进修办法生成成果,介入者须要从这些图片中选择表示更好的成果。实验成果显示,在文字精确性方面,各类办法之间的差距并不明显,但在图像质量以及语义匹配方面,GDRO 生成的图像表示明显更好。
GDRO 则采取离线练习方法,在练习开端之前师长教师成数据,然后在练习过程中反复应用这些数据。实验成果显示,在达到类似机能水日常平凡,GDRO 所需的练习时光明显更短,并且在某些义务中练习效力可以晋升数倍。

从数据生成到模型练习
在实验设计方面,研究起首选择 FLUX.1-dev 作为基本模型。FLUX.1-dev 是一个已经练习好的文本到图像扩散模型。研究人员并没有从新练习全部模型,而是在这个模型的基本长进行后练习优化。如许做的重要目标是节俭计算资本,同时可以或许将研究重点集中在嘉奖优化办法本身,而不须要消费大年夜量资本去从新练习完全模型。
在数据集设置方面,实验应用了两个数据集,分别对应 OCR 义务和 GenEval 义务。OCR 义务的数据集中,练习集包含约 2 万条提示词,测试集包含约 1000 条提示词。这些提示词平日用于描述某个具体场景,并且场景中包含指定文字。雷峰网
例如个中一个提示词是 “一个珠宝店橱窗,上面写着 diamond sale”。模型须要根据这些提示词生成响应图像,并在图像中精确出现指定文字。另一部分实验应用 GenEval 数据集,个中练习集包含约 5 万条提示词,测试集包含约 2000 条提示词。这些提示词平日描述多个对象、对象属性以及对象之间的空间关系,例如物体的数量、色彩以及地位关系等内容。

因为 GDRO 采取离线练习方法,是以在正式练习之前须要师长教师成练习数据。具体流程是:对于每一个提示词,起首应用基本模型生成 16 张图像;随后对每一张图像计算嘉奖评分,评分来源包含 OCR 辨认精确度以及 GenEval 评估成果;之后根据嘉奖大年夜小对这些图像进行排序。经由这一过程,每一个提示词都邑对应一组带有评分信息的图像集合,这些图像组随后作为 GDRO 练习阶段应用的数据。
在 GDRO 练习过程中,模型不会再生成新的图像,而是反复应用已经生成好的这些图像组进行练习。练习时起首从某一个提示词对应的图像组中掏出多张图片,然后给这些图片参加噪声,以模仿扩散过程中的中心状况。接着将这些带噪图像输入扩散模型,由模型猜测噪声信息。最后根据模型猜测成果以及原始图像评分计算练习损掉。跟着练习赓续进行,模型逐渐进修到更偏向生成评分较高的图像,同时削减生成评分较低图像的概率。
在实验比较方面,研究人员将 GDRO 与多种办法进行了比较,包含 Flow - GRPO、Dance GRPO 以及 DPO。这些办法代表不合类型的练习思惟。个中 Flow - GRPO 是一种应用强化进修优化扩散模型的办法, Dance GRPO 是另一种强化进修改进办法,而 DPO 则是一种基于偏好优化思惟的办法。经由过程在雷同实验前提下比较这些办法的后果,可以加倍清楚地验证 GDRO 在机能和稳定性方面的优势。
当图像组大年夜小增长到 4 或 6 时,练习稳定性明显进步。这是因为组级嘉奖可以或许供给加倍丰富的排序信息,使模型在练习过程中获得更稳定的优化旌旗灯号。研究人员还对其他关键参数进行了测试,以进一步分析这些身分对模型稳定性和机能的影响。
扩散模型练习的三个关键启发
在实验意义方面,这项研究的成果重要表现了三个方面的重要结论。起首,实验注解扩散模型同样可以进行嘉奖对齐。也就是说,扩散模型可以像说话模型一样,经由过程嘉奖优化的方法实现模型对齐。不过,因为扩散模型的构造与说话模型存在差别,是以须要设计新的优化办法。GDRO 恰是针对扩散模型特点所提出的一种优化办法。
其次,实验成果注解离线练习可以或许明显降低练习成本。研究成果解释,假如可以或许应用离线数据进行练习,就可以避免在练习过程中频蕃殖成新的图像样本。这一点对于扩散模型练习尤为重要,因为图像生成过程本身计算成本较高,是以削减生成过程可以或许明显降低整体练习开销。
最后,实验还揭示了评价指标应用时须要保持谨慎。研究发明,高评分并不必定意味着生成成果质量更高,因为模型可能会学会应用评分体系中的马脚,从而获得较高评分而不真正晋升图像质量。是以,将来研究须要进一步设计加倍靠得住的评价办法,以更精确地反应模型生成成果的真本质量。
构建 GDRO 的人
论文一作汪逸阳,今朝是喷鼻港大年夜学计算机视觉偏向的博士研究生,导师为赵恒爽传授。他于 2024 年开端攻读博士学位,今朝处于博士第二年。在进入喷鼻港大年夜学之前,他于 2024 年 7 月在北京大年夜学完成计算机科学专业本科教导。他的研究偏向重要集中在视觉生成模型和多模态模型范畴。
具体来说,他存眷三个方面的研究问题:第一,应用视觉生成模型解决真实场景中的视觉内容创作需求,例如图像生成和视觉内容创作;第二,经由过程设计合理的优化策略和评价标准来晋升生成模型的机能,例如应用强化进修或人工反馈等方法改进生成模型;第三,研究若何对生成模型进行加倍客不雅和合理的评估,从而促进生成模型生成更高质量的内容。
除了学术研究之外,他今朝还在通义视觉智能实验室担负研究练习生,介入视觉智能相干研究工作。
参考链接:https://chandlerwang14.github.io/
这篇论文的通信作者赵恒爽,今朝是喷鼻港大年夜学计算与数据科学学院助理传授,从事计算机视觉与人工智能相干研究。他的研究范畴重要包含计算机视觉、多模态人工智能、空间智能、生成式人工智能、具身智能以及物理智能等偏向,研究目标是构建可以或许感知、懂得并与情况交互的智能视觉体系,从而推动人工智能在多个范畴的应用。
在学术经历方面,赵恒爽曾在美国麻省理工学院计算机科学与人工智能实验室从事博士后研究工作,并在英国牛津大年夜学视觉几何团队从事研究,由托拉尔巴传授和托尔传授指导。他在喷鼻港中文大年夜学获得博士学位,导师为贾佳亚传授,本科卒业于华中科技大年夜学。
在博士阶段以及之后的研究工作中,他曾在多家国际科技公司和研究机构进行科研合作与练习,包含美国 Adobe 公司、Uber 公司以及英特尔公司等,并与多位研究人员开展合作研究。
在研究内容方面,他的研究兴趣涵盖计算机视觉、机械进修和人工智能等多个范畴,重点存眷三个偏向。第一是视觉场景懂得,包含视觉感知、三维重建、表示进修以及多模态进修等问题。第二是生成式模型与内容生成,例如图像、视频和三维内容的生成与编辑。第三是具身智能相干研究,包含主动驾驶、机械人进修以及大年夜说话模型在真实情况中的应用。
赵恒爽在计算机视觉范畴具有较高的学术影响力,多次获得重要科研嘉奖。他获得过国度天然科学基金优良青年科学基金项目赞助,并获得世界人工智能大年夜会亮点之星奖以及青年优良论文奖。他还多次入选人工智能范畴具有影响力的学者榜单。
此外,他在多个国际顶级会议和学术活动中担负重要角色,担负国际计算机视觉会议多模态进修分会场主席,并组织多个国际会议的专题研究会与教程。

参考链接:https://i.cs.hku.hk/~hszhao/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复