比如在图像质量指标 FID(Fréchet Inception Distance) 上,SMC-CFG 比标准 CFG 进一步降低了一小截,解释生成成果更接近真实图像分布。在语义对齐指标 CLIP 上,晋升幅度固然不算特别大年夜,但表示很稳定,根本可以或许持续领先其他办法,这解释这种改进并不是靠某类样本上的有时优势,而是真正加强了模型对文本语义的懂得才能。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
很多人在应用文生图对象时都邑碰到类似的情况,输入一段很清楚的描述,欲望画面中人物站在左边、动物在右边,或者欲望海报上出现一段完全可读的文字,但生成成果却经常让人掉望。
要么地位关系纷乱,要么文字变形,要么整体画面看起来不天然。持续调剂参数,有时成果会更接近描述,但画面质量却明显降低,色彩变得奇怪,构造开端扭曲。反复测验测验之后,往往须要生成十几张甚至几十张图,才能勉强挑出一张可用的。
这种既想让模型听懂指令,又不欲望画面被破坏的抵触体验,已经成为很多用户在实际应用生成模型时的合营感触感染。
跟着生成式人工智能逐渐进入设计、电商、内容创作等真实场景,这种问题变得加倍凸起。用户不再只是寻求一张看起来不错的图,而是欲望成果稳定、构造精确、细节靠得住,可以直接用于实际工作。
然而现有办法在可控性和稳定性之间始终存在明显冲突,模型越是强调语义对齐,就越轻易就义视觉质量,这种内涵限制逐渐成为生成模型走向更广泛应用的一道门槛。
研究不再把 CFG 算作简单的参数调节手段,而是将全部生成过程看作一个动态体系,把语义误差懂得为须要被控制的误差,并引入控制理论来从新设计 guidance 机制。这种思路的变更,使得生成过程不再依附反复试错,而是可以经由过程更稳定的方法慢慢收敛到相符语义束缚的成果。
这种改进在实际场景中的意义也很直不雅。当须要生成具有明白空间关系的画面时,模型可以或许更稳定地保持构造一致;当画面中包含文字时,内容更轻易保持清楚和精确;在复杂场景中,多对象之间的关系也更不轻易出现错乱。
用户不再须要经由过程大年夜量测验测验去尝尝看,而更有可能在较少次数内获得相符预期的成果。如许的变更,正表现出身成模型从有时成功走向稳定靠得住的关键一步,也让这项研究在当前成长阶段显得尤为重要。

论文地址:https://arxiv.org/pdf/2603.03281
从高 scale 稳定性到复杂 prompt 表示
在实验成果方面,研究人员起首关怀的是,比拟标准 CFG(Classifier-Free Guidance),机能晋升是否周全且稳定。结论是肯定的,并且晋升并不是集中在某一个指标上,而是表如今多个维度同时改良。
在人类偏好相干指标上,像 ImageReward、HPS、PickScore 等晋升更明显,并且很多时刻都处在所有办法里的最高程度。真正重要的是,SMC-CFG 不是只把某一个指标做高,而是在图像质量、语义对齐和主不雅偏好这些平日很难兼顾的偏向上一路变好。
从跨模型的一致性来看,研究应用了 3 种不合范围的文生图模型,分别是中等范围的 SD3.5、较大年夜范围的 Flux,以及超大年夜范围的 Qwen-Image。实验中有一个很明显的现象,就是模型范围越大年夜,SMC-CFG 的优势越清楚。

在较小模型上,这种优势更多表现为略优,而在更大年夜模型上,它在多个指标上可以或许持续拉开差距。这解释,SMC-CFG 解决的并不只是一个局部调参问题,而更像是在处理模型范围增大年夜后更轻易出现的不稳定性问题。
高 guidance scale 下的表示,是整项研究最关键的成果之一。传统 CFG 的典范问题是,guidance scale 增大年夜后,语义对齐平日会更强,但图像质量往往会明显降低,也就是模型越尽力切近文本,越轻易把画面做坏。
实验显示,标准 CFG 跟着 scale 晋升,图像劣化会越来越明显,而 SMC-CFG 在同样前提下仍然可以或许持续加强语义信息,同时把图像质量保持在相对稳定的状况。这意味着它在必定程度上打破了语义精确性和图像质量之间那种经典的此消彼长关系。

与此同时,在复杂 prompt 下,传统办法轻易出现空间关系错位、构造纷乱、文字模糊或缺点等问题,而 SMC-CFG 在空间关系、细节稳定性和文字清楚度上都更好,这解释它不仅分数更高,也确切晋升了模型对复杂构造和关系的懂得才能。
研究还把它与 CFG-Zero* 和 Rectified-CFG++ 这些已经改进过的办法做了比较,成果显示,SMC-CFG 依然可以或许持续取得晋升,并且这种优势不是某个指标上的局部冲破,而更接近整体性的领先,这也解释它不是简单技能,而是机制层面的改进。
研究团队还做了消融实验,分析两个关键参数的感化。个中,λ 控制收敛偏向,k 控制改正力度。实验发明,λ 过小或过大年夜都邑让体系偏离更幻想的稳定轨道,而 k 过小会让收敛变慢,语义表示偏弱,k 过大年夜又会激发震动,让画面显得不天然。
综合来看,最佳状况对应的是中等 λ 加上适中的 k,在这种组合下,体系可以或许同时实现稳定、快速和精准。更深一层地说,这部分成果解释 SMC-CFG 的优势不是有时调参获得的,而是相符控制体系里很典范的规律,也就是稳定性和响应速度之间须要找到均衡。雷峰网("大众,"号:雷峰网)

并非简单跑分,而是一种新的控制逻辑
在实验经由方面,研究人员并不是简单进行指标比较,而是环绕一个明白的核心假设展开,也就是 CFG 的问题本质上来源于线性控制方法本身,是以须要经由过程新的控制机制来验证是否可以或许体系性改进这一问题。
基于这一前提,全部实验设计环绕三个关键偏向推动。起首是稳定性验证,研究人员经由过程在高 guidance scale 前提下进行测试,因为这一设置会放大年夜 CFG 的不稳定问题,假如办法在这种情况下仍然保持稳定,就可以或许解释控制机制本身加倍鲁棒。

其次是精确性验证,经由过程引入语义指标并结合复杂 prompt 场景,例如包含空间关系、多物体关系或细粒度描述的输入,来考验生成成果是否真正懂得文本内容,而不是仅仅在简单场景下表示优胜。
第二层存眷语义层面,经由过程 CLIP 等指标评估图像内容与文本之间的一致性,这一层重要反应模型是否精确懂得输入语义。第三层则引入人类偏好相干指标,用于评估生成成果在视觉上是否天然、是否具有审美价值以及是否相符人类直觉。
最后是对真实感的评估,经由过程 FID 和多种人类偏好相干指标来断定生成图像是否接近真实分布,同时是否相符人类审美和直觉断定。从整体逻辑来看,这一系列实验并不是在比较不合模型谁更强,而是在验证一种控制体系是否可以或许更有效地引导生成过程。

在模型选择上,研究团队克意选用了 SD3.5、Flux 和 Qwen-Image 三种具有明显差别的模型。这些模型不仅在参数范围上从中比及超大年夜存在明显跨度,并且在具体架构上也有所不合,但都属于 flow-matching diffusion 这一技巧路线。
如许的选择使实验可以或许覆盖不合复杂度和不合表达才能的生成体系,从而考验办法是否具备跨模型的通用性。假如一种办法只在单一模型上有效,很可能只是针对特定构造进行了适配,而在多模型上都能保持晋升,则更能解释其改进具有普适意义。
在评价体系的设计上,研究人员采取了分层构造来避免单一指标带来的误差。第一层存眷分布层面,经由过程 FID 衡量生成图像与真实数据分布之间的距离,从而反应整体图像质量和真实性。
在如许的背景下,清华大年夜学段岳圻团队提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》这一研究工作,从更底层的角度从新核阅这一问题。
这三层从统计分布、语义匹配和主不雅感触感染三个角度合营束缚模型表示,可以有效避免模型在某一指标上表示凸起但整体后果不佳的问题。

研究团队还经由过程消融实验对办法内部机制进行了进一步分析。因为 SMC-CFG 引入了滑模面作为控制目标,并经由过程 switching 控制实现非线性反馈,这些设计都可能影响体系的稳定性和收敛行动,是以须要零丁验证各个构成部分的感化。
经由过程调剂关键参数,可以不雅察到体系在收敛速度、稳定性以及生成后果之间的变更关系,从而断定机能晋升是否确切来源于控制机制本身,而不是有时的参数组合。这一步对于证实办法的靠得住性异常关键,因为只有在不合设置下仍然表示出一致规律,才能解释设计具有理论支撑。
综合来看,这一系列实验构成了一个清楚的验证逻辑,也就是从线性控制到非线性控制的改变所带来的影响。传统 CFG 作为线性控制方法,在复杂生成过程中轻易激发不稳定行动,而引入滑模控制后,体系可以或许更稳定地收敛到目标状况。
这项研究并不只是解释研究提出了一种更强的办法,更重要的是,它改变了人们懂得图像生成模型的方法。以前,CFG 更像是一种经验性的调节手段,很多时刻只能靠赓续试参数来找均衡,知道它有效,但很难解释为什么有时有效、有时会掉控。雷峰网
研究团队把这个问题晋升成了控制问题,也就是把前提猜测和无前提猜测之间的差别算作误差旌旗灯号,把 guidance 算作控制输入,把 diffusion flow 算作一个动态体系。如许一来,后续研究就不再只是反复调 guidance,而是可以像设计控制系同一样,去分析稳定性、收敛性和鲁棒性,从经验技能走向体系理论。
研究还有一个很重要的意义,就是把 CFG 为什么会掉败这件事讲清楚了。很多人都知道,guidance scale 一旦调高,模型固然会更听 prompt 的话,但图像也更轻易崩,出现色彩不天然、构造扭曲、细节变坏的问题。
研究人员解释,根来源基本因在于 CFG 本质上是在做线性误差放大年夜,而 diffusion 本身倒是一个非线性体系,所以一旦放大年夜过火,就轻易出现振荡和发散。也正因为如斯,研究团队引入了滑模控制这种非线性控制办法,让体系在复杂情况下也能被拉回更稳定的轨道。
这个冲破的意义在于,它解释 diffusion guidance 本质上不是一个简单调权重的问题,而是一个须要用非线性控制来处理的问题。
在这种更稳定的动态过程中,语义信息可以或许更有效地注入,同时图像质量不会受到明显破坏,是以最终表示为语义对齐更好且图像质量更高。全部实验过程实际上是在慢慢验证这一因果链条,从而证实新的控制机制确切可以或许从根本上改进生成过程。
不是改进 CFG,而是重写 CFG
对通俗人来说,这项研究的影响也很直接。用户在应用 AI 画图对象时,最关怀的不是背后的理论,而是输入一句话之后,成果能不克不及稳定、能不克不及少翻车、能不克不及更接近本身的设法主意。更稳定的 guidance 机制意味着,今后生成复杂画面时,空间关系错乱、文字缺点、构造崩坏这些问题会更少,用户不须要为了获得一张能用的图反复测验测验很多次。
对于设计师、自媒体创作者、电商运营等人来说,这会直接降低试错成本,提赶过图效力。更长远地看,这项研究的价值就在于,它推动文生图模型从有时惊艳但不稳定,逐渐走向真正靠得住、可以进入日常工作和生活的对象。
CFG-Ctrl 背后的科研工作者
论文一作为汪晗阳,现为清华大年夜学电子工程系硕士一年级学生,本科卒业于清华大年夜学计算机科学与技巧系,2025 年获得工学学士学位,师从段岳圻,研究偏向集中在 3D 计算机视觉、视频生成和 AIGC。
相干学术成果揭橥于 CVPR、ICCV、NeurIPS、ECCV、TIP 和 TPAMI 等重要会议与期刊,内容涉及稀少视角 3D 重建、3D 生成中的人类偏好对齐、说话嵌入场景重建、视频生成测试时扩大、物理属性进修,以及从单张图像生成高质量 3D 网格等偏向。
论文的通信作者为段岳圻,他是清华大年夜学电子工程系教研系列副传授,博士生导师。研究偏向为计算机视觉、模式辨认。2014 年和 2019 年在清华大年夜学主动化系分别获得工学学士和博士学位,2019 至 2021 年在斯坦福大年夜学计算机系担负博士后研究员,合作导师为美国三院院士Leonidas J. Guibas传授。
他以第一/通信作者揭橥计算机视觉与模式辨认范畴 IEEE汇 刊和 CCF-A 类会群情文 40 余篇,以通信作者获 2024 年 ICME 最佳论文提名。
段岳圻入选中国科协青年人才托举工程项目,获 2025 年中国电子学会技巧创造一等奖、2024 年中国电子学会天然科学一等奖、2024 年公安部科学技巧一等奖。
担负IEEE TCSVT期刊编委,CVPR、ICCV、ECCV、ICML、ICLR等国际会议范畴主席,中国计算机学管帐算机视觉、人工智能与模式辨认、多媒体技巧专委会履行委员。

发表评论 取消回复