第四类实验是冲突义务实验。研究人员设计了一组互相抵触的编辑义务,用来测试模型在复杂前提下的表示。例如图像去模糊与图像模糊、图像恢复与图像老化等义务,这些义务在本质上具有相反的目标。

很多机械进修体系在设计时都默认一个前提:模型一旦练习完成,其参数根本是固定的。无论输入是什么样的数据,模型都邑依附同一套参数完成推理。这种范式在以前十多年里异常成功,模型才能的晋升重要依附更大年夜的模型范围、更多的数据以及更长时光的练习。但当人工智能逐渐进入加倍复杂的应用情况时,这种“固定参数”的方法也开端浮现出局限。

实际义务往往具有高度多样性,不合用户需求、不合义务目标甚至可能彼此冲突。例如在图像编辑场景中,同一张图片可能会对应完全不合的修改请求。有的义务须要加强细节,例如去模糊或图像修复,而另一些义务则须要弱化细节,例如增长模糊后果或模仿老照片的老化过程。假如模型始终依附同一套参数,它往往只能在不合目标之间做出折中,从而影响最终后果。

在如许的背景下,腾讯混元团队提出了论文《HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing》。

在这一机制下,模型在面对每一个输入时都邑生成一组新的参数调剂,从而使同一个基本模型可以或许在不合义务之间灵活切换,并表示出不合的行动模式。

这项研究测验测验改变模型适应义务的方法:让模型在推理阶段根据当前输入及时动态生成合适该义务的参数,而不是始终依附一套固定参数。经由过程这种机制,同一个基本模型在面对不合义务时可以表示出不合的行动模式,从而实现加倍灵活的及时适配才能。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

论文地址:https://arxiv.org/pdf/2603.07236

一个模型,多种行动

研究经由过程多种实验验证了一个核心不雅点:假如模型可以或许针对每个输入动态生成参数,而不是始终应用一套固定参数,那么在复杂义务中会表示得更好。为验证这一点,研究人员设计并开展了四类实验。

起首是人类评测实验。研究团队进行了大年夜范围人工评测。评测流程是:在同一输入图片和编辑指令的前提下,让不合模型分别生成编辑成果,然后由人类评审在两个成果之间选择更好的一个,并统计最终的胜率。

成果显示,HY-WU 在多个主流模型比较中具有明显优势。例如,对 Step1X-Edit 的胜率约为 78.4%,对 Qwen-Image-Edit 的胜率约为 70.5%,对 LongCat-Image-Edit 的胜率约为 68.3%,对 FLUX.2 的胜率约为 55.5%。在与部分闭源贸易体系比较时,对 Seedream 4.5 的胜率约为 55.6%,对 GPT Image 1.5 的胜率约为 55.5%。与最先辈的贸易体系 Nano Banana 系列比拟,HY-WU 的表示略微落后,但整体差距不大年夜。这些成果注解,经由过程动态生成参数的方法,在视觉编辑后果上具有明显优势。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

其次是主动评测实验。除了人工评测,研究人员还设计了主动评估体系 WU-Eval。该体系从四个维度对图像成果进行评价,包含指令对齐、内容一致性、构造合理性以及图像质量。

实验成果显示,HY-WU 在这些指标上取得了最高的总体得分 4.27,个中 consistency 为 4.13,structure 为 4.30,quality 为 3.98。与最强的开源模型比拟,consistency 进步约 0.27,structure 进步约 0.23。这些成果解释,经由过程动态生成参数的机制,可以明显晋升图像编辑过程中的稳定性以及构造保持才能。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

第三类实验是在公开 benchmark 上的评测。研究团队在两个公开图像编辑评测数据集长进行了测试。在 GEdit-Bench 上,HY-WU 在所有开源模型中排名第一;在 ImgEdit-Bench 上,HY-WU 的总体得分为 4.05,在开源模型中排名第二。这解释该办法不仅在内部实验中有效,在公开评测情况中同样具有较强竞争力。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

实验比较了三种不合策略。第一种是 Single LoRA,即为每个义务分别练习自力模型。实验成果显示,这种办法在对应义务上表示很好,但无法处理其他义务,解释模型出现过度专门化的问题。第二种是 Shared LoRA,即多个义务共享一个模型。实验成果显示,这种方法固然可以处理所有义务,但后果明显被折中,例如在去模糊和模糊之间出现一种“半模糊”的成果。第三种是 HY-WU 办法,即针对每个输入动态生成不合参数。实验成果注解,在这种机制下,每个义务都可以或许被精确履行,并且不合义务之间不会互相干扰,这解释动态参数生成可以有效避免义务冲突问题。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

一个模型,多套参数

在实验过程中,研究团队提出的 HY-WU 体系本质上是一种动态参数生成框架,其核心思惟是让模型在推理阶段根据当前输入动态生成合适该义务的参数,而不再始终依附一套固定参数来处理所有问题。传统模型在安排后平日应用同一组参数处理所有输入,而 HY-WU 的设计思路则不合,它经由过程一个额外的参数生成模块,使模型在面对不合输入时可以或许产生不合的参数设备,从而形成针对当前义务加倍合适的计算方法。

在义务设置方面,研究人员将实验义务设定为文本指导图像编辑。在这一义务中,体系的输入包含两部分信息,一部分是一张原始图片,另一部分是一条描述编辑需求的文本指令。模型须要根据这两部分信息生成一张新的编辑成果图像。

为了包管编辑成果具有优胜的可用性,义务目标包含三个方面。起首,模型必须精确履行文本指令中所描述的编辑操作,例如改变某个物体的属性或调换某个区域。其次,在履行编辑时须要保存与指令无关的重要内容,也就是说只修改须要改变的部分,而尽量保持其他区域不产生变更。

第三,生成图像须要保持整体构造的一致性,例如人物的姿势、空间关系或背景构造不克不及出现明显破坏。例如在一个典范场景中,输入是一张人物图片,同时给出一条指令请求将人物的衣服调换为另一张图中的衣服。在这种情况下,体系须要在改变衣服外不雅的同时保持人物身份特点、姿势以及背景情况不产生变更,使最毕生成的图像看起来真实且天然。

以前,研究人员平日经由过程 domain adaptation 或模型微调来缓解这一问题。当模型进入新的范畴时,须要从新练习或调剂参数,使其适应新的数据分布。然而这种方法往往意味着额外练习成本,同时也增长了体系安排和保护的复杂度。那么有没有机会做到及时adaptation?

在体系构造方面,HY-WU 体系可以分为三个重要阶段。第一阶段是前提信息提取阶段。在这一阶段中,体系分别从输入图像和文本指令中提取特点信息,并将两种模态的信息融合形成一个同一的前提表示。

这一前提表示描述了当前输入中包含的视觉内容以及用户所提出的编辑需求,是后续参数生成过程的重要根据。经由过程这种方法,体系可以或许懂得当前图像中包含的对象、构造以及文本指令所请求的变更偏向。

第二阶段是模型参数生成阶段。在这一阶段中,提取到的前提信息会被输入到一个基于 Transformer 架构的参数生成收集中。该收集的义务不是直接生成图像,而是根据输入前提生成一组新的模型参数,这些参数以 LoRA adapter 的情势存在。

LoRA adapter 是一种常见的参数高效更新方法,可以在不修改原始模型主体构造的情况下改变模型行动。经由过程这一机制,参数生成收集可以或许根据当前输入前提生成合适该义务的参数更新,从而使基本模型在履行推理时具备针对当前义务的才能。

第三阶段是履行图像编辑阶段。在这一阶段中,体系会将生成的 LoRA adapter 参数插入到基本模型中,使模型在当前输入前提下以新的参数构造运行。随后基本模型在这些参数的感化下完成图像生成或编辑过程,并输出最终成果。因为参数生成收集会针对每一个输入生成不合的参数,是以即使应用同一个基本模型,不合输入也会对应不合的参数设备。这意味着模型在处理不合义务时可以或许表示出不合的行动模式,从而晋升整体适应才能。

在练习方法方面,HY-WU 采取了一种与传统办法明显不合的练习策略。传统办法在进行参数生成或适配研究时,平日须要先预先练习大年夜量模型,然后再经由过程进修过程重建这些模型参数,从而练习一个可以或许生成参数的收集。这种方法不仅须要存储大年夜量模型,还会带来较高的练习和数据治理成本。雷峰网("大众,"号:雷峰网)

与之比拟,研究团队在 HY-WU 中采取了加倍直接的练习方法。在练习过程中,体系起首输入图像和编辑指令,然后由参数生成收集根据输入前提生成对应的模型参数。接着体系应用这些参数在基本模型中生成编辑后的图像。随后根据生成成果与目标之间的差别计算损掉,并根据损掉成果更新参数生成收集。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

全部练习流程可以概括为五个步调,即输入图像和指令、生成模型参数、生成编辑图像、根据编辑后果计算损掉以及更新参数生成收集。经由过程这种方法,体系可以或许直接环绕最终义务目标进行优化,同时避免存储和治理大年夜量模型参数,从而降低练习过程中的复杂度,并使参数生成机制加倍灵活。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

一个模型,应对无穷变更的义务

从技巧层面来看,这项研究可以被懂得为一种新的图像编辑办法,但假如从更宏不雅的角度进行分析,它实际上提出了一种新的模型适应方法。

传统模型平日依附一套固定参数来处理所有义务,而实际世界的问题往往是多样且赓续变更的。例如,不合用户需求可能完全不合,不合义务目标之间也可能存在明显差别,同时数据分布在不合场景中也会产生变更。在这种情况下,一套固定参数很难同时适应所有情况,是以模型在复杂情况中的表示往往受到限制。

在以前十几年中,机械进修范畴平日经由过程 domain adaptation 来解决这一问题。当模型进入新的范畴时,研究人员往往须要从新练习模型,或者经由过程微调的方法使模型适应新的数据分布。雷峰网

这种办法确切可以在必定程度上晋升模型在新范畴中的表示,但其成本也相对较高。每进入一个新的范畴平日都须要从新进行练习,体系安排过程会变得加倍复杂,同时模型更新的周期也会变得较长。

跟着模型范围的赓续成长,研究人员开端摸索另一种新的思路,等于否可以让模型在运行过程中主动适应义务,而不须要从新练习模型。在这一背景下,HY-WU 可以被看作这种思路的一种具体实现方法。与传统办法不合,这一办法进修的并不是一组固定的模型参数,而是进修若何根据当前输入生成合适的参数更新,从而让同一个基本模型在面对不合义务时可以或许表示出不合的行动模式。

从更抽象的角度来看,一个真正强大年夜的模型须要具备两个关键才能。起首,模型必须具备 adaptation 才能,也就是说模型可以或许根据不合义务改变本身的行动方法,而不是始终应用同一种处理策略。

其次,这种 adaptation 必须是及时产生的。假如每一次适应都须要从新练习模型,那么体系在真实情况中的应用就会受到很大年夜限制。是以,一个真正智能的体系不仅须要具备适应才能,还须要可以或许实现及时适应。

在如许的框架下,在如许的框架下,HY-WU 的核心意义不仅在于晋升图像编辑义务中的机能,更重要的是,它实现了一种推理阶段的及时适应机制(real-time adaptation)。具体来说,模型在处理每一次输入时,都邑根据当前图像和指令动态生成一组新的参数,使模型可以或许针对当前义务调剂自身行动。

从更长远的角度来看,这项研究也为将来人工智能体系的成长供给了一种新的偏向。将来的 AI 体系可能不再依附单一的固定模型,而是须要在运行过程中及时调剂自身的参数构造,从而持续适应赓续变更的义务情况和应用处景。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

腾讯混元团队最新研究:让 AI 从「固定模型」走向「及时适配体系」

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部