近年来,多模态大年夜模型的成长正在赓续推动视觉懂得才能的晋升。从图像分类、目标检测到视觉问答等义务,视觉体系已经可以或许在多种场景中实现较高程度的辨认和推理才能。然而,在更复杂的层级视觉辨认义务中,现有模型仍然存在明显不足。

实际世界中的很多视觉概念天然具有层级构造,例如生物分类体系中的“界—门—纲—目—科—属—种”,以及商品分类、医学诊断等范畴中的多层级标签体系。这类义务不仅请求模型辨认具体类别,还须要懂得不合类别之间的层级关系和语义构造。但今朝多半视觉模型仍然基于扁等分类框架进行练习,在进行层级猜测时轻易出现分类路径不一致或层级关系冲突等问题。

与此同时,在开放世界情况中,视觉模型还须要具备辨认未知类其余才能。以生物辨认义务为例,实际世界中的物种数量远远跨越现稀有据集的覆盖范围,新的物种仍在赓续被发明。

当模型面对练习数据中未出现的类别时,往往难以进行合理揣摸。若何应用已有常识赞助模型懂得类别之间的层级构造,并在有限数据前提下揣摸未知类别,逐渐成为当前视觉智能研究中的重要问题。

他们经由过程引入生物基本模型中的分类学常识,并将其与多模态模型的中心表征进行对齐,使模型可以或许进修到具有层级构造的视觉表示,从而晋升模型在层级视觉辨认义务中的一致性表示,并加强其在未知类别辨认义务中的泛化才能。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

论文地址:https://arxiv.org/pdf/2603.00431

TARA 让多模态模型更懂「层级关系」

实验团队经由过程在多个数据集和多种评价指标下开展实验,对提出的 TARA(Taxonomy-Aware Representation Alignment)办法在层级视觉辨认义务中的有效性进行了验证。

起首,在已知类别辨认才能方面,研究在 iNaturalist-2021(iNat21)数据集长进行了实验。该数据集包含大年夜量具有层级分类构造的生物图像,并划分为植物和动物两个子数据集。实验成果注解,在引入 TARA 办法之后,模型在多个评价指标上均获得明显晋升。雷峰网("大众,"号:雷峰网)

在 iNat21-Plant 数据集上,Qwen3-VL-2B 基本模型在经由强化进修微调后,层级一致性精确率(HCA)由 9.23% 晋升到 12.78%,叶节点精确率(Accleaf)由 31.96% 晋升到 32.66%,同时 POR、S-POR 和 TOR 等层级评价指标也分别晋升约 3% 至 6%。

在 iNat21-Animal 数据集上,HCA 由 8.57%晋升到 10.26%,Accleaf 由 29.32% 晋升到 30.77%,其他层级指标也均出现晋升趋势。对于范围更大年夜的 Qwen2.5-VL-3B 模型,在植物数据集上的 HCA 晋升至 19.53%,在动物数据集上的 HCA 晋升至 24.02%,各项指标均持续进步。以上成果注解,TARA 办法可以或许稳定晋升不合范围多模态模型在层级分类义务中的整体机能。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

其次,在未知类别辨认才能方面,研究团队为了验证模型是否真正进修到分类学常识,而非仅仅记忆练习类别,在 TerraIncognita 数据集长进行了测试。该数据集包含大年夜量罕见或未知物种图像,个中部分物种可能从未涌如今练习数据中。

实验成果显示,在已知类别场景下,Order F1 从 23.30 晋升到 41.56,Family F1 从 11.47 晋升到 25.47;在未知类别场景下,Order F1 从 23.30 晋升到 33.45,Family F1 从 11.47 晋升到 12.67。这一成果注解,TARA 不仅晋升了模型对已知类其余辨认才能,同时也明显加强了模型在面对未知物种时的泛化才能。

参考链接:http://39.108.48.32/mipl/news/news.php?id=CHhehulingxiao

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

再次,在模型表征才能方面,研究人员经由过程线性探针实验进一步分析了 TARA 对视觉特点表达才能的影响。实验过程为从模型最后一层提取图像 token 表征,并应用线性分类器进行练习,在 iNat21-Plant 数据集上测试分类精确率。实验成果注解,原始模型的分类精确率为 13.30%,参加强化进修后晋升到 14.40%,在进一步引入 TARA 办法之后精确率晋升到 18.30%。这一成果解释 TARA 可以或许赞助模型进修到加倍具有判别力的视觉特点表示。

此外,在分类型视觉问答义务方面,研究团队在 ImageWikiQA 数据集上对模型机能进行了测试。该数据集包含基于 ImageNet 图像的复杂视觉问答义务。实验成果显示,基本模型的精确率为 46.60%,经由强化进修微调后晋升到 48.70%,在引入 TARA 办法之落后一步晋升到 51.40%。这一成果注解,经由过程加强层级视觉懂得才能,可以进一步晋升模型在复杂视觉懂得和推理义务中的整体表示。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

最后,在练习效力方面,研究人员对模型练习过程中机能变更进行了分析。实验成果显示,在练习早期阶段,引入 TARA 的模型机能已经跨越基线模型;在雷同练习步数前提下,TARA 模型的 HCA 指标和叶节点精确率均高于未应用该办法的模型,解释这种办法可以或许加快模型的练习收敛过程。同时,因为 TARA 仅增长少量投影层,是以整体计算开销较小,对练习效力影响有限。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

从数据到练习的完全实验框架

为了验证办法的有效性,研究团队设计了一套完全的实验流程,个中包含模型练习筹划、数据集构建方法以及评价指标体系的设计。起首在实验数据集方面,研究人员拔取了多个具有代表性的公开数据集进行实验。

个中 iNaturalist-2021(iNat21)是一个大年夜范围生物图像数据集,包含完全的生物分类体系。该数据集包含两个子集,个中 Plant 子集包含 4271 个物种类别,Animal 子集包含 5388 个物种类别。数据集中每个样本都具有六级分类构造,即 Kingdom、Phylum、Class、Order、Family 和 Species 六个层级,是以异常合实用于层级视觉辨认研究。雷峰网

与此同时,研究人员还应用 ImageWikiQA 数据集对模型在复杂视觉问答义务中的表示进行测试。该数据集中的问题涉及真实世界常识,须要模型同时完成图像懂得和常识推理,从而可以或许考验模型在复杂视觉懂得场景中的才能。

除了 iNat21 数据集之外,研究团队还应用了 TerraIncognita 数据集来测试模型在开放世界情况下的辨认才能。该数据集包含来自中美洲和南美洲生物多样性热点地区的虫豸图像,个中很多物种缺乏公开图像数据,并且部分物种可能尚未被科学界正式记录,是以可以或许用于评估模型在未知类别辨认义务中的表示。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

在练习办法方面,研究团队将强化进修微调办法与 TARA 表征对齐办法结合起来进行练习。起首采取 No-Thinking 强化进修微调策略。传统强化进修平日请求模型在生成谜底进步行推理过程,但研究人员发明,在分类义务中不进行显式推理反而可以或许获得更好的后果,是以练习过程中采取提示语 Please directly output the answer。嘉奖函数的设计为,假如模型猜测成果精确则嘉奖值为 1,假如猜测成果不精确则嘉奖值为 0。

在此基本上,研究团队引入 TARA 表征对齐办法,经由过程两个对齐义务向模型注入分类学常识。第一部分为视觉表示对齐。具体步调包含应用生物基本模型(BFM)提取图像特点,获取多模态模型中心层的视觉特点,将两者映射到同一特点空间,并应用余弦类似度进行对齐。

经由过程这一过程,模型可以或许进修相符生物分类构造的视觉表示空间。第二部分为标签表示对齐。具体过程为将分类标签输入 BFM 文本编码器获得标签嵌入,然后将多模态模型生成谜底的 token 表征映射到同一空间,并进行类似度对齐。经由过程这种方法,模型可以或许进修不合层级标签之间的语义关系。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

在练习过程中,研究团队采取瓜代练习策略,使模型在两种目标之间赓续优化。一方面经由过程强化进修优化分类义务,另一方面经由过程 TARA 进行常识对齐,从而使模型逐渐接收生物分类学常识并晋升层级辨认才能。

在评价指标方面,为了周全评估模型在层级视觉辨认义务中的表示,研究人员设计了多种评价指标。个中 Hierarchical Consistent Accuracy(HCA)用于评估模型是否可以或许精确猜测完全的分类路径,例如 Animal、Chordata、Aves、Passeriformes、Thraupidae、Dacnis,假如个中随便率性一层猜测缺点,则整条路径都视为猜测缺点。Leaf-level Accuracy(Accleaf)用于衡量最细粒度类别,也就是叶节点类其余猜测精确率。

Point-Overlap Ratio(POR)用于统计猜测路径中精确节点所占的比例。Strict Point-Overlap Ratio(S-POR)在此基本上请求猜测节点必须是持续精确的节点才管帐入得分。Top Overlap Ratio(TOR)则用于衡量相邻层级之间猜测成果的一致性,经由过程这些指标可以周全评估模型在层级构造辨认义务中的整体机能。

让视觉模型学会「揣摸未知」

整体来看,这项研究在理论和实际应用方面都具有较为重要的意义。起首,在解决多模态模型层级辨认才能不足的问题方面,现有多模态模型固然在细粒度辨认义务中已经取得较好的后果,但在层级辨认义务中仍然轻易出现分类路径缺点以及层级关系不一致等情况。

针对这一问题,研究团队提出的 TARA 办法经由过程引入分类学常识,使模型在辨认过程中可以或许更好地保持不合层级之间的逻辑关系,从而明显晋升模型在层级分类义务中的一致性表示。

其次,在晋升模型对未知类其余泛化才能方面,研究人员指出在真实情况中新的物种仍在赓续被发明,传统模型在缺乏练习样本的情况下往往难以进行精确辨认。TARA 应用生物基本模型中蕴含的分类学常识,使模型可以或许揣摸未知类别之间的层级关系,并在缺乏练习样本的情况下仍然完成辨认义务,这对于开放世界辨认义务具有重要意义。

再次,在办法层面,研究提出了一种新的思路,即经由过程中心表征对齐的方法,将范畴常识注入到多模态模型之中。研究团队认为,这种办法不仅可以应用于生物分类义务,还可以或许推广到其他具有层级构造的应用处景,例如医学影像分类、商品分类以及常识图谱推理等范畴,从而为多模态大年夜模型与范畴常识结合供给了一种具有普适性的技巧路径。

最后,在推动通用视觉懂得体系成长方面,研究人员认为将来的视觉体系不仅须要具备辨认具体对象的才能,还须要可以或许懂得不合对象之间的构造关系。经由过程在模型练习过程中引入层级常识,多模态大年夜模型可以慢慢具备对构造化常识的懂得才能,从而进一步成长成为可以或许懂得复杂构造关系的视觉智能体系。

构建 TARA 的人

这篇论文的一作何胡凌霄,现为北京大年夜学王选计算机研究所多媒体信息处理实验室博士生,师从彭宇新传授,重要研究偏向为细粒度多模态大年夜模型。

学术研究方面,他重要环绕细粒度视觉辨认、多模态大年夜模型等偏向开展研究工作,在计算机视觉和多模态进修范畴揭橥多篇论文,个中多篇被CVPR、ICLR、ICDE、BMVC、PRCV等国际学术会议接收,并介入相干范畴的研究项目。

在进修时代,他还获得国度奖学金、北京理工大年夜学优良卒业生、北京理工大年夜学优良学生标兵等多项荣誉,并在全国大年夜学生数学建模比赛北京赛区获得一等奖,在华为云人工智能大年夜赛无人车挑衅杯中获得优胜奖等。

在基本模型选择方面,研究人员采取 Qwen 系列多模态模型作为实验基本模型,包含 Qwen3-VL-2B-Instruct 和 Qwen2.5-VL-3B-Instruct 两种模型。这些模型在零样本视觉懂得义务中表示优胜,是以合适作为层级视觉辨认研究的基本模型。

在这一背景下,北大年夜王选所的彭宇新团队在论文《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》中提出了一种新的办法 TARA。

论文的通信作者彭宇新,北京大年夜学王选计算机研究所传授、博士生导师,北京大年夜学二级传授、博雅特聘传授,同时为IEEE、CCF、CAAI、CIE、CSIG Fellow,曾入选国度出色青年科学基金获得者、国度万人筹划以及科技部中青年科技立异领军人才等人才筹划。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

他于 2003 年卒业于北京大年夜学信息科学技巧学院计算机应用技巧专业并获得博士学位,此后在北京大年夜学开展教授教化与科研工作。其重要研究偏向包含多媒体分析、计算机视觉和人工智能等范畴。

彭宇新在相干范畴取得了丰富的学术成果,揭橥 TPAMI、IJCV、CVPR、NeurIPS、ICML 等国际重要期刊和会群情文 170 余篇,多次获得最佳论文奖,研究成果被国际同业评价为在无对象标注图像细分类等问题上取得重要进展。他提出了“弱监督深度图像细粒分类”等立异办法,并建立了跨媒体评测基准PKU XMediaNet,被全球多所高校和机构广泛应用。其团队在 NIST 组织的 TRECVID 视频检索国际评测中多次获得第一名,并在多项国际视觉比赛中取得优良成就。

此外,他主持承担国度 863 筹划、国度天然科学基金重点项目等 40 余项科研项目,申请创造专利 50 余项并获得多项授权,相干成果已在国度网信办、公安部、国度广播电视总局以及多家互联网企业中获得应用。同时,他还积极介入学术组织和期刊工作,担负多个国际期刊编委和重要学术会议的组织者,在人工智能与计算机视觉范畴具有重要影响力。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

参考链接:http://39.108.48.32/mipl/pengyuxin/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

北大年夜王选所彭宇新团队:让多模态大年夜模型学会「看懂物种关系」丨CVPR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部