中国信息通信研究院近日组织完成 2025 年第四时度多模态大年夜模型专项测试工作,最新体系和测试成果如下:

2025年11月至12月测试涵盖多模态懂得、文生图与文生视频三项义务,共评估30个模型,个中包含10个多模态懂得大年夜模型、10个视频生成模型和10个图像生成模型。

1、多模态懂得义务测试成果

多模态懂得义务测试旨在考察模型对图像、文本、图表等信息的深层解析与逻辑推理才能,涵盖函数求解、几何分析、表格分析、身份分析、色彩分析、将来猜测、关系分析、物理推理、IQ问题维度

本此测试10个多模态懂得大年夜模型,个中国内模型5个,国外模型5个,包含Google Gemini-3-pro-preview、OpenAI GPT-5.2-high、智谱GLM-4.6V、字节跳动Doubao-Seed-1-6-vision-250815等代表性模型。测试成果显示:一是谷歌Gemini-3-pro-preview综合得分位居榜首,其表示小幅领先于 GPT-5.2-High,并明显优于 GLM-4.6V。二是国内模型之间差距较小,GLM-4.6V、Doubao-Seed-1-6-vision与 Qwen3-VL-235B-A22B-Thinking得分高度集中,表现出国内模型在核心才能上的紧追态势。

本期测试9类指标,不合维度才能差别明显:从全球模型的整体程度来看,其在身份分析、将来猜测、色彩分析等基本义务达到较高才能程度,而函数求解、几何分析和IQ问题等复杂学科、高强度推理义务上仍存在瓶颈。从国内模型的表示来看,其在身份分析、色彩分析、物理推理这类规矩明白的义务中表示凸起;但将来猜测、IQ问题这类涉及开放推理、长程逻辑或场景推演的义务上,仍有较大年夜晋升空间。

从 2025年2月至12月的持续监测成果看,国表里多模态大年夜模型在图像懂得才能均出现稳步上升态势,反应出多模态懂得才能已成为技巧竞争的关键赛道。值得存眷的是,国内模型视觉懂得才能出现追赶态势,但面向复杂物理世界的懂得与推理仍存在必定机能差距。

2、文生图义务测试成果

文生图义务测试考察模型将文本指令转换为高质量图像的才能,核心考察生成图像的色彩表示力、空间构建才能、中国文化表达、主体描述才能、要素还原才能、色彩表示力、文字创作才能和数量生成才能。

本轮测试10个图像生成模型,个中国内模型6个与国外模型4个,包含字节跳动Seedream 4.5、谷歌Nano Banana Pro、阿里巴巴Wan2.6、Z-Image-Turbo等代表性模型。测试成果显示,一是国外模型暂居领先,谷歌Nano Banana Pro综合得分家榜首,阿里巴巴Z-Image-Turbo以微弱差距紧随厥后。二是国内大年夜模型图像生成才能得分接近,字节跳动Seedream 4.5、腾讯HunyuanImage3.0、阿里巴巴Wan2.6才能差距较小,展示出强劲竞争力。

在图像生成才能方面,国内模型在色彩表示、要素还原才能和中国文化表达维度优于国外模型。这一成果注解国内模型在高精度控生成的技巧沉淀,也表现出其深耕本土市场数据、适配文化审美偏好的练习路径。然而,当前模型在文字内容生成、数量一致性保持及空间构建等方面仍存在局限,如文字生成易出现细节误差、数量控制稳定性不足、空间构造与物体关系构建才能亦有欠缺。整体来看,模型对单一元素类指令的履行后果较好,但在“数量-空间地位-物体接洽关系”等复合指令的处理上,仍有较大年夜晋升空间。

从2025年2月至12月的持续测试成果看,国表里模型文生图才能程度十分接近,时代整体才能均有明显进步。当前,国内模型在物理空间模仿、复杂要素还原、多轮图像编辑等高阶生成才能方面仍有晋升空间。

文生视频义务测试考察模型从文本指令生成连贯视频的才能,涵盖视频画质衬着、要素搭建才能、动态塑造才能、空间模仿、影视素材、超实际内容生成和中国文化适配才能。

本轮评测10个视频生成模型,个中国内模型7个,国外模型3个,包含Runway Gen-4.5、OpenAI Sora2、快手可灵2.6、阿里巴巴Wan-2.6等主流模型。测试成果显示,一是Runway Gen-4.5在本轮评测中综合排名第一,以微弱优势领先快手可灵2.6。二是国内模型在本次评测前五名中占据三席,分别为快手可灵2.6、阿里巴巴Wan-2.6与字节跳动即梦3.0,在视频生成关键技巧指标上达到国际较好程度。三是国内模型的迭代与宣布节拍更快,快手可灵从1.0到2.6,在约18个月内进行了跨越7次版本迭代,而OpenAI 从Sora到Sora 2的大年夜版本迭代距离约20个月。

在视频生成才能方面,国内模型在中国文化适配及影视素材生成两个维度的表示明显因为国外模型,表现出其在本土文化内容适配、影视级风格还原上的定向优化成果。国外模型则在空间模仿与要素组织等生成才能上保持必定优势。整体来看,当前模型在动作合理性、过程连贯性以及细节完全性等方面时常出现误差,尤其在“物理逻辑-动态塑造-场景细节”等复合维度的融合生成才能上,有待进一步加强。

3、文生视频义务测试成果

2025年度的持续测试注解,国内头部模型展示出了强劲的迭代才能,在上半年与国际顶尖程度存在差距,至岁尾已在综合机能上实现并跑。然而,在物理空间模仿、复杂要素搭建等高阶生成才能上,国表里模型仍需持续冲破。


“方升-多模态”大年夜模型基准测试体系,构建了覆盖评估指标、数据构建、评测办法、测试对象四大年夜核心层面的全维度评估框架。评估指标设计上,环绕多模态懂得与多模态生成两大年夜核心偏向,涵盖函数推理、几何分析、图表解析,以及视频流畅性、物理逻辑、图像美学等方面。测试数据集方面,自建累计超20万条多模态数据,视觉懂得类数据侧重选择、断定与问答推理才能,文生图、文生视频类数据则聚焦复合提示词的指令遵守后果,为模型的高效评估与优化供给周全支撑。测试办法方面,形成以大年夜模型测试与定量测试相融的多模态调和测试办法,支撑多模态交互一致性的高效评估。测试对象方面,紧扣多模态同一评估框架请求,实现对懂得、生成及调和才能的一体化主动化评测。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部