今日,商汤正式开源多模态自立推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜刮与推理的核心基准测试中以 69.74 分超出Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。

SenseNova-MARS是首个支撑动态视觉推理和图文搜刮深度融合的 Agentic VLM 模型,它能本身筹划步调、调用对象,轻松搞定各类复杂义务,让AI真正具备“履行才能”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的 SOTA 成就,还超出Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜刮推理和视觉懂得两大年夜核心范畴周全领跑。更多细节请拜见技巧申报(https://arxiv.org/abs/2512.24330),迎接开辟者、各行业用户测试与体验。

全能冠军,自立解决复杂问题

SenseNova-MARS在多项多模态搜刮评测中展示出明显的领先优势,平均得分达到 69.74 分,成功跨越了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 在 MMSearch 榜单(图文搜刮核心评测)中,模型以 74.27 分登顶,超GPT-5.2(66.08 分);HR-MMSearch(高清细节搜刮评测)中以54.43 分领先,明显拉开与闭源模型的差距。

简单说,无论是须要“查遍全网”的常识密集型义务,照样须要“火眼金睛”的细粒度视觉分析,它都是当前的“全能冠军”。

用组合拳,解决真实场景问题

SenseNova-MARS还能实其实在落地到我们生活和工作的场景,解决须要“多步调推理+多对象协作”的问题。

通俗AI的对象调用,要么只能搜文字,要么只能看图片,碰到须要“先放大年夜细节、再辨认物体、最后查背景”的复杂义务就束手无策。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 SenseNova-MARS能从产品和行业峰会的照片中,辨认企业的标记,快速汇集产品、企业的信息,以及时光、数量、参数等细节要素,帮助分析行业情况和格局。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 

技巧申报:https://arxiv.org/abs/2512.24330

SenseNova-MARS能从赛事照片中辨认画面中的Logo、人物等信息,追溯比赛或人员背景信息,

赞助快速弥补重要细节。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 SenseNova-MARS甚至可以或许轻松处理,这类超长步调的多模态推理,和跨越三种对象调用,主动裁剪分析细节、搜刮相干研究数据,快速验证假设,得出关键断定。

拥有这种“自立思虑+多对象协作”的才能,SenseNova-MARS可以或许主动解决“细节辨认 + 信息检索 + 逻辑推理”复杂义务,赞助实现工作效力晋升。

l 图像裁剪:能精准聚焦图片上的渺小细节,哪怕是占比不到5%的细节——好比赛车手衣服上的渺小Logo、赛事照片里不雅众席的标语,都可经由过程裁剪放大年夜清楚分析。

l 图像搜刮:能在看到物体、人物或场景,的刹时主动匹配相干信息——比如辨认出赛车手的身份,或是某款冷门设备的型号。

面对辨认赛车服渺小 Logo + 查询公司成立年份 + 匹配车手出身年代 + 计算差值’的复杂义务,SenseNova-MARS 可自立调用图像裁剪、文本 / 图像搜刮对象,无需人工干涉完成闭环解答。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放 HR-MMSearch的测试标题堪称“AI界的奥林匹克”:采取305张2025年最新的4K超高清图片,确保AI无法依附旧常识“作弊”;所有问题都针对图片中占比不到5%的细节,比如小标记、小字、渺小物体,必须用图像裁剪对象才能看清;覆盖体育、娱乐文化、科学技巧、贸易金融、游戏、学术研究、地舆观光等八大年夜范畴,60%的问题都须要至少应用三种对象才能解答。

l 文本搜刮:能快速抓取精准信息——无论是公司成立年份、人物出身年代,照样最新的行业数据,都能秒级获取。

从练中学, 形成"直觉"和"经验"

SenseNova-MARS采取了“因材施教”的练习办法。

l 第一阶段:打基本。针对跨模态多跳搜刮推理练习数据稀缺的痛点,立异性的提出了基于多模智能体的主动化数据合成引擎,采取细粒度视觉锚点 + 多跳深度接洽关系检索的机制,动态发掘并接洽关系跨网页实体的逻辑,主动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验往来交往除幻觉数据,构造出具备严密逻辑链条与高常识密度的多跳搜刮问答数据。用精心筛选的“高难度案例”做教材,每个案例都标注了“该用什么对象、步调是什么”,让AI先学会根本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开端就接触真实复杂场景。

l 第二阶段:练实战。采取“强化进修”——就像侦察在一次次破案中积聚经验,AI每做对一次决定计划(比如选对对象、步调合理)就会获得嘉奖,做错了就调剂策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。 这种基于双阶段归一化的优雅机制有效腻滑了动态对象调用返回分布多样性带来的优化波动并确保了进修旌旗灯号分布的一致性,从而成功解决了跨模态多步多对象智能体练习过程中的收敛性难题。

经由如许的练习,AI不仅学会了用对象,更培养"对象应用直觉"——知道在什么情况下应当应用哪些对象,以及若何将不合对象的成果有机结合起来。

 模型、代码、数据全开源

商汤日日新SenseNova-MARS模型、代码、数据集全开源,支撑 Hugging Face 直接下载。

开源新标杆!商汤 SenseNova-MARS超 Gemini-3-Pro,模型代码数据全开放

Github 仓库:https://github.com/OpenSenseNova/SenseNova-MARS

模型仓库:

32B:https://huggingface.co/sensenova/SenseNova-MARS-32B

8B:https://huggingface.co/sensenova/SenseNova-MARS-8B 

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部