
阶跃星辰宣布开源 Step3-VL-10B,包含 Base 模型和 Thinking 模型,机能超出 20 倍大年夜模型。
通知布告称,仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学比赛以及通用对话等一系列基准测试中均达到同范围 SOTA 程度,并且解决了参数量小和智能程度高难以兼优的行业难题。
在多项关键评测中,Step3-VL-10B 媲美甚至超出范围大年夜 10-20 倍开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。
基于如许一个小而强底座,本来只能在云端运行的复杂多模态推理(如 GUI 操作、复杂文档解析、高精度计数)可以或许下沉到手机、电脑甚至工业嵌入式设备中。
Step3-VL-10B 具备三大年夜核心亮点:
-
极致视觉感知标杆:在同参数量级中展示出顶尖的辨认与感知精度。经由过程引入 PaCoRe(并行调和推理) 机制,模型在复杂计数、高精度 OCR 及空间拓扑懂得等高难度义务上的靠得住性实现了质的飞跃。
-
强大年夜端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预练习数据,模型可以或许精准辨认并操作复杂界面,成为端侧 Agent 的核心引擎。
Step3-VL-10B 供给 SeRe(次序推理)和 PaCoRe(并行调和推理)两种范式,在STEM 推理、辨认、OCR & 文档、GUI Grounding、空间懂得、代码等核心维度,都取得了千亿级别模型的优良分数,PaCoRe范式表示更优。

深层逻辑推演与长程推理:得益于范围化强化进修(RL)的持续迭代,Step3-VL-10B 在 10B 范围上实现了跨义务推理才能的阶跃。无论是比赛级数学难题、真实编程情况照样视觉逻辑谜题,模型均能经由过程严密的多步思维链推导出最终谜底。


更多详情可查看官方通知布告。

发表评论 取消回复