阶跃星辰多模态“小核弹” Step3-VL-10B 开源

33 阅读 0 评论 0 点赞

阶跃星辰宣布开源 Step3-VL-10B，包含 Base 模型和 Thinking 模型，机能超出 20 倍大年夜模型。

通知布告称，仅用 10B 参数量，Step3-VL-10B 在视觉感知、逻辑推理、数学比赛以及通用对话等一系列基准测试中均达到同范围 SOTA 程度，并且解决了参数量小和智能程度高难以兼优的行业难题。

在多项关键评测中，Step3-VL-10B 媲美甚至超出范围大年夜 10-20 倍开源模型（如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）以及顶级闭源旗舰模型（如 Gemini 2.5 Pro、Seed-1.5-VL）。

基于如许一个小而强底座，本来只能在云端运行的复杂多模态推理（如 GUI 操作、复杂文档解析、高精度计数）可以或许下沉到手机、电脑甚至工业嵌入式设备中。

Step3-VL-10B 具备三大年夜核心亮点：

极致视觉感知标杆：在同参数量级中展示出顶尖的辨认与感知精度。经由过程引入 PaCoRe（并行调和推理）机制，模型在复杂计数、高精度 OCR 及空间拓扑懂得等高难度义务上的靠得住性实现了质的飞跃。
强大年夜端侧 Agent 交互：基于海量 GUI（图形用户界面）专用预练习数据，模型可以或许精准辨认并操作复杂界面，成为端侧 Agent 的核心引擎。

Step3-VL-10B 供给 SeRe（次序推理）和 PaCoRe（并行调和推理）两种范式，在STEM 推理、辨认、OCR & 文档、GUI Grounding、空间懂得、代码等核心维度，都取得了千亿级别模型的优良分数，PaCoRe范式表示更优。

深层逻辑推演与长程推理：得益于范围化强化进修（RL）的持续迭代，Step3-VL-10B 在 10B 范围上实现了跨义务推理才能的阶跃。无论是比赛级数学难题、真实编程情况照样视觉逻辑谜题，模型均能经由过程严密的多步思维链推导出最终谜底。

更多详情可查看官方通知布告。

点赞(0) 打赏

暂无评论