阶跃星辰宣布开源 Step3-VL-10B,包含 Base 模型和 Thinking 模型,机能超出 20 倍大年夜模型。

通知布告称,仅用 10B 参数量,Step3-VL-10B 在视觉感知、逻辑推理、数学比赛以及通用对话等一系列基准测试中均达到同范围 SOTA 程度,并且解决了参数量小和智能程度高难以兼优的行业难题。

在多项关键评测中,Step3-VL-10B 媲美甚至超出范围大年夜 10-20 倍开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。

基于如许一个小而强底座,本来只能在云端运行的复杂多模态推理(如 GUI 操作、复杂文档解析、高精度计数)可以或许下沉到手机、电脑甚至工业嵌入式设备中。

Step3-VL-10B 具备三大年夜核心亮点:

  • 极致视觉感知标杆:在同参数量级中展示出顶尖的辨认与感知精度。经由过程引入 PaCoRe(并行调和推理) 机制,模型在复杂计数、高精度 OCR 及空间拓扑懂得等高难度义务上的靠得住性实现了质的飞跃。

  • 强大年夜端侧 Agent 交互:基于海量 GUI(图形用户界面)专用预练习数据,模型可以或许精准辨认并操作复杂界面,成为端侧 Agent 的核心引擎。

Step3-VL-10B 供给 SeRe(次序推理)和 PaCoRe(并行调和推理)两种范式,在STEM 推理、辨认、OCR & 文档、GUI Grounding、空间懂得、代码等核心维度,都取得了千亿级别模型的优良分数,PaCoRe范式表示更优。

深层逻辑推演与长程推理:得益于范围化强化进修(RL)的持续迭代,Step3-VL-10B 在 10B 范围上实现了跨义务推理才能的阶跃。无论是比赛级数学难题、真实编程情况照样视觉逻辑谜题,模型均能经由过程严密的多步思维链推导出最终谜底。

  • 更多详情可查看官方通知布告。

  • 点赞(0) 打赏

    评论列表 共有 0 条评论

    暂无评论

    微信小程序

    微信扫一扫体验

    立即
    投稿

    微信公众账号

    微信扫一扫加关注

    发表
    评论
    返回
    顶部