在多项主流 Agent 基准测试中,IFLow-CLI + ROME-V0.1在同范围开源模型中取得了领先成果,并在部分榜单上接近 100B+ 参数范围模型——例如,在 Terminal-Bench 2.0 上达到 24.72% 的成功率,在 SWE-bench Verified 上取得 57.40% 的义务完成率。

阿里巴巴将来生活实验室与智能引擎、数据技巧团队正式宣布智能体模型ROME-V0.1(ROME is Obviously an Agentic ModEl)。

ROME-V0.1 是面向真实履行场景练习的智能体模型,其并非针对某些单一评测的优化,而是建立在大年夜范围真实情况交互、端到端履行闭环练习以及面向长链义务的强化进修范式之上。得益于完美的练习体系基建--ALE(Agentic Learning Ecosystem),ROME-V0.1 在 跨越百万数量级其余可验证交互轨迹上完成练习。

具体介绍查看:https://mp.weixin.qq.com/s/9qM6iDu9yeagJa-Z9BFtcQ

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部