Midscene v1.0 宣布 - 视觉驱动,UI 主动化体验跃迁
Midscene 是一个视觉模型驱动,支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队宣布 Midscene v1.0 版本已发布,全面转向视觉理解方案,提供更稳定可靠的 UI 自动化能力。 视觉模型有以下特点: 效果稳定 ...
应用介绍
Midscene 是一个视觉模型驱动,支撑全平台的 UI 主动化 SDK。ByteDance Web Infra 团队宣布 Midscene v1.0 版本已宣布,周全转向视觉懂得筹划,供给更稳定靠得住的 UI 主动化才能。
视觉模型有以下特点:
-
后果稳定 :业界领先的视觉模型(如 Doubao Seed 1.6、Qwen3-VL 等)表示足够稳定,已经可以知足大年夜多半营业需求
-
UI 操作筹划 :视觉模型平日具备较强的 UI 操作筹划才能,可以或许完成不少复杂的义务流程
-
改名
OPENAI_BASE_URL→MODEL_BASE_URL(新变量优先,旧变量作为备选)
实用于随便率性体系 :主动化框架不再依附 UI 衬着的技巧栈。无论是 Android、iOS、桌面应用,照样浏览器中的 ,只要能获取截图,Midscene 即可完成交互操作
易于编写 :摈弃各类 selector 和 DOM 之后,开辟者与模型的“磨合”会变得更简单,不熟悉衬着技巧的新人也能很快上手
有开源模型解决筹划 :开源模型表示渐佳,开辟者开端有机会进行私有化安排模型,如 Qwen3-VL 供给的 8B、30B 等版本在不少项目中都有着不错的后果
除了默认的交互场景,Midscene 还定义了 Planning(筹划)和 Insight(洞察)两种意图,开辟者可以按需为它们启用自力的模型。例如,用 GPT 模型做筹划,同时应用默认的 Doubao 模型做元素定位。
多模型组合闪开辟者可以按需晋升复杂需求的处理才能。
削减对设备信息接口的调用,在确保安然的情况下复用部分高低文信息,晋升运行时机能,让大年夜多半的时光消费集中在模型端
改名 aiAction() → aiAct()(旧办法保存,有弃用警告)
优化 Web 及移动端情况下的 Action Space 组合,向模型开放更合理、更清楚的对象集
回放申报是 Midscene 开辟者异常依附的一个特点,它能有效晋升脚本的调试效力。v1.0 还更新了回放申报:
-
参数视图:标记出交互参数的地位信息,归并截图信息,快速辨认模型的筹划成果
-
针对 Midscene 的运行时表示,进行了以下优化:
-
样式调剂:支撑以深色模式展示申报,更美不雅
-
Token 消费的展示:支撑按模型汇总 Token 消费量,分析不合场景的成本情况
从新定义了 Midscene MCP 办事的定位。Midscene MCP 的职责是环绕着视觉驱动的 UI 操作展开,将 iOS / Android / Web 设备 Action Space 中的每个 Action 操作裸露为 MCP 对象,也就是供给各类“原子操作”。
经由过程这种情势,开辟者可以更专注于构建本身的高阶 Agent,而无需关怀底层 UI 操作的实现细节,并且时刻获得知足的成功率。
移动端才能加强
iOS 改进
-
新增 WebDriverAgent 5.x-7.x 全版本兼容
-
新增 WebDriver Clear API 支撑,解决动态输入框问题
-
晋升设备兼容性
Android 改进
-
新增截图轮询回退机制,晋升长途设备稳定性
-
token 量明显降低 :在去除 DOM 提取之后,视觉筹划的 token 应用量可以削减 80%,成本更低,且本地运行速度也变得更快
-
新增屏幕偏向主动适配(displayId 截图)
-
新增 YAML 脚本
runAdbShell支撑
跨平台
- 在 Agent 实例上裸露体系操作接口,包含 Home、Back、RecentApp 等
API 变革
办法重定名(向后兼容)
-
改名
logScreenshot()→recordToReport()(旧办法保存,有弃用警告)
情况变量重定名(向后兼容)
-
改名
OPENAI_API_KEY→MODEL_API_KEY(新变量优先,旧变量作为备选)
-
©软件著作权归作者所有。本站所有软件均来源于网络,仅供学习使用,请支持正版!
转载请注明出处: FQPY » Midscene v1.0 宣布 - 视觉驱动,UI 主动化体验跃迁

发表评论 取消回复