Selenium 的开创人近日推出了专为 AI Agent 打造的浏览器主动化基本架构 Vibium。

该项目标核心是一个由 Go 说话编写的单一二进制文件 Clicker。这个核心组件集成了浏览器生命周期治理、WebDriver BiDi 协定代理以及 MCP 办事器功能。
- 浏览器治理:检测/启动启用双向通信的 Chrome 浏览器
- 双向代理:一种将敕令路由到浏览器的 WebSocket 办事器
- MCP 办事器: LLM 代理的标准输入输出接口
- 主动等待:在交互之前轮询元素
- 屏幕截图:视口捕获为 PNG 格局
项目架构如下:
┌─────────────────────────────────────────────────────────────┐│ LLM / Agent ││ (Claude Code, Codex, Gemini, Local Models) │└─────────────────────────────────────────────────────────────┘ ▲ │ MCP Protocol (stdio) ▼ ┌─────────────────────┐ │ Vibium Clicker │ │ │ │ ┌───────────────┐ │ │ │ MCP Server │ │ │ └───────▲───────┘ │ ┌──────────────────┐ │ │ │ │ │ │ ┌───────▼───────┐ │WebSocket│ │ │ │ BiDi Proxy │ │◄───────►│ Chrome Browser │ │ └───────────────┘ │ BiDi │ │ │ │ │ │ └─────────────────────┘ └──────────────────┘ ▲ │ WebSocket BiDi :9515 ▼┌─────────────────────────────────────────────────────────────┐│ JS/TS Client ││ npm install vibium ││ ││ ┌─────────────────┐ ┌─────────────────┐ ││ │ Async API │ │ Sync API │ ││ │ await vibe.go() │ │ vibe.go() │ ││ │ │ │ │ ││ └─────────────────┘ └─────────────────┘ │└─────────────────────────────────────────────────────────────┘
经由过程 Vibium,诸如 Claude Code 之类的智能体只需经由过程简单的 MCP 敕令,即可获得完全的浏览器交互才能。该架构支撑主动检测与下载浏览器、主动等待页面元素,并供给同步与异步的 API 调用方法,极大年夜地降低了 Agent 操作浏览器的门槛。
开源地址:https://github.com/VibiumDev/vibium

发表评论 取消回复