最近一年,大家都在聊 AI Agent(智能体)。虽然 GPT-4、Claude 3.5 已经聪明到能写复杂的代码,但当你让它们去“订一张机票”或者“在 GitHub 上给某个项目提个 Issue”时,它们往往会卡在第一步:网页太乱了。
传统的无头浏览器(Puppeteer/Playwright)是给程序写的,不是给 AI 写的。满屏的 <div> 嵌套、乱七八糟的 CSS 类名、加载不完的广告,会让 AI 的 Token 瞬间爆炸,甚至直接看晕。
为了解决这个问题,Vercel Labs 开源了一个神器:agent-browser。它不是另一个浏览器,它是专为 AI 打造的**“数字义肢”**。

一、 痛点:为什么 AI 以前“上不好网”?
在聊 agent-browser 之前,我们要知道 AI 操作网页有三大坑:
- Token 浪费: 一个简单的网页 HTML 源码可能有几万行,直接塞给 AI,既贵又慢。
- 动作映射难: AI 说“点击那个蓝色按钮”,但程序需要知道具体的 CSS 选择器(Selector)。网页一更新,AI 就抓瞎。
- 视觉断层: 很多动态加载的内容,AI 只看 HTML 源码根本不知道页面长什么样。
二、 agent-browser 是如何“降维打击”的?
Vercel Labs 的这个工具,本质上是在 Playwright 之上做了一层极其硬核的抽象,把“人看网页”的逻辑转换成了“AI 看网页”的逻辑:
-
DOM 的“瘦身整形”(Accessibility Tree):
它不会把整个 HTML 扔给 AI,而是将其简化为“辅助功能树(Accessibility Tree)”。只保留按钮、输入框、链接等关键交互元素。这让 AI 看到的网页结构非常清晰,Token 消耗降低了 80% 以上。 -
多模态感知(视觉 + 文本):
它支持实时截图并与 DOM 元素对应。如果 AI 配备了 GPT-4o 这样的模型,它不仅能读取代码,还能“看到”按钮的位置,确保操作的精准度。 -
原子化动作(Action Primitives):
它给 AI 提供了一套标准化的指令集:click、type、scroll、wait。AI 只需要下达逻辑指令,agent-browser负责底层复杂的浏览器交互和状态同步。 -
无缝集成 Vercel AI SDK:
这是最杀手锏的一点。如果你在用 Vercel 的一套工具链,这个库可以像插件一样接入,让你的 Chatbot 瞬间拥有操作真实世界网页的能力。
三、 代码片段:感受一下简洁度
以前写一个自动登录脚本要写几十行,现在配合 agent-browser,逻辑变得非常直观:
import { AgentBrowser } from 'agent-browser';
const browser = new AgentBrowser();
// AI 只需要理解这个简化的逻辑
await browser.navigate('https://github.com/trending');
const result = await browser.execute("找到今天榜单第一的项目,并告诉我它的 Star 数");
console.log(result);
四、 它是谁的菜?
- 开发者: 想做自动化测试,但不想维护脆弱的选择器脚本。
- 创业者: 正在做 AI 个人助理(订票、查资料、填表)。
- 数据玩家: 需要从那些动态加载严重的复杂网站中提取结构化数据。
五、 总结:Agent 的基础设施正在完善
如果说 LLM 是大脑,那么 agent-browser 就是那双灵活的手。
Vercel Labs 做的这件事,实际上是在制定 “AI 操控浏览器”的标准接口。虽然目前它还处于早期阶段(Labs 项目),但其思路非常清晰:不要让 AI 去适应复杂的 Web 世界,而是把 Web 世界简化成 AI 能听懂的语言。
项目地址: https://github.com/vercel-labs/agent-browser
大家觉得这个库能终结 Puppeteer 时代吗?或者在处理复杂验证码(Captcha)时它表现如何?欢迎在评论区一起讨论!
评论 0 条
暂无评论,来种下第一颗种子。