Vercel Labs 放出一个专为AI Agent量身打造的无头浏览器神器——agent-browser,17k+星直接起飞,现在热度还在狂飙!

意外富翁 · 1小时前 · 技术 · 8 · 0

最近一年,大家都在聊 AI Agent(智能体)。虽然 GPT-4、Claude 3.5 已经聪明到能写复杂的代码,但当你让它们去“订一张机票”或者“在 GitHub 上给某个项目提个 Issue”时,它们往往会卡在第一步:网页太乱了。

传统的无头浏览器(Puppeteer/Playwright)是给程序写的,不是给 AI 写的。满屏的 <div> 嵌套、乱七八糟的 CSS 类名、加载不完的广告,会让 AI 的 Token 瞬间爆炸,甚至直接看晕。

为了解决这个问题,Vercel Labs 开源了一个神器:agent-browser。它不是另一个浏览器,它是专为 AI 打造的**“数字义肢”**。
agent-browser

一、 痛点:为什么 AI 以前“上不好网”?

在聊 agent-browser 之前,我们要知道 AI 操作网页有三大坑:

  1. Token 浪费: 一个简单的网页 HTML 源码可能有几万行,直接塞给 AI,既贵又慢。
  2. 动作映射难: AI 说“点击那个蓝色按钮”,但程序需要知道具体的 CSS 选择器(Selector)。网页一更新,AI 就抓瞎。
  3. 视觉断层: 很多动态加载的内容,AI 只看 HTML 源码根本不知道页面长什么样。

二、 agent-browser 是如何“降维打击”的?

Vercel Labs 的这个工具,本质上是在 Playwright 之上做了一层极其硬核的抽象,把“人看网页”的逻辑转换成了“AI 看网页”的逻辑:

  1. DOM 的“瘦身整形”(Accessibility Tree):
    它不会把整个 HTML 扔给 AI,而是将其简化为“辅助功能树(Accessibility Tree)”。只保留按钮、输入框、链接等关键交互元素。这让 AI 看到的网页结构非常清晰,Token 消耗降低了 80% 以上。

  2. 多模态感知(视觉 + 文本):
    它支持实时截图并与 DOM 元素对应。如果 AI 配备了 GPT-4o 这样的模型,它不仅能读取代码,还能“看到”按钮的位置,确保操作的精准度。

  3. 原子化动作(Action Primitives):
    它给 AI 提供了一套标准化的指令集:clicktypescrollwait。AI 只需要下达逻辑指令,agent-browser 负责底层复杂的浏览器交互和状态同步。

  4. 无缝集成 Vercel AI SDK:
    这是最杀手锏的一点。如果你在用 Vercel 的一套工具链,这个库可以像插件一样接入,让你的 Chatbot 瞬间拥有操作真实世界网页的能力。


三、 代码片段:感受一下简洁度

以前写一个自动登录脚本要写几十行,现在配合 agent-browser,逻辑变得非常直观:

import { AgentBrowser } from 'agent-browser';

const browser = new AgentBrowser();

// AI 只需要理解这个简化的逻辑
await browser.navigate('https://github.com/trending');
const result = await browser.execute("找到今天榜单第一的项目,并告诉我它的 Star 数");

console.log(result);

四、 它是谁的菜?

  • 开发者: 想做自动化测试,但不想维护脆弱的选择器脚本。
  • 创业者: 正在做 AI 个人助理(订票、查资料、填表)。
  • 数据玩家: 需要从那些动态加载严重的复杂网站中提取结构化数据。

五、 总结:Agent 的基础设施正在完善

如果说 LLM 是大脑,那么 agent-browser 就是那双灵活的手。

Vercel Labs 做的这件事,实际上是在制定 “AI 操控浏览器”的标准接口。虽然目前它还处于早期阶段(Labs 项目),但其思路非常清晰:不要让 AI 去适应复杂的 Web 世界,而是把 Web 世界简化成 AI 能听懂的语言。

项目地址: https://github.com/vercel-labs/agent-browser

大家觉得这个库能终结 Puppeteer 时代吗?或者在处理复杂验证码(Captcha)时它表现如何?欢迎在评论区一起讨论!

已复制到剪贴板

评论 0 条

暂无评论,来种下第一颗种子。