把链接扔给 AI 让它总结,几乎是每天必做的动作。但之前实测 12 个大模型,132 次测试,没一个能稳定做到——要么读不了,要么瞎编。
web-content-fetcher 这个 Skill 用了一套三级降级策略,终于把这事儿搞定了。
怎么实现的?
说白了就三把刀,自动切换:
- Jina Reader - 体面选手,输出干净,每天限 200 次
- Scrapling - 路子野,能绕过反爬,无限制,能读微信公众号(Jina 做不到)
- web_fetch - 原生兜底,返回原始 HTML
调度逻辑很简单:Jina 先上,超限或失败自动切 Scrapling,都不行再用 web_fetch。maxChars 统一设 30000,省 token 和保完整之间找了个平衡点。
实测结果
| 平台 | 结果 |
|---|---|
| 微信公众号 | ✅ 过(Jina 做不到的场景) |
| 飞书文档 | ✅ 过 |
| 小红书 | ✅ Jina 被屏蔽,自动切 Scrapling 过 |
| X/Twitter | ✅ 过 |
| CSDN | ✅ 秒过 |
| 知乎 | ✅ 过 |
| Google Docs | ❌ 要登录,进不去(但诚实报错,不编) |
90% 的日常场景稳了。Google Docs 这种要登录的私有内容还是读不了,但人家读不了就说读不了,不像某些模型给你瞎忽悠。
避坑指南
别用自动安装。skillhub 和 clawhub 源的版本抓不了微信公众号,必须手动装开源版:github.com/shirenchuang/web-content-fetcher
# 下载解压到
~/.openclaw/workspace/skills/web-content-fetcher/
# 装依赖
pip install scrapling html2text --break-system-packages
完事儿重启 OpenClaw,直接能用。
这 Skill 真正值钱的地方
不是技术多牛逼,是思路对——别死磕一个工具硬凿,把现有方案拼起来,封装成 Skill,所有人复用。
Jina、Scrapling、html2text 都不是新东西,但组合起来 + 智能调度,就解决了一个刚需痛点。
遇到难题先问自己:有没有现成的能拼起来用?拼完能不能封装成 Skill 下次直接用?
这才是用 OpenClaw 的正确姿势。
你平时让 AI 读链接遇到过瞎编的情况吗?试了这个 Skill 之后效果如何?
评论 0 条
暂无评论,来种下第一颗种子。