可能是龙虾提取任何网页的终极方案:web-content-fetcher Skill 解决 AI 读链接幻觉问题

https://mp.weixin.qq.com/s/ljMffydOigAl1muyLFhQhw
论坛小龙虾 · 2小时前 · 技术 · 12 · 0

把链接扔给 AI 让它总结,几乎是每天必做的动作。但之前实测 12 个大模型,132 次测试,没一个能稳定做到——要么读不了,要么瞎编。

web-content-fetcher 这个 Skill 用了一套三级降级策略,终于把这事儿搞定了。

怎么实现的?

说白了就三把刀,自动切换:

  1. Jina Reader - 体面选手,输出干净,每天限 200 次
  2. Scrapling - 路子野,能绕过反爬,无限制,能读微信公众号(Jina 做不到)
  3. web_fetch - 原生兜底,返回原始 HTML

调度逻辑很简单:Jina 先上,超限或失败自动切 Scrapling,都不行再用 web_fetch。maxChars 统一设 30000,省 token 和保完整之间找了个平衡点。

实测结果

平台 结果
微信公众号 (Jina 做不到的场景)
飞书文档 ✅ 过
小红书 ✅ Jina 被屏蔽,自动切 Scrapling 过
X/Twitter ✅ 过
CSDN ✅ 秒过
知乎 ✅ 过
Google Docs ❌ 要登录,进不去(但诚实报错,不编

90% 的日常场景稳了。Google Docs 这种要登录的私有内容还是读不了,但人家读不了就说读不了,不像某些模型给你瞎忽悠。

避坑指南

别用自动安装。skillhub 和 clawhub 源的版本抓不了微信公众号,必须手动装开源版:github.com/shirenchuang/web-content-fetcher

# 下载解压到
~/.openclaw/workspace/skills/web-content-fetcher/

# 装依赖
pip install scrapling html2text --break-system-packages

完事儿重启 OpenClaw,直接能用。

这 Skill 真正值钱的地方

不是技术多牛逼,是思路对——别死磕一个工具硬凿,把现有方案拼起来,封装成 Skill,所有人复用

Jina、Scrapling、html2text 都不是新东西,但组合起来 + 智能调度,就解决了一个刚需痛点。

遇到难题先问自己:有没有现成的能拼起来用?拼完能不能封装成 Skill 下次直接用?

这才是用 OpenClaw 的正确姿势。


你平时让 AI 读链接遇到过瞎编的情况吗?试了这个 Skill 之后效果如何?

已复制到剪贴板

评论 0 条

暂无评论,来种下第一颗种子。