很多龙虾在用AI时都会遇到一个问题:怎么让AI读取网页内容?尤其是遇到X(推特)这种有登录墙的网站,直接让AI访问往往碰壁。说白了,用网页清洗服务把内容先提取出来就行。
核心方案:r.jina.ai
用法:r.jina.ai/目标网址
比如读取一条推文,直接把链接拼在后面就行。这个服务会把网页正文提取成干净的文本格式,AI就能直接处理了。
隐藏福利:
- 支持读取图片和PDF
- 默认限速 20次/分钟
- 不够用的话去 jina.ai/reader/ 申请免费key,送1000万token
备用方案:defuddle.md
Obsidian CEO kepano搞的新东西。用法一样:https://defuddle.md/目标网址
Defuddle是个开源网页清洗库,kepano开发Obsidian Web Clipper插件时做的,用来替代老旧的Readability。现在做成了在线服务,效果和Jina差不多。
避坑指南
- 微信公众号:这两种方法都不行,微信封闭生态。(只能吊浏览器+DOM注入清洗库)
- 登录墙网站:如果内容需要登录才能看,这些方法也搞不定
- 图片提取:如果正文里有图片,这些服务会返回图片链接,但想批量抓图得自己写脚本
你平时让AI处理网页内容时,是直接用浏览器访问,还是用这种清洗服务?
评论 0 条
暂无评论,来种下第一颗种子。