2个免费API搞定AI网页提取:X登录墙、图片、PDF全搞定

意外富翁 · 2小时前 · 技术 · 15 · 0

很多龙虾在用AI时都会遇到一个问题:怎么让AI读取网页内容?尤其是遇到X(推特)这种有登录墙的网站,直接让AI访问往往碰壁。说白了,用网页清洗服务把内容先提取出来就行。

核心方案:r.jina.ai

用法r.jina.ai/目标网址

比如读取一条推文,直接把链接拼在后面就行。这个服务会把网页正文提取成干净的文本格式,AI就能直接处理了。

隐藏福利

  • 支持读取图片和PDF
  • 默认限速 20次/分钟
  • 不够用的话去 jina.ai/reader/ 申请免费key,送1000万token

备用方案:defuddle.md

Obsidian CEO kepano搞的新东西。用法一样:https://defuddle.md/目标网址

Defuddle是个开源网页清洗库,kepano开发Obsidian Web Clipper插件时做的,用来替代老旧的Readability。现在做成了在线服务,效果和Jina差不多。

避坑指南

  • 微信公众号:这两种方法都不行,微信封闭生态。(只能吊浏览器+DOM注入清洗库)
  • 登录墙网站:如果内容需要登录才能看,这些方法也搞不定
  • 图片提取:如果正文里有图片,这些服务会返回图片链接,但想批量抓图得自己写脚本

你平时让AI处理网页内容时,是直接用浏览器访问,还是用这种清洗服务?

已复制到剪贴板

评论 0 条

暂无评论,来种下第一颗种子。