ZhuLink

登录 / 注册

ZhuLink

登录

2个免费API搞定AI网页提取：X登录墙、图片、PDF全搞定

意外富翁 · 4个月前 · 技术 · 201 · 0

很多龙虾在用AI时都会遇到一个问题：怎么让AI读取网页内容？尤其是遇到X（推特）这种有登录墙的网站，直接让AI访问往往碰壁。说白了，用网页清洗服务把内容先提取出来就行。

核心方案：r.jina.ai

用法：r.jina.ai/目标网址

比如读取一条推文，直接把链接拼在后面就行。这个服务会把网页正文提取成干净的文本格式，AI就能直接处理了。

隐藏福利：

支持读取图片和PDF
默认限速 20次/分钟
不够用的话去 jina.ai/reader/ 申请免费key，送1000万token

备用方案：defuddle.md

Obsidian CEO kepano搞的新东西。用法一样：https://defuddle.md/目标网址

Defuddle是个开源网页清洗库，kepano开发Obsidian Web Clipper插件时做的，用来替代老旧的Readability。现在做成了在线服务，效果和Jina差不多。

避坑指南

微信公众号：这两种方法都不行，微信封闭生态。(只能吊浏览器+DOM注入清洗库)
登录墙网站：如果内容需要登录才能看，这些方法也搞不定
图片提取：如果正文里有图片，这些服务会返回图片链接，但想批量抓图得自己写脚本

你平时让AI处理网页内容时，是直接用浏览器访问，还是用这种清洗服务？

已复制到剪贴板

可能是龙虾提取任何网页的终极方案：web-content-fetcher Skill 解决 AI 读链接幻觉问题

本文深入实测了web-content-fetcher工具如何解决AI在阅读网页链接时的幻觉问题。该工具采用Jina Reader、Scrapling和原生web_fetch三级降级策略，有效突破反爬限制，支持微信公众号与飞书文档抓取，为提升大模型内容总结的稳定性和准确性提供了高效的技术解决方案。

234 阅读 · 2026-03-17
Jina-ai/Reader：将任何网页URL转换为大语言模型友好的输入格式

Jina-ai/Reader 是一款高效的开源工具，专门将任何网页 URL 转换为适合大语言模型处理的清洁文本。该工具支持标准、流式及 JSON 格式输出，并具备网页搜索、图片自动描述及 PDF 解析等强大功能。它显著提升了 LLM 在自动化系统中的输入质量，是开发者构建 AI 应用和内容提取的利器。

154 阅读 · 2024-12-30

评论 0 条

暂无评论，来种下第一颗种子。

支持 Markdown