ZhuLink

登录 / 注册

ZhuLink

登录

Jina-ai/Reader：将任何网页URL转换为大语言模型友好的输入格式

https://xiaohu.ai/p/6116

意外富翁 · 1年前 · 技术 · 134 · 0

jina-ai/reader 是一款开源工具，可以将任何网页 URL 转换为大语言模型（LLM）友好的输入格式。该工具支持标准模式、流式和 JSON 格式输出，满足不同的技术需求和场景。

它通过一个简单的前缀 https://r.jina.ai/ 实现这一转换，从而使 LLM 能更高效地处理和理解网络内容。这对于提升使用语言模型的自动化系统（如聊天机器人、内容摘要生成器等）的输入质量和输出效果非常有帮助。

官网：https://jina.ai/

Github：https://github.com/jina-ai/reader

主要功能：

从 URL 提取内容：Reader API 通过提取 URL 的核心内容并将其转换为干净的、适合 LLM 使用的文本。
网页搜索支持：通过在查询前添加 https://s.jina.ai/ ，Reader API 会搜索网页并返回前五个结果的 URL 和内容。
图片解析：Reader API 能够自动为网页中的图片生成描述，并将其作为图像 alt 标签添加到输出中。
PDF 支持：Reader API 原生支持 PDF 读取，兼容大多数 PDF 文件。
高可用性：该 API 基于可扩展的基础设施构建，提供高访问性、并发性和可靠性。

使用示例：

读取 URL：将 https://r.jina.ai/ 添加到任何 URL 前缀中，即可返回该页面的主要内容。
搜索查询：将 https://s.jina.ai/ 添加到查询前，即可调用搜索引擎并返回前五个结果的内容。

定价和限制：

免费提供 API，每个新的 API 密钥包含一百万免费令牌。
无 API 密钥的请求速率限制为 20 RPM，使用 API 密钥后速率限制为 200 RPM。

高级功能：

提供 JSON 响应格式，包含 URL、标题、内容和时间戳。
支持通过代理服务器访问 URL 和跳过缓存。
能够设置请求头以控制 API 行为。

主要用途：

提高输入质量，确保 LLM 接收到的输入更加规范和易于处理。
流式处理支持，允许系统以流式方式处理大量或实时数据。
适应多种场景，支持多种模式（如标准模式、流式模式和 JSON 模式）。
改善自动化系统性能，对于使用代理和检索生成系统的用户来说，可以得到更改善的输出结果。
简单易操作，不需要 API 密钥，只需在 URL 前添加“https://r.jina.ai/”即可使用。
特定输出格式，支持特定的输出格式，如文本流或 JSON，专为与 LLM 集成设计。
延迟时间短，API 一般在 2 秒内处理 URL 并返回内容。

一些缺点：

阅读器 API 以 URL 的原始语言返回内容，暂时不提供翻译服务。
虽然主要是为网页设计的，但它可以从 arXiv 等网站上以 HTML 格式浏览的 PDF 中提取内容，但它并没有针对一般的 PDF 提取进行优化。
目前，应用程序接口不处理媒体内容，但未来的增强功能将包括图像字幕和视频摘要。
目前只能处理来自可公开访问的 URL 的内容，不能处理来自本地的地址。

已复制到剪贴板

评论 0 条

暂无评论，来种下第一颗种子。

支持 Markdown