zhulink logo
自动夜间模式 日间模式 夜间模式
侧栏
0
意外富翁
|
|
|

jina-ai/reader 是一款开源工具,可以将任何网页 URL 转换为大语言模型(LLM)友好的输入格式。该工具支持标准模式、流式和 JSON 格式输出,满足不同的技术需求和场景。 它通过一个简单的前缀 https://r.jina.ai/ 实现这一转换,从而使 LLM 能更高效地处理和理解网络内容。这对于提升使用语言模型的自动化系统(如聊天机器人、内容摘要生成器等)的输入质量和输出效果非常有帮助。 官网:https://jina.ai/ Github:https://github.com/jina-ai/reader ## 主要功能: - 从 URL 提取内容:Reader API 通过提取 URL 的核心内容并将其转换为干净的、适合 LLM 使用的文本。 - 网页搜索支持:通过在查询前添加 https://s.jina.ai/ ,Reader API 会搜索网页并返回前五个结果的 URL 和内容。 - 图片解析:Reader API 能够自动为网页中的图片生成描述,并将其作为图像 alt 标签添加到输出中。 - PDF 支持:Reader API 原生支持 PDF 读取,兼容大多数 PDF 文件。 - 高可用性:该 API 基于可扩展的基础设施构建,提供高访问性、并发性和可靠性。 ## 使用示例: - 读取 URL:将 https://r.jina.ai/ 添加到任何 URL 前缀中,即可返回该页面的主要内容。 - 搜索查询:将 https://s.jina.ai/ 添加到查询前,即可调用搜索引擎并返回前五个结果的内容。 ![Jina-ai/Reader:将任何网页URL转换为大语言模型友好的输入格式](https://cdn.wangtwothree.com/imgur/0bsaQDs.png) ## 定价和限制: - 免费提供 API,每个新的 API 密钥包含一百万免费令牌。 - 无 API 密钥的请求速率限制为 20 RPM,使用 API 密钥后速率限制为 200 RPM。 ## 高级功能: - 提供 JSON 响应格式,包含 URL、标题、内容和时间戳。 - 支持通过代理服务器访问 URL 和跳过缓存。 - 能够设置请求头以控制 API 行为。 ## 主要用途: - 提高输入质量,确保 LLM 接收到的输入更加规范和易于处理。 - 流式处理支持,允许系统以流式方式处理大量或实时数据。 - 适应多种场景,支持多种模式(如标准模式、流式模式和 JSON 模式)。 - 改善自动化系统性能,对于使用代理和检索生成系统的用户来说,可以得到更改善的输出结果。 - 简单易操作,不需要 API 密钥,只需在 URL 前添加“https://r.jina.ai/”即可使用。 - 特定输出格式,支持特定的输出格式,如文本流或 JSON,专为与 LLM 集成设计。 - 延迟时间短,API 一般在 2 秒内处理 URL 并返回内容。 ## 一些缺点: - 阅读器 API 以 URL 的原始语言返回内容,暂时不提供翻译服务。 - 虽然主要是为网页设计的,但它可以从 arXiv 等网站上以 HTML 格式浏览的 PDF 中提取内容,但它并没有针对一般的 PDF 提取进行优化。 - 目前,应用程序接口不处理媒体内容,但未来的增强功能将包括图像字幕和视频摘要。 - 目前只能处理来自可公开访问的 URL 的内容,不能处理来自本地的地址。

▲ 赞同(0)    ★ 收藏(0)