Prompt Caching(提示词缓存) 这一技术如何让大语言模型(LLM)的推理成本降低 10 倍,并显著减少响应延迟。
https://ngrok.com/blog/prompt-caching/

意外富翁 · 1小时前 · 技术 · 3 · 0

1. 核心价值:降本与提速

  • 成本大幅下降:对于 OpenAI 和 Anthropic 等厂商,缓存后的输入 Token 价格通常只有常规价格的 1/10
  • 延迟显著降低:长提示词的“首字响应时间(TTFT)”可缩短高达 85%。这是因为模型跳过了大量的重复计算步骤。

2. 技术内幕:缓存的是什么?

文章强调,缓存的不是模型的最终输出答案,而是 Transformer 架构中**注意力机制(Attention Mechanism)**产生的中间数据——KV 缓存(Key-Value Cache)

  • 工作流回顾:LLM 处理文本需经过:分词(Tokenizer)→ 嵌入(Embedding)→ 注意力机制(Attention) → 前馈网络(Feedforward)。
  • KV 矩阵的作用:在注意力机制中,每个 Token 都会生成对应的“键(Key)”和“值(Value)”矩阵。模型通过这些矩阵来理解 Token 之间的上下文关系。
  • 冗余消除:在传统模式下,即使你发送一段之前发送过的长文本,模型依然要从头计算每个 Token 的 KV 矩阵。Prompt Caching 则将这些已计算好的 1 和 0(矩阵数据)存储起来。

3. 为什么能便宜 10 倍?

  • 节省算力(FLOPs):计算 10 万个 Token 的注意力矩阵需要消耗巨大的 GPU 算力。通过调用缓存,GPU 只需要读取内存/显存中的现有数据,而无需进行高强度的数学运算。
  • 服务商收益:由于计算资源的消耗(电力、芯片磨损、时间)大幅降低,服务商能够以极低的价格提供服务,同时提高服务器的吞吐量。

4. 实现机制与约束

  • 前缀匹配(Prefix Matching):缓存通常基于提示词的“前缀”。如果两条消息的开头部分完全相同,相同部分即可触发缓存。
  • 块管理(Block-based):大多数提供商(如 Anthropic)按特定长度(如 1024 个 Token)的块来缓存数据。
  • 逐出策略:缓存数据通常在内存中保留 5 分钟到数小时不等,具体取决于服务商的调度算法。

5. 结论

Prompt Caching 是目前 AI 规模化应用的关键技术之一。它将 LLM 从“纯计算密集型”任务转变为“计算与存储混合型”任务,让长文本分析、代码库检索和多轮对话变得既便宜又快速。

原文透明度提示:作者 Sam Rose 通过对比测试(GPT-5 概念性提及与 Sonnet 实测)验证了缓存对长提示词(200k+ Tokens)具有决定性的性能优势。


评论 0 条

暂无评论,来种下第一颗种子。