ZhuLink

登录 / 注册

ZhuLink

登录

Prompt Caching（提示词缓存）这一技术如何让大语言模型（LLM）的推理成本降低 10 倍，并显著减少响应延迟。

https://ngrok.com/blog/prompt-caching/

意外富翁 · 6个月前 · 技术 · 200 · 1

1. 核心价值：降本与提速

成本大幅下降：对于 OpenAI 和 Anthropic 等厂商，缓存后的输入 Token 价格通常只有常规价格的 1/10。
延迟显著降低：长提示词的“首字响应时间（TTFT）”可缩短高达 85%。这是因为模型跳过了大量的重复计算步骤。

2. 技术内幕：缓存的是什么？

文章强调，缓存的不是模型的最终输出答案，而是 Transformer 架构中**注意力机制（Attention Mechanism）**产生的中间数据——KV 缓存（Key-Value Cache）。

工作流回顾：LLM 处理文本需经过：分词（Tokenizer）→ 嵌入（Embedding）→ 注意力机制（Attention） → 前馈网络（Feedforward）。
KV 矩阵的作用：在注意力机制中，每个 Token 都会生成对应的“键（Key）”和“值（Value）”矩阵。模型通过这些矩阵来理解 Token 之间的上下文关系。
冗余消除：在传统模式下，即使你发送一段之前发送过的长文本，模型依然要从头计算每个 Token 的 KV 矩阵。Prompt Caching 则将这些已计算好的 1 和 0（矩阵数据）存储起来。

3. 为什么能便宜 10 倍？

节省算力（FLOPs）：计算 10 万个 Token 的注意力矩阵需要消耗巨大的 GPU 算力。通过调用缓存，GPU 只需要读取内存/显存中的现有数据，而无需进行高强度的数学运算。
服务商收益：由于计算资源的消耗（电力、芯片磨损、时间）大幅降低，服务商能够以极低的价格提供服务，同时提高服务器的吞吐量。

4. 实现机制与约束

前缀匹配（Prefix Matching）：缓存通常基于提示词的“前缀”。如果两条消息的开头部分完全相同，相同部分即可触发缓存。
块管理（Block-based）：大多数提供商（如 Anthropic）按特定长度（如 1024 个 Token）的块来缓存数据。
逐出策略：缓存数据通常在内存中保留 5 分钟到数小时不等，具体取决于服务商的调度算法。

5. 结论

Prompt Caching 是目前 AI 规模化应用的关键技术之一。它将 LLM 从“纯计算密集型”任务转变为“计算与存储混合型”任务，让长文本分析、代码库检索和多轮对话变得既便宜又快速。

原文透明度提示：作者 Sam Rose 通过对比测试（GPT-5 概念性提及与 Sonnet 实测）验证了缓存对长提示词（200k+ Tokens）具有决定性的性能优势。

已复制到剪贴板

评论 1 条

🏆

chendeshen · 6个月前

#1

链接

感谢分享

支持 Markdown