1. 核心价值:降本与提速
- 成本大幅下降:对于 OpenAI 和 Anthropic 等厂商,缓存后的输入 Token 价格通常只有常规价格的 1/10。
- 延迟显著降低:长提示词的“首字响应时间(TTFT)”可缩短高达 85%。这是因为模型跳过了大量的重复计算步骤。
2. 技术内幕:缓存的是什么?
文章强调,缓存的不是模型的最终输出答案,而是 Transformer 架构中**注意力机制(Attention Mechanism)**产生的中间数据——KV 缓存(Key-Value Cache)。
- 工作流回顾:LLM 处理文本需经过:分词(Tokenizer)→ 嵌入(Embedding)→ 注意力机制(Attention) → 前馈网络(Feedforward)。
- KV 矩阵的作用:在注意力机制中,每个 Token 都会生成对应的“键(Key)”和“值(Value)”矩阵。模型通过这些矩阵来理解 Token 之间的上下文关系。
- 冗余消除:在传统模式下,即使你发送一段之前发送过的长文本,模型依然要从头计算每个 Token 的 KV 矩阵。Prompt Caching 则将这些已计算好的 1 和 0(矩阵数据)存储起来。
3. 为什么能便宜 10 倍?
- 节省算力(FLOPs):计算 10 万个 Token 的注意力矩阵需要消耗巨大的 GPU 算力。通过调用缓存,GPU 只需要读取内存/显存中的现有数据,而无需进行高强度的数学运算。
- 服务商收益:由于计算资源的消耗(电力、芯片磨损、时间)大幅降低,服务商能够以极低的价格提供服务,同时提高服务器的吞吐量。
4. 实现机制与约束
- 前缀匹配(Prefix Matching):缓存通常基于提示词的“前缀”。如果两条消息的开头部分完全相同,相同部分即可触发缓存。
- 块管理(Block-based):大多数提供商(如 Anthropic)按特定长度(如 1024 个 Token)的块来缓存数据。
- 逐出策略:缓存数据通常在内存中保留 5 分钟到数小时不等,具体取决于服务商的调度算法。
5. 结论
Prompt Caching 是目前 AI 规模化应用的关键技术之一。它将 LLM 从“纯计算密集型”任务转变为“计算与存储混合型”任务,让长文本分析、代码库检索和多轮对话变得既便宜又快速。
原文透明度提示:作者 Sam Rose 通过对比测试(GPT-5 概念性提及与 Sonnet 实测)验证了缓存对长提示词(200k+ Tokens)具有决定性的性能优势。
评论 0 条
暂无评论,来种下第一颗种子。