【大模型LLM基础】自回归推理生成的原理以及什么是KV Cache？

通过缓存以前的键（Key）和值（Value），我们可以只关注计算新token的注意力。如下图，每当来一个新的tokenqnewq_{new}qnew时，计算得到新的knewk_{new}knew和vnewv_{new}vnew，并将其拼接（concat）到缓存的KprevK_{prev}Kprev和VprevV_{prev}Vprev中。假设TTT是序列长度，DDD。

Mr.zwX

6589人浏览 · 2024-03-25 18:47:34

Mr.zwX · 2024-03-25 18:47:34 发布

LLM自回归推理文本生成原理

看到一篇最清晰的讲解，把两阶段（Prefill和Decode）的计算过程和维度变化写得很明白。读完这段文字应该就对LLM的生成过程有一个把握了。
原文：LLM Inference Unveiled: Survey and Roofline Model Insights [arXiv 2024.3]

在这里插入图片描述

哪里存在KV Cache？

KV cache发生在多个token生成的步骤中，并且只发生在decoder中（例如，decoder-only模型，如 GPT，或在encoder-decoder模型，如T5的decoder部分），BERT这样的encoder模型不是生成式模型（而是判别性模型），因此没有KV cache。

以下动图是GPT-2以自回归形式生成文本的动态图：
在这里插入图片描述
下图是Attention的标准计算方式：

什么是KV Cache？

通过缓存以前的键（Key）和值（Value），我们可以只关注计算新token的注意力。
如下图，每当来一个新的token $q_{new}$ 时，计算得到新的 $k_{new}$ 和 $v_{new}$ ，并将其拼接（concat）到缓存的 $K_{prev}$ 和 $V_{prev}$ 中。
在这里插入图片描述

下面这个动图非常清晰：

在这里插入图片描述

假设 $T$ 是序列长度， $D$ 是维度（也就是上图的emb_size）。
在没有cache的情况下：

$Q : (T, D)$
$K^T: (D, T)$
$V : (T, D)$
$QK^T: (T, T)$
$A tt e n t i o n O u tp u t : (T, D)$

可以看到，每来一个新的query token后，都需要重新计算一遍注意力，复杂度是 $O(T^2)$ ，这也就是原始的Transformer平方复杂度。 不过在Prefill阶段确实是这个计算过程。

在有cache的情况下：

$Q : (1, D)$
$K^T: (D, T)$
$V : (T, D)$
$QK^T: (1, T)$
$A tt e n t i o n O u tp u t : (1, D)$

可以看到，每来一个新的query token后，不需要重新计算一遍注意力，而是只关注计算新token的注意力，复杂度是 $O (T)$ ，降低到了线性。

为什么这个优化很重要？
如上图所示，通过KV cache获得的矩阵要比没有KV cache小得多，这导致了更快的矩阵乘法。

Memory Usage分析

Transformer中注意力层中KV的存储开销计算公式：

在这里插入图片描述

下面是一个具体的例子，可以看到KV cache的大小竟然是模型的3倍，这在推理场景非常常见。在内存使用中，KV cache往往是主导因素。

在这里插入图片描述

几个非常清楚的学习文档

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r