第02章 Transformer架构：注意力机制的直觉与工程实现

“理解注意力机制，你就理解了为什么大模型既能记住上下文，又会’忘记’远处的内容。” —— 大模型工程实践

你不需要推导Transformer的数学公式就能成为LLM工程师。但你必须理解注意力机制的直觉——因为这直接影响你的工程决策：Context Window该用多长？为什么模型在长文档的中间"遗忘"信息？KV Cache是什么，为什么它那么重要？

本章目标：用代码和图解，让Transformer的核心机制变得可触摸。

2.1 Transformer是什么：工程师的视角

从工程师角度看，Transformer就是一个序列到序列的映射函数：

输入：一串Token（数字）
输出：每个位置的概率分布（下一个Token是什么）

[15023, 3232, 45, 890, ...] → [[0.001, 0.05, 0.9, ...], ...]

这个函数有几十亿个参数，通过海量数据训练而来。作为工程师，你需要理解它的内部结构，以便：

知道为什么上下文越长，速度越慢（注意力的二次复杂度）
知道为什么微调只需要改小部分参数（LoRA的理论基础）
知道KV Cache为什么能加速推理（避免重复计算）

# 用PyTorch展示Transformer最核心的操作
import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class SimpleAttention(nn.Module):
    """
    最简单的自注意力实现——理解原理用
    生产代码用Flash Attention，但原理是一样的
    """
    
    def __init__(self, d_model: int = 512):
        super().__init__()
        # 三个线性变换：Query, Key, Value
        self.W_q = nn.Linear(d_model, d_model, bias=False)
        self.W_k = nn.Linear(d_model, d_model, bias=False)
        self.W_v = nn.Linear(d_model, d_model, bias=False)
        self.scale = math.sqrt(d_model)
    
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        x shape: (batch_size, seq_len, d_model)
        返回: (batch_size, seq_len, d_model)
        """
        # 计算Q、K、V
        Q = self.W_q(x)  # (B, T, D)
        K = self.W_k(x)  # (B, T, D)
        V = self.W_v(x)  # (B, T, D)
        
        # 注意力分数：每个位置和所有其他位置的相关性
        # scores[i][j] = Token i 对 Token j 的关注程度
        scores = torch.matmul(Q, K.transpose(-2, -1)) / self.scale  # (B, T, T)
        
        # Softmax归一化：让分数成为概率
        attn_weights = F.softmax(scores, dim=-1)  # (B, T, T)
        
        # 加权求和：用注意力权重聚合Value
        output = torch.matmul(attn_weights, V)  # (B, T, D)
        
        return output, attn_weights

# 直觉验证：注意力矩阵的含义
batch_size, seq_len, d_model = 1, 5, 64
x = torch.randn(batch_size, seq_len, d_model)

attn = SimpleAttention(d_model)
output, weights = attn(x)

print(f"输入形状: {x.shape}")         # (1, 5, 64)
print(f"输出形状: {output.shape}")     # (1, 5, 64)
print(f"注意力权重形状: {weights.shape}")  # (1, 5, 5) — 5x5的"谁关注谁"矩阵
print(f"第一个Token对所有Token的注意力:\n{weights[0, 0].detach()}")
# 输出类似：[0.21, 0.19, 0.20, 0.22, 0.18] — 对每个位置的关注程度

2.2 注意力机制的工程含义

理解这个：注意力的复杂度是 O(n²)

# 注意力矩阵的大小随序列长度二次增长
# 这是LLM在长上下文时变慢的根本原因

def attention_memory_estimate(seq_len: int, d_model: int = 4096, 
                               num_heads: int = 32, dtype_bytes: int = 2):
    """估算注意力层的内存占用（bytes）"""
    # 注意力矩阵：每个head有一个 seq_len x seq_len 的矩阵
    attn_matrix_size = seq_len * seq_len * num_heads * dtype_bytes
    # KV缓存：每层的K和V
    kv_cache_size = 2 * seq_len * d_model * dtype_bytes
    
    return {
        "attn_matrix_gb": attn_matrix_size / 1e9,
        "kv_cache_mb": kv_cache_size / 1e6,
    }

# 不同上下文长度的内存对比
for seq_len in [1024, 4096, 16384, 128000]:
    est = attention_memory_estimate(seq_len)
    print(f"seq_len={seq_len:7d}: "
          f"注意力矩阵={est['attn_matrix_gb']:.3f}GB, "
          f"KV缓存={est['kv_cache_mb']:.1f}MB")
          
# 输出：
# seq_len=   1024: 注意力矩阵=0.004GB, KV缓存=64.0MB
# seq_len=   4096: 注意力矩阵=0.067GB, KV缓存=256.0MB
# seq_len=  16384: 注意力矩阵=1.074GB, KV缓存=1024.0MB
# seq_len= 128000: 注意力矩阵=65.5GB,  KV缓存=8000.0MB

工程含义：

128K上下文 = 65GB只用来存注意力矩阵 → 这就是为什么长上下文推理这么贵
KV Cache可以让推理从O(n²)降到O(n)（缓存已计算的K、V）→ 这是vLLM等框架的核心优化

2.3 多头注意力：多种视角并行

实际的Transformer用的是多头注意力（Multi-Head Attention），而不是单头。

class MultiHeadAttention(nn.Module):
    """
    多头注意力：把嵌入维度分成多个"头"，每个头关注不同的模式
    """
    
    def __init__(self, d_model: int = 512, num_heads: int = 8):
        super().__init__()
        assert d_model % num_heads == 0
        
        self.d_model = d_model
        self.num_heads = num_heads
        self.d_head = d_model // num_heads  # 每个头的维度
        
        # 合并的QKV投影（效率更高）
        self.qkv_proj = nn.Linear(d_model, 3 * d_model, bias=False)
        self.out_proj = nn.Linear(d_model, d_model, bias=False)
        self.scale = math.sqrt(self.d_head)
    
    def forward(self, x: torch.Tensor, mask: torch.Tensor = None):
        B, T, D = x.shape
        
        # 计算Q、K、V并拆分多头
        qkv = self.qkv_proj(x)  # (B, T, 3*D)
        Q, K, V = qkv.chunk(3, dim=-1)  # 各 (B, T, D)
        
        # 重塑为多头格式
        Q = Q.view(B, T, self.num_heads, self.d_head).transpose(1, 2)  # (B, H, T, d)
        K = K.view(B, T, self.num_heads, self.d_head).transpose(1, 2)
        V = V.view(B, T, self.num_heads, self.d_head).transpose(1, 2)
        
        # 各头独立计算注意力
        scores = torch.matmul(Q, K.transpose(-2, -1)) / self.scale  # (B, H, T, T)
        
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        attn = F.softmax(scores, dim=-1)  # (B, H, T, T)
        
        # 聚合Value并还原形状
        out = torch.matmul(attn, V)  # (B, H, T, d)
        out = out.transpose(1, 2).contiguous().view(B, T, D)  # (B, T, D)
        
        return self.out_proj(out), attn

# 直觉：8个头 = 8种"阅读视角"
# 有的头可能关注语法关系，有的关注语义相似性
# 有的关注代词和它指代的对象，有的关注动词和宾语
# 这就是为什么多头比单头效果好

2.4 位置编码：让模型知道"顺序"

Transformer没有循环结构，本身是位置无关的。位置编码让模型知道Token的顺序。

import torch
import matplotlib.pyplot as plt
import numpy as np

class RotaryPositionalEncoding:
    """
    RoPE（旋转位置编码）：现代LLM（LLaMA、Qwen等）的标准
    比原始的绝对位置编码更好，可以外推到训练时未见过的长度
    """
    
    def __init__(self, d_head: int, max_seq_len: int = 8192, base: int = 10000):
        self.d_head = d_head
        
        # 计算旋转频率
        theta = 1.0 / (base ** (torch.arange(0, d_head, 2).float() / d_head))
        positions = torch.arange(max_seq_len).float()
        
        # 每个位置、每个维度的旋转角度
        freqs = torch.outer(positions, theta)  # (seq_len, d_head/2)
        
        # 存储cos和sin值
        self.cos = torch.cos(freqs)  # (seq_len, d_head/2)
        self.sin = torch.sin(freqs)  # (seq_len, d_head/2)
    
    def apply(self, x: torch.Tensor) -> torch.Tensor:
        """
        x: (batch, heads, seq_len, d_head)
        返回旋转后的x
        """
        seq_len = x.shape[2]
        cos = self.cos[:seq_len].unsqueeze(0).unsqueeze(0)  # (1, 1, T, d/2)
        sin = self.sin[:seq_len].unsqueeze(0).unsqueeze(0)
        
        # 拆分偶数和奇数维度
        x1, x2 = x[..., ::2], x[..., 1::2]
        
        # 旋转操作
        rotated = torch.stack([
            x1 * cos - x2 * sin,  # 旋转实部
            x1 * sin + x2 * cos,  # 旋转虚部
        ], dim=-1).flatten(-2)
        
        return rotated

# 理解RoPE的关键直觉：
# 不是给每个位置加一个固定向量（绝对位置）
# 而是根据两个Token的相对距离，自动计算它们的相对关系
# 这让模型可以泛化到比训练时更长的序列

# 工程含义：
# - 原始Transformer（BERT等）：最长512 token，超出就不行
# - RoPE（LLaMA、Qwen等）：理论上可以无限延伸，实践中通过YaRN等技术到128K+

2.5 KV Cache：推理加速的关键

KV Cache是LLM推理加速中最重要的技术之一。理解它，才能理解vLLM为什么快。

# 演示KV Cache的原理

class TransformerWithKVCache:
    """
    展示KV Cache如何工作
    （真实实现在HuggingFace中用past_key_values）
    """
    
    def __init__(self, model):
        self.model = model
        self.kv_cache = {}  # 存储已计算的K、V
    
    def generate_without_cache(self, tokens: list[int], max_new: int = 10):
        """
        不用KV Cache的生成：每次生成新Token都重新计算整个序列
        复杂度：O(n²) 次矩阵乘法
        """
        generated = tokens.copy()
        
        for step in range(max_new):
            # 每步都重新处理整个序列！
            # step 0: 处理 n 个token
            # step 1: 处理 n+1 个token（重复计算了前n个）
            # step k: 处理 n+k 个token（重复计算了前n+k-1个）
            
            input_ids = torch.tensor([generated])
            with torch.no_grad():
                logits = self.model(input_ids).logits
            
            next_token = logits[0, -1, :].argmax().item()
            generated.append(next_token)
        
        return generated
    
    def generate_with_cache(self, tokens: list[int], max_new: int = 10):
        """
        用KV Cache的生成：
        - 第一次：处理整个前缀，保存K、V
        - 后续：每次只处理1个新Token，重用缓存的K、V
        复杂度：O(n) 次矩阵乘法（n是每次只加1）
        """
        generated = tokens.copy()
        past_key_values = None
        
        # 第一次：处理前缀（Prefill阶段）
        input_ids = torch.tensor([tokens])
        with torch.no_grad():
            outputs = self.model(
                input_ids,
                use_cache=True  # 关键：告诉模型保存KV
            )
        logits = outputs.logits
        past_key_values = outputs.past_key_values  # 缓存的K、V
        
        next_token = logits[0, -1, :].argmax().item()
        generated.append(next_token)
        
        # 后续步骤（Decode阶段）：每次只处理1个Token
        for step in range(max_new - 1):
            input_ids = torch.tensor([[next_token]])  # 只有1个Token！
            
            with torch.no_grad():
                outputs = self.model(
                    input_ids,
                    past_key_values=past_key_values,  # 使用缓存
                    use_cache=True,
                )
            
            past_key_values = outputs.past_key_values  # 更新缓存
            next_token = outputs.logits[0, -1, :].argmax().item()
            generated.append(next_token)
        
        return generated

# 实际使用HuggingFace的KV Cache（推荐方式）
from transformers import AutoModelForCausalLM, AutoTokenizer

def demonstrate_kv_cache():
    """实际展示KV Cache"""
    model_name = "Qwen/Qwen2.5-0.5B-Instruct"  # 小模型演示
    
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name)
    model.eval()
    
    prompt = "大模型工程师需要掌握的核心技能是"
    inputs = tokenizer(prompt, return_tensors="pt")
    
    import time
    
    # 方法1：不用KV Cache（每步重计算）
    start = time.time()
    with torch.no_grad():
        output_no_cache = model.generate(
            **inputs,
            max_new_tokens=50,
            use_cache=False,  # 禁用缓存
        )
    time_no_cache = time.time() - start
    
    # 方法2：用KV Cache（默认行为）
    start = time.time()
    with torch.no_grad():
        output_with_cache = model.generate(
            **inputs,
            max_new_tokens=50,
            use_cache=True,  # 默认就是True
        )
    time_with_cache = time.time() - start
    
    print(f"无KV Cache: {time_no_cache:.2f}s")
    print(f"有KV Cache: {time_with_cache:.2f}s")
    print(f"加速比: {time_no_cache / time_with_cache:.1f}x")
    
    # 典型结果：有Cache比无Cache快5-10x（序列越长优势越大）

2.6 Flash Attention：内存高效的注意力计算

Flash Attention解决了注意力计算的内存瓶颈——它不是改变计算结果，而是改变计算顺序以减少内存访问。

# Flash Attention的核心思想（不是完整实现，而是理解原理）

# 标准注意力的问题：
# scores = Q @ K.T  → 这个矩阵需要 O(n²) 内存！
# 当n=128000时，这是65GB的矩阵

# Flash Attention的解决方案：
# 分块计算，每次只把一小块读入GPU SRAM（快速内存）
# 计算局部softmax，然后合并
# 总体效果：同样的结果，内存从O(n²)降到O(n)

# 在代码中使用Flash Attention
from transformers import AutoModelForCausalLM
import torch

def load_model_with_flash_attention(model_name: str):
    """
    在HuggingFace中启用Flash Attention 2
    要求：NVIDIA GPU + Ampere架构以上（A100, RTX 3090等）
    """
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,          # bf16精度（Flash Attn要求）
        attn_implementation="flash_attention_2",  # 启用Flash Attention
        device_map="auto",                    # 自动分配GPU
    )
    return model

# 或者用sdpa（PyTorch内置的scaled dot-product attention，稍慢但更通用）
def load_model_with_sdpa(model_name: str):
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        attn_implementation="sdpa",  # Scaled Dot Product Attention
    )
    return model

# Flash Attention的工程价值：
# - 相同GPU内存，可以处理4x更长的序列
# - 速度提升2-4x（减少了HBM内存读写）
# - 对长上下文（>4K tokens）特别有效

2.7 实际工程中的Transformer知识应用

现在把这些原理连接到实际工程决策：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

class LLMInspector:
    """
    LLM架构检查工具：帮助工程师了解模型的配置
    """
    
    def __init__(self, model_name: str):
        self.model_name = model_name
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        # 只加载配置，不加载权重（节省内存）
        from transformers import AutoConfig
        self.config = AutoConfig.from_pretrained(model_name)
    
    def get_architecture_summary(self) -> dict:
        """获取模型架构的关键参数"""
        cfg = self.config
        
        # 参数量估算
        d_model = getattr(cfg, 'hidden_size', None)
        num_layers = getattr(cfg, 'num_hidden_layers', None)
        num_heads = getattr(cfg, 'num_attention_heads', None)
        
        # 估算参数量（简化公式）
        if all([d_model, num_layers, num_heads]):
            # 每层大约: 4 * d² (attention) + 8 * d² (FFN)
            params_per_layer = 12 * d_model ** 2
            total_params = params_per_layer * num_layers
        else:
            total_params = None
        
        return {
            "model_type": cfg.model_type,
            "hidden_size (d_model)": d_model,
            "num_layers": num_layers,
            "num_attention_heads": num_heads,
            "num_kv_heads (GQA)": getattr(cfg, 'num_key_value_heads', num_heads),
            "max_position_embeddings": getattr(cfg, 'max_position_embeddings', None),
            "vocab_size": getattr(cfg, 'vocab_size', None),
            "estimated_params": f"{total_params/1e9:.1f}B" if total_params else "unknown",
        }
    
    def estimate_inference_memory(self, seq_len: int = 4096) -> dict:
        """估算推理所需内存"""
        cfg = self.config
        d_model = getattr(cfg, 'hidden_size', 4096)
        num_layers = getattr(cfg, 'num_hidden_layers', 32)
        num_kv_heads = getattr(cfg, 'num_key_value_heads', 
                               getattr(cfg, 'num_attention_heads', 32))
        
        # KV Cache内存（bf16 = 2 bytes）
        # 每层：2（K和V） * num_kv_heads * head_dim * seq_len * 2bytes
        head_dim = d_model // getattr(cfg, 'num_attention_heads', 32)
        kv_cache_bytes = 2 * num_layers * num_kv_heads * head_dim * seq_len * 2
        
        # 模型权重估算（bf16，约2B参数/GB）
        # 简化：大模型参数量可以从名字推断
        
        return {
            "kv_cache_gb": kv_cache_bytes / 1e9,
            "kv_cache_mb_per_1k_tokens": kv_cache_bytes / seq_len / 1e6,
        }
    
    def check_gqa_support(self) -> str:
        """检查是否使用分组查询注意力（GQA）"""
        num_heads = getattr(self.config, 'num_attention_heads', None)
        num_kv_heads = getattr(self.config, 'num_key_value_heads', None)
        
        if num_kv_heads and num_heads and num_kv_heads < num_heads:
            ratio = num_heads // num_kv_heads
            return f"GQA ({ratio}:1 比例，内存减少{ratio}x)"
        else:
            return "MHA（标准多头注意力）"

# 实际使用：了解你将要微调的模型
inspector = LLMInspector("Qwen/Qwen2.5-7B-Instruct")
summary = inspector.get_architecture_summary()
print("架构摘要：")
for k, v in summary.items():
    print(f"  {k}: {v}")

memory = inspector.estimate_inference_memory(seq_len=8192)
print(f"\n8K上下文的KV Cache: {memory['kv_cache_gb']:.2f}GB")
print(f"每1K tokens的KV Cache: {memory['kv_cache_mb_per_1k_tokens']:.1f}MB")
print(f"注意力实现: {inspector.check_gqa_support()}")

# 输出（Qwen2.5-7B）：
#   model_type: qwen2
#   hidden_size (d_model): 3584
#   num_layers: 28
#   num_attention_heads: 28
#   num_kv_heads (GQA): 4  ← GQA！只有4个KV头，内存效率高
#   max_position_embeddings: 131072  ← 支持128K上下文
#   vocab_size: 152064
#   estimated_params: 7.6B

分组查询注意力（GQA）的工程价值：

Qwen2.5-7B：28个查询头 vs 4个KV头 = KV Cache减少7x
这就是为什么现代7B模型比早期7B模型推理更快、更省内存

本章小结

五个核心认知：

注意力矩阵是O(n²)：序列长度翻倍，内存和计算需求增加4倍——这是长上下文LLM最贵的根本原因
KV Cache是推理加速的核心：它把Decode阶段从O(n²)降到O(n)，是vLLM等框架的理论基础；管理好KV Cache内存是高吞吐量推理的关键
多头注意力 = 多种阅读视角：不同的Head会学到不同的语义关系（语法、共指、语义等），这也是为什么微调时选择性地更新注意力层很有效
RoPE让模型可以外推：现代LLM（LLaMA、Qwen）都用RoPE，理论上可以处理比训练时更长的序列
Flash Attention解决内存瓶颈：不改变计算结果，只改变计算顺序；相同内存可以处理4x更长的上下文

核心行动：

# 检查你最常用的模型的架构配置
from transformers import AutoConfig
config = AutoConfig.from_pretrained("你的模型名字")
print(config)  # 阅读并理解每个字段的含义

本章提示词模板

模板一：Transformer架构问题咨询

我在使用[模型名称，如Qwen2.5-7B]进行推理，遇到以下问题：
[描述症状，如：处理8K token的文档时，GPU内存不足]

模型架构参数：
- hidden_size: [值]
- num_layers: [值]
- num_attention_heads: [值]
- num_kv_heads: [值]
- max_position_embeddings: [值]

GPU: [型号，如RTX 4090 24GB]
当前batch_size: [值]
当前精度: [fp16/bf16/int8/int4]

请帮我：
1. 计算当前配置的内存占用
2. 找出内存瓶颈在哪里（模型权重 vs KV Cache vs 激活值）
3. 给出降低内存占用的具体方案（优先级排序）

模板二：模型选型技术分析

我需要在以下两类模型之间做选择，用于[任务描述]：
- 选项A: [模型名，如Qwen2.5-7B] 
- 选项B: [模型名，如Llama3-8B]

我的约束：
- GPU内存: [GB]
- 最大输入长度: [tokens]
- 延迟要求: [ms]
- 批处理大小: [N]

请从以下维度对比两个模型：
1. KV Cache内存占用（给定上下文长度）
2. 是否支持GQA（内存效率）
3. 最大上下文长度支持
4. 推理速度预期（在我的硬件上）
5. 基于架构的微调建议（用哪个更容易微调）

→ 第03章：HuggingFace生态：模型、Tokenizer与数据集的完整使用