PyTorch深度学习框架60天进阶学习计划-第30天：知识蒸馏实战

PyTorch深度学习框架60天进阶学习计划-第30天：知识蒸馏实战！如果文章对你有帮助，还请给个三连好评，感谢感谢！

凡人的AI工具箱

983人浏览 · 2025-03-26 08:46:29

凡人的AI工具箱 · 2025-03-26 08:46:29 发布

PyTorch深度学习框架60天进阶学习计划-第30天：知识蒸馏实战

实现BERT模型压缩，设计师生模型蒸馏策略，分析软标签温度参数影响

1. 知识蒸馏概述

知识蒸馏（Knowledge Distillation）是模型压缩的重要方法之一，由Hinton等人于2015年提出。在这种方法中，我们有一个大型的、训练好的"教师（Teacher）"模型和一个小型的"学生（Student）"模型。学生模型不仅从原始训练数据中学习，还学习教师模型的输出概率分布，这种方式通常能让小模型获得比直接训练更好的性能。

想象一下：如果爱因斯坦能教你物理，你可能会比自学更快掌握相对论。知识蒸馏就是让"爱因斯坦模型"教导"学生模型"，让学生在更短的时间内掌握更精华的知识！

BERT（Bidirectional Encoder Representations from Transformers）是NLP领域的重要模型，但其参数量巨大（BERT-base约110M参数，BERT-large约340M参数），导致推理速度慢、存储需求大，在资源受限环境下难以部署。因此，BERT模型的压缩和加速成为研究热点，而知识蒸馏是其中最有效的方法之一。

2. 知识蒸馏的数学基础

2.1 标准分类任务的损失函数

在标准分类任务中，我们通常使用交叉熵损失：

$LCE=−∑i=1Cyilog⁡(pi)L_{CE} = -\sum_{i=1}^{C} y_i \log(p_i)$

其中， $y_i$ 是真实标签的one-hot编码， $p_i$ 是模型预测的概率。

2.2 知识蒸馏中的软标签

在知识蒸馏中，我们使用教师模型的输出作为"软标签"。教师模型的输出通常经过softmax函数处理，但在知识蒸馏中，我们引入温度参数T来"软化"这些概率：

$qi=exp⁡(zi/T)∑jexp⁡(zj/T)q_i = \frac{\exp(z_i/T)}{\sum_j \exp(z_j/T)}$

其中， $z_i$ 是教师模型的logits（未经过softmax的原始输出），T是温度参数。当T=1时，等同于标准的softmax；当T>1时，概率分布变得更加平滑，T趋近于无穷大时，所有类别的概率趋近于均等。

2.3 知识蒸馏损失函数

知识蒸馏的总损失函数通常是硬标签损失和软标签损失的加权和：

$\alpha L_{CE}(y_{true}, p_{student}) + (1-\alpha) L_{KL}(p_{teacher}, p_{student}, T)$

其中：

$L_{CE}$ 是学生模型预测与真实标签之间的交叉熵损失
$L_{KL}$ 是学生模型预测与教师模型预测之间的KL散度
$α\alpha$ 是平衡两种损失的权重参数
$p_{teacher}$ 和 $p_{student}$ 分别是教师模型和学生模型在温度T下的软化输出

KL散度的计算公式为：

$LKL=∑ipteacher,ilog⁡(pteacher,ipstudent,i)L_{KL} = \sum_i p_{teacher,i} \log\left(\frac{p_{teacher,i}}{p_{student,i}}\right)$

3. BERT模型压缩策略

BERT模型压缩主要有几种策略：

知识蒸馏：使用大型BERT作为教师，训练小型BERT或其他架构作为学生
剪枝（Pruning）：移除模型中不重要的连接或神经元
量化（Quantization）：减少模型参数的精度，如从32位浮点数转为16位或8位
参数共享：在不同层间共享参数
模型结构搜索：寻找更高效的模型结构

今天我们重点关注知识蒸馏方法，其优势在于能保持模型性能的同时大幅减少参数量和计算量。

4. BERT蒸馏的师生模型设计

设计有效的师生模型架构是知识蒸馏成功的关键。

4.1 教师模型选择

对于BERT蒸馏，常用的教师模型包括：

BERT-base（12层，768维，12个注意力头，约110M参数）
BERT-large（24层，1024维，16个注意力头，约340M参数）
RoBERTa、XLNet等其他预训练模型

4.2 学生模型设计

学生模型的设计有多种策略：

层数减少：如从12层减少到6层或4层
隐藏维度减少：如从768维减少到384维或256维
注意力头减少：如从12个头减少到4个头
结构改变：如使用更高效的注意力机制、引入卷积等

4.3 师生模型对比表

下面是常见的BERT师生模型配置对比：

模型类型	层数	隐藏维度	注意力头数	参数量	相对推理速度
BERT-base（教师）	12	768	12	110M	1x
BERT-6L（学生）	6	768	12	67M	1.8x
BERT-4L（学生）	4	768	12	52M	2.7x
BERT-4L-312D（学生）	4	312	12	14M	7.5x
TinyBERT（学生）	4	312	12	14.5M	9.4x
DistilBERT（学生）	6	768	12	66M	1.9x
MobileBERT（学生）	24	128*	4	25M	4.0x

*MobileBERT使用了瓶颈结构，输入/输出维度为512，中间计算维度为128

5. 蒸馏策略设计

BERT蒸馏可以在不同层面进行，包括：

5.1 输出层蒸馏

最基本的蒸馏方式，学生模型学习教师模型的最终分类输出。

5.2 中间层蒸馏

学生模型的每一层都学习教师模型的对应层输出，有助于学生更好地模仿教师的内部表示。

5.3 注意力矩阵蒸馏

学生模型学习教师模型的注意力矩阵，有助于学生学习更好的注意力机制。

5.4 综合蒸馏策略

结合以上多种蒸馏方式，综合损失函数为：

$\alpha L_{output} + \beta L_{hidden} + \gamma L_{attention} + \delta L_{CE}$

其中， $α\alpha$ 、 $β\beta$ 、 $γ\gamma$ 、 $δ\delta$ 是各损失项的权重。

6. 温度参数对知识蒸馏的影响

温度参数T是知识蒸馏中的关键超参数，它控制软标签的"软化程度"。

6.1 温度参数的作用机制

T = 1：等同于标准softmax输出，概率分布较为"尖锐"，主要集中在高概率类别上
T > 1：提高温度会使概率分布更加平滑，增强低概率类别的信息，这些可能包含教师模型对样本的"细微理解"
T < 1：降低温度会使概率分布更加集中，仅保留高概率类别的信息

6.2 温度参数对蒸馏效果的影响表

温度T	概率分布特点	蒸馏效果	适用场景
0.5	非常尖锐，接近硬标签	学生模型更关注教师的高置信度预测，忽略细微差别	数据集类别区分明显、教师模型非常准确
1.0	标准softmax输出	平衡关注高低概率类别	一般情况的baseline
2.0	较为平滑	学生模型能学习到类别间的细微关系	类别相关性强、有层次结构的数据集
5.0	非常平滑	最大程度挖掘类别间关系，但可能引入噪声	复杂数据集、类别众多的情况
10.0+	趋于均匀分布	可能丢失关键信息，表现下降	一般不推荐，除非特殊需求

实际应用中，通常在2~6之间的温度参数效果较好，具体需要针对任务调整。

7. PyTorch实现BERT知识蒸馏

接下来，我们用PyTorch实现BERT知识蒸馏。我们将使用Hugging Face的Transformers库，它提供了丰富的预训练模型和工具。

7.1 环境准备

首先，确保安装必要的库：

# 安装必要的库
# pip install torch transformers datasets tqdm matplotlib pandas numpy

7.2 数据准备

我们以GLUE中的SST-2（电影评论情感分析）任务为例：

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler
from transformers import BertModel, BertConfig, BertTokenizer, BertForSequenceClassification
from transformers import AdamW, get_linear_schedule_with_warmup
from datasets import load_dataset
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm
import random
import os

# 设置随机种子，确保结果可复现
def set_seed(seed):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(seed)

set_seed(42)

# 加载SST-2数据集
dataset = load_dataset("glue", "sst2")
train_dataset = dataset["train"]
validation_dataset = dataset["validation"]

# 加载tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 数据预处理函数
def preprocess_function(examples):
    return tokenizer(examples["sentence"], padding="max_length", truncation=True, max_length=128)

# 对数据集进行预处理
train_encodings = preprocess_function(train_dataset)
val_encodings = preprocess_function(validation_dataset)

# 创建PyTorch数据集
class SSTDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = SSTDataset(train_encodings, train_dataset["label"])
val_dataset = SSTDataset(val_encodings, validation_dataset["label"])

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=16, sampler=RandomSampler(train_dataset))
val_loader = DataLoader(val_dataset, batch_size=32, sampler=SequentialSampler(val_dataset))

7.3 教师模型准备

我们使用预训练的BERT-base作为教师模型：

# 加载教师模型
teacher_model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
teacher_model.to('cuda' if torch.cuda.is_available() else 'cpu')

# 定义设备
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 先对教师模型进行微调
def train_teacher_model():
    # 定义优化器和学习率调度器
    optimizer = AdamW(teacher_model.parameters(), lr=2e-5)
    total_steps = len(train_loader) * 3  # 训练3个epoch
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)
    
    # 训练循环
    teacher_model.train()
    for epoch in range(3):
        print(f"Epoch {epoch+1}/3")
        total_loss = 0
        
        for batch in tqdm(train_loader):
            # 将数据移到设备上
            batch = {k: v.to(device) for k, v in batch.items()}
            
            # 前向传播
            outputs = teacher_model(**batch)
            loss = outputs.loss
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            scheduler.step()
            
            total_loss += loss.item()
        
        print(f"Average loss: {total_loss/len(train_loader)}")
    
    # 评估教师模型
    teacher_model.eval()
    correct = 0
    total = 0
    
    with torch.no_grad():
        for batch in tqdm(val_loader):
            batch = {k: v.to(device) for k, v in batch.items()}
            outputs = teacher_model(**batch)
            preds = torch.argmax(outputs.logits, dim=1)
            correct += (preds == batch['labels']).sum().item()
            total += batch['labels'].size(0)
    
    accuracy = correct / total
    print(f"Teacher model accuracy: {accuracy:.4f}")
    
    # 保存教师模型
    teacher_model.save_pretrained('./teacher_model')
    
    return accuracy

# 如果教师模型已保存，则加载它，否则训练它
if os.path.exists('./teacher_model'):
    teacher_model = BertForSequenceClassification.from_pretrained('./teacher_model')
    teacher_model.to(device)
else:
    teacher_accuracy = train_teacher_model()

7.4 学生模型设计

我们设计一个小型BERT模型作为学生：

# 定义学生模型配置，使用较小的BERT模型
student_config = BertConfig.from_pretrained('bert-base-uncased')
student_config.num_hidden_layers = 4  # 减少层数
student_config.hidden_size = 312  # 减少隐藏维度
student_config.intermediate_size = 1200  # 减少前馈网络大小
student_config.num_attention_heads = 12  # 保持注意力头数
student_config.num_labels = 2

# 创建学生模型
student_model = BertForSequenceClassification(student_config)
student_model.to(device)

# 打印模型参数数量比较
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

teacher_params = count_parameters(teacher_model)
student_params = count_parameters(student_model)

print(f"Teacher model parameters: {teacher_params:,}")
print(f"Student model parameters: {student_params:,}")
print(f"Compression ratio: {teacher_params / student_params:.2f}x")

7.5 知识蒸馏实现

接下来，实现知识蒸馏训练过程：

# 定义蒸馏损失函数
class DistillationLoss(nn.Module):
    def __init__(self, temperature=1.0, alpha=0.5):
        super().__init__()
        self.temperature = temperature
        self.alpha = alpha
        self.ce_loss = nn.CrossEntropyLoss()
        
    def forward(self, student_logits, teacher_logits, labels):
        # 硬标签损失
        hard_loss = self.ce_loss(student_logits, labels)
        
        # 软标签损失（KL散度）
        soft_student = F.log_softmax(student_logits / self.temperature, dim=-1)
        soft_teacher = F.softmax(teacher_logits / self.temperature, dim=-1)
        soft_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean') * (self.temperature ** 2)
        
        # 总损失
        loss = self.alpha * hard_loss + (1 - self.alpha) * soft_loss
        return loss

# 知识蒸馏训练函数
def train_student_with_distillation(temperature=2.0, alpha=0.5, epochs=3):
    # 定义优化器和学习率调度器
    optimizer = AdamW(student_model.parameters(), lr=5e-5)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)
    
    # 定义蒸馏损失
    distill_loss_fn = DistillationLoss(temperature=temperature, alpha=alpha)
    
    # 训练循环
    student_model.train()
    teacher_model.eval()  # 教师模型设为评估模式
    
    history = {'loss': [], 'val_accuracy': []}
    
    for epoch in range(epochs):
        print(f"Epoch {epoch+1}/{epochs}")
        epoch_loss = 0
        
        for batch in tqdm(train_loader):
            # 将数据移到设备上
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            
            # 获取教师模型的logits（不计算梯度）
            with torch.no_grad():
                teacher_outputs = teacher_model(**batch, labels=labels)
                teacher_logits = teacher_outputs.logits
            
            # 获取学生模型的logits
            student_outputs = student_model(**batch, labels=labels)
            student_logits = student_outputs.logits
            
            # 计算蒸馏损失
            loss = distill_loss_fn(student_logits, teacher_logits, labels)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            scheduler.step()
            
            epoch_loss += loss.item()
        
        avg_loss = epoch_loss / len(train_loader)
        history['loss'].append(avg_loss)
        print(f"Epoch {epoch+1} loss: {avg_loss:.4f}")
        
        # 评估学生模型
        val_accuracy = evaluate_student_model()
        history['val_accuracy'].append(val_accuracy)
        print(f"Validation accuracy: {val_accuracy:.4f}")
    
    return history

# 评估学生模型函数
def evaluate_student_model():
    student_model.eval()
    correct = 0
    total = 0
    
    with torch.no_grad():
        for batch in val_loader:
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            outputs = student_model(**batch)
            preds = torch.argmax(outputs.logits, dim=1)
            correct += (preds == labels).sum().item()
            total += labels.size(0)
    
    accuracy = correct / total
    return accuracy

7.6 温度参数对比实验

我们将尝试不同的温度参数，观察其对蒸馏效果的影响：

# 使用不同温度参数进行蒸馏实验
temperatures = [1.0, 2.0, 5.0, 10.0]
results = {}

for temp in temperatures:
    print(f"\n=== Training with temperature {temp} ===")
    # 重新初始化学生模型
    student_model = BertForSequenceClassification(student_config)
    student_model.to(device)
    
    # 进行蒸馏训练
    history = train_student_with_distillation(temperature=temp, alpha=0.5, epochs=3)
    results[temp] = history['val_accuracy'][-1]  # 记录最终验证准确率

# 绘制不同温度参数对比图
plt.figure(figsize=(10, 6))
temps = list(results.keys())
accs = list(results.values())
plt.plot(temps, accs, marker='o', linestyle='-')
plt.xlabel('Temperature')
plt.ylabel('Validation Accuracy')
plt.title('Effect of Temperature Parameter on Knowledge Distillation')
plt.grid(True)
plt.savefig('temperature_comparison.png')
plt.show()

# 输出结果表格
print("\nTemperature Parameter Comparison:")
print("=" * 40)
print(f"{'Temperature':^15}|{'Validation Accuracy':^20}")
print("=" * 40)
for temp, acc in results.items():
    print(f"{temp:^15}|{acc:^20.4f}")
print("=" * 40)

7.7 完整知识蒸馏函数

将前面的代码整合，实现一个完整的知识蒸馏函数：

def distill_bert(teacher_model, student_config, temperature=2.0, alpha=0.5, epochs=3, batch_size=16):
    """
    使用知识蒸馏压缩BERT模型
    
    参数:
    - teacher_model: 教师模型
    - student_config: 学生模型配置
    - temperature: 软标签温度参数
    - alpha: 硬标签权重
    - epochs: 训练轮数
    - batch_size: 批次大小
    
    返回:
    - student_model: 训练好的学生模型
    - history: 训练历史
    """
    # 设置随机种子
    set_seed(42)
    
    # 创建学生模型
    student_model = BertForSequenceClassification(student_config)
    student_model.to(device)
    
    # 打印模型参数比较
    teacher_params = count_parameters(teacher_model)
    student_params = count_parameters(student_model)
    print(f"Teacher model parameters: {teacher_params:,}")
    print(f"Student model parameters: {student_params:,}")
    print(f"Compression ratio: {teacher_params / student_params:.2f}x")
    
    # 准备数据加载器
    train_loader = DataLoader(train_dataset, batch_size=batch_size, sampler=RandomSampler(train_dataset))
    val_loader = DataLoader(val_dataset, batch_size=batch_size*2, sampler=SequentialSampler(val_dataset))
    
    # 定义优化器和学习率调度器
    optimizer = AdamW(student_model.parameters(), lr=5e-5)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)
    
    # 定义蒸馏损失
    distill_loss_fn = DistillationLoss(temperature=temperature, alpha=alpha)
    
    # 训练历史记录
    history = {
        'loss': [],
        'val_accuracy': [],
        'teacher_accuracy': None
    }
    
    # 计算教师模型准确率
    teacher_model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for batch in val_loader:
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            outputs = teacher_model(**batch, labels=labels)
            preds = torch.argmax(outputs.logits, dim=1)
            correct += (preds == labels).sum().item()
            total += labels.size(0)
    
    teacher_accuracy = correct / total
    history['teacher_accuracy'] = teacher_accuracy
    print(f"Teacher model accuracy: {teacher_accuracy:.4f}")
    
    # 训练循环
    student_model.train()
    teacher_model.eval()
    
    for epoch in range(epochs):
        print(f"Epoch {epoch+1}/{epochs}")
        epoch_loss = 0
        
        # 训练一个epoch
        for batch in tqdm(train_loader):
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            
            # 获取教师模型的logits
            with torch.no_grad():
                teacher_outputs = teacher_model(**batch, labels=labels)
                teacher_logits = teacher_outputs.logits
            
            # 获取学生模型的logits
            student_outputs = student_model(**batch, labels=labels)
            student_logits = student_outputs.logits
            
            # 计算蒸馏损失
            loss = distill_loss_fn(student_logits, teacher_logits, labels)
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            scheduler.step()
            
            epoch_loss += loss.item()
        
        # 记录平均损失
        avg_loss = epoch_loss / len(train_loader)
        history['loss'].append(avg_loss)
        print(f"Epoch {epoch+1} loss: {avg_loss:.4f}")
        
        # 评估学生模型
        student_model.eval()
        correct = 0
        total = 0
        with torch.no_grad():
            for batch in val_loader:
                batch = {k: v.to(device) for k, v in batch.items()}
                labels = batch.pop('labels')
                outputs = student_model(**batch)
                preds = torch.argmax(outputs.logits, dim=1)
                correct += (preds == labels).sum().item()
                total += labels.size(0)
        
        val_accuracy = correct / total
        history['val_accuracy'].append(val_accuracy)
        print(f"Validation accuracy: {val_accuracy:.4f}")
    
    # 计算性能比
    final_accuracy = history['val_accuracy'][-1]
    performance_ratio = final_accuracy / teacher_accuracy
    
    print("\nDistillation Results Summary:")
    print(f"Teacher accuracy: {teacher_accuracy:.4f}")
    print(f"Student accuracy: {final_accuracy:.4f}")
    print(f"Performance ratio: {performance_ratio:.4f}")
    print(f"Compression ratio: {teacher_params / student_params:.2f}x")
    
    return student_model, history

7.8 运行完整的知识蒸馏实验

# 运行完整实验
student_config = BertConfig.from_pretrained('bert-base-uncased')
student_config.num_hidden_layers = 4  # 减少层数
student_config.hidden_size = 312  # 减少隐藏维度
student_config.intermediate_size = 1200  # 减少前馈网络大小
student_config.num_attention_heads = 6  # 减少注意力头数
student_config.num_labels = 2

distilled_student, distill_history = distill_bert(
    teacher_model=teacher_model,
    student_config=student_config,
    temperature=2.0,
    alpha=0.5,
    epochs=3
)

# 保存学生模型
distilled_student.save_pretrained('./distilled_student_model')

# 绘制训练曲线
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(distill_history['loss'])
plt.title('Training Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(distill_history['val_accuracy'])
plt.axhline(y=distill_history['teacher_accuracy'], color='r', linestyle='--', label='Teacher')
plt.title('Validation Accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.grid(True)

plt.tight_layout()
plt.savefig('distillation_curves.png')
plt.show()

8. 代码流程图

下面是BERT知识蒸馏的流程图：

+------------------------+     +------------------------+     +------------------------+
| 预训练BERT教师模型     |---->| 在下游任务上微调教师   |---->| 设计小型BERT学生模型   |
+------------------------+     +------------------------+     +------------------------+
                                                                         |
                                                                         v
+------------------------+     +------------------------+     +------------------------+
| 评估蒸馏后的学生模型   |<----| 对不同温度参数进行实验 |<----| 使用知识蒸馏训练学生  |
+------------------------+     +------------------------+     +------------------------+
         |
         v
+------------------------+
| 模型部署与应用         |
+------------------------+

知识蒸馏训练循环细节流程图：

+----------------+     +-------------------+     +--------------------+
| 训练数据批次   |---->| 通过教师模型获取  |---->| 计算教师模型的软标签|
+----------------+     | logits（无梯度）  |     | (使用温度参数T)    |
                       +-------------------+     +--------------------+
                                                         |
                                                         v
+-------------------+     +-------------------+     +--------------------+
| 反向传播、更新    |<----| 计算蒸馏损失      |<----| 通过学生模型获取   |
| 学生模型参数      |     | (软标签+硬标签)   |     | logits             |
+-------------------+     +-------------------+     +--------------------+

9. 温度参数实验分析

假设我们已经执行了前面的代码，得到了不同温度参数下的实验结果，下面是对结果的分析：

# 假设已经有了不同温度下的实验结果
temperatures = [1.0, 2.0, 5.0, 10.0]
accuracies = [0.8532, 0.8678, 0.8593, 0.8412]  # 示例数据，实际运行时会有不同结果

# 创建结果表格
results_df = pd.DataFrame({
    'Temperature': temperatures,
    'Validation Accuracy': accuracies,
    'Performance vs Teacher': [acc / distill_history['teacher_accuracy'] for acc in accuracies]
})

print(results_df.to_string(index=False))

# 绘制温度参数对准确率的影响
plt.figure(figsize=(10, 6))
plt.plot(temperatures, accuracies, marker='o', linestyle='-', linewidth=2)
plt.axhline(y=distill_history['teacher_accuracy'], color='r', linestyle='--', label='Teacher Accuracy')
plt.xlabel('Temperature Parameter', fontsize=12)
plt.ylabel('Validation Accuracy', fontsize=12)
plt.title('Effect of Temperature Parameter on Distillation Performance', fontsize=14)
plt.grid(True)
plt.legend()
plt.savefig('temperature_analysis.png')
plt.show()

10. 分析软标签的信息含量

让我们深入分析不同温度下软标签提供的信息：

def analyze_soft_labels(teacher_model, batch, temperatures=[1.0, 2.0, 5.0, 10.0]):
    """分析不同温度下软标签的信息含量"""
    teacher_model.eval()
    
    # 获取一批数据
    batch = {k: v.to(device) for k, v in batch.items()}
    labels = batch.pop('labels')
    
    # 获取教师模型的logits
    with torch.no_grad():
        outputs = teacher_model(**batch, labels=labels)
        logits = outputs.logits
    
    # 计算不同温度下的软标签
    soft_labels = {}
    entropy = {}
    
    for temp in temperatures:
        probs = F.softmax(logits / temp, dim=1)
        soft_labels[temp] = probs.cpu().numpy()
        
        # 计算熵，衡量信息量
        log_probs = F.log_softmax(logits / temp, dim=1)
        entropy_val = -torch.sum(probs * log_probs, dim=1).mean().item()
        entropy[temp] = entropy_val
    
    # 打印结果
    print("Soft Labels Analysis:")
    print(f"{'Temperature':^15}|{'Average Entropy':^20}")
    print("=" * 40)
    for temp, ent in entropy.items():
        print(f"{temp:^15}|{ent:^20.4f}")
    
    # 可视化一个样本的不同温度下的概率分布
    sample_idx = 0
    plt.figure(figsize=(12, 6))
    
    for i, temp in enumerate(temperatures):
        plt.subplot(1, len(temperatures), i+1)
        probs = soft_labels[temp][sample_idx]
        plt.bar(range(len(probs)), probs)
        plt.title(f"T = {temp}")
        plt.ylim(0, 1)
        if i == 0:
            plt.ylabel("Probability")
        plt.xlabel("Class")
    
    plt.tight_layout()
    plt.savefig('soft_labels_visualization.png')
    plt.show()
    
    return soft_labels, entropy

# 获取一批数据用于分析
sample_batch = next(iter(train_loader))
soft_labels, entropy = analyze_soft_labels(teacher_model, sample_batch)

11. 中间层蒸馏扩展

前面我们主要实现了输出层的蒸馏，接下来扩展到中间层的蒸馏：

# 定义带有中间层蒸馏的损失函数
class EnhancedDistillationLoss(nn.Module):
    def __init__(self, temperature=1.0, alpha=0.5, beta=0.5):
        super().__init__()
        self.temperature = temperature
        self.alpha = alpha  # 硬标签权重
        self.beta = beta    # 中间层权重
        self.ce_loss = nn.CrossEntropyLoss()
        self.mse_loss = nn.MSELoss()
        
    def forward(self, student_logits, teacher_logits, student_hidden, teacher_hidden, labels):
        # 硬标签损失
        hard_loss = self.ce_loss(student_logits, labels)
        
        # 软标签损失（KL散度）
        soft_student = F.log_softmax(student_logits / self.temperature, dim=-1)
        soft_teacher = F.softmax(teacher_logits / self.temperature, dim=-1)
        soft_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean') * (self.temperature ** 2)
        
        # 中间层损失（MSE）
        # 假设student_hidden和teacher_hidden已经过线性映射使维度匹配
        hidden_loss = self.mse_loss(student_hidden, teacher_hidden)
        
        # 总损失
        loss = self.alpha * hard_loss + (1 - self.alpha) * soft_loss + self.beta * hidden_loss
        return loss

# 为学生模型添加中间层映射
class DistilBertForSequenceClassification(nn.Module):
    def __init__(self, student_config, teacher_hidden_size=768):
        super().__init__()
        self.bert = BertForSequenceClassification(student_config)
        
        # 添加从学生隐藏状态到教师隐藏状态的映射
        self.hidden_mapper = nn.Linear(student_config.hidden_size, teacher_hidden_size)
    
    def forward(self, **inputs):
        outputs = self.bert(**inputs)
        
        # 获取隐藏状态并映射
        if hasattr(outputs, 'hidden_states') and outputs.hidden_states is not None:
            # 取最后一层的隐藏状态
            hidden = outputs.hidden_states[-1]
            mapped_hidden = self.hidden_mapper(hidden)
            return outputs.logits, mapped_hidden
        else:
            return outputs.logits, None

# 修改后的蒸馏训练函数（支持中间层蒸馏）
def train_with_enhanced_distillation(teacher_model, student_model, train_loader, val_loader, 
                                     temperature=2.0, alpha=0.5, beta=0.5, epochs=3):
    # 定义优化器
    optimizer = AdamW(student_model.parameters(), lr=5e-5)
    
    # 定义调度器
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=total_steps)
    
    # 定义损失函数
    distill_loss_fn = EnhancedDistillationLoss(temperature=temperature, alpha=alpha, beta=beta)
    
    # 训练历史
    history = {
        'loss': [],
        'val_accuracy': []
    }
    
    # 训练循环
    for epoch in range(epochs):
        print(f"Epoch {epoch+1}/{epochs}")
        student_model.train()
        teacher_model.eval()
        
        epoch_loss = 0
        
        for batch in tqdm(train_loader):
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            
            # 获取教师模型的输出
            with torch.no_grad():
                teacher_outputs = teacher_model(**batch, output_hidden_states=True)
                teacher_logits = teacher_outputs.logits
                teacher_hidden = teacher_outputs.hidden_states[-1]  # 最后一层隐藏状态
            
            # 获取学生模型的输出
            student_logits, student_mapped_hidden = student_model(**batch, output_hidden_states=True)
            
            # 计算增强的蒸馏损失
            loss = distill_loss_fn(
                student_logits, 
                teacher_logits, 
                student_mapped_hidden, 
                teacher_hidden, 
                labels
            )
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            scheduler.step()
            
            epoch_loss += loss.item()
        
        # 记录平均损失
        avg_loss = epoch_loss / len(train_loader)
        history['loss'].append(avg_loss)
        print(f"Epoch {epoch+1} loss: {avg_loss:.4f}")
        
        # 评估
        val_accuracy = evaluate_enhanced_student(student_model, val_loader)
        history['val_accuracy'].append(val_accuracy)
        print(f"Validation accuracy: {val_accuracy:.4f}")
    
    return history

# 评估函数
def evaluate_enhanced_student(student_model, val_loader):
    student_model.eval()
    correct = 0
    total = 0
    
    with torch.no_grad():
        for batch in val_loader:
            batch = {k: v.to(device) for k, v in batch.items()}
            labels = batch.pop('labels')
            
            logits, _ = student_model(**batch)
            preds = torch.argmax(logits, dim=1)
            
            correct += (preds == labels).sum().item()
            total += labels.size(0)
    
    return correct / total

12. 实际项目中的最佳实践

在实际项目中应用BERT知识蒸馏时，以下是一些最佳实践：

12.1 模型设计最佳实践

从业务需求出发选择压缩比：根据部署环境和性能要求选择合适的压缩比。通常，压缩比在4-8倍之间能在保持相当性能的同时显著减少计算开销。
保持注意力头数与隐藏维度的合适比例：隐藏维度应是注意力头数的整数倍，通常每个头32-64维效果较好。
使用教师模型的权重初始化学生模型：当学生模型结构与教师模型相近时，可以使用教师模型的部分权重初始化学生模型。
考虑采用渐进式蒸馏：先蒸馏一个中等大小的模型，再用这个模型作为教师蒸馏更小的模型。

12.2 训练技巧

使用足够大的训练数据：知识蒸馏对数据量的要求通常高于直接监督学习。如有可能，可以使用教师模型为无标签数据生成伪标签，扩充训练集。
温度参数调优：建议在2-6之间进行网格搜索，找到最适合特定任务的温度参数。
学习率预热：使用较长的学习率预热期（warm-up）有助于稳定训练。
不同损失项权重的动态调整：可以考虑在训练过程中动态调整硬标签和软标签的权重，例如开始时更重视软标签，后期更重视硬标签。

12.3 评估与调优

多指标评估：除了准确率外，还应关注延迟、吞吐量、内存使用等实际部署指标。
量化与剪枝结合：蒸馏后的模型可以进一步通过量化和剪枝进行优化。
端到端评估：在实际应用场景中进行端到端评估，而不仅是孤立的模型评估。

13. 实验结果分析与总结

通过上述实验，我们可以得出以下结论：

BERT模型压缩效果显著：通过知识蒸馏，我们可以将BERT模型压缩至原大小的1/8左右，同时保持约95%的性能。
温度参数的影响：
- 较低的温度（1.0左右）：倾向于保留教师模型的高置信度预测，但可能忽略类别间的细微关系
- 中等温度（2.0-5.0）：通常能取得最佳平衡，既考虑了高置信度预测，又保留了类别间的关系信息
- 较高的温度（>5.0）：虽然提供了更平滑的分布，但可能引入太多噪声，导致性能下降
蒸馏策略对比：
- 仅输出层蒸馏：实现简单，但效果有限
- 中间层蒸馏：需要额外的映射层，但能显著提升性能
- 注意力矩阵蒸馏：进一步提升性能，但增加了训练复杂度
师生架构设计的权衡：
- 减少层数：对性能影响最大，但也带来最显著的速度提升
- 减少隐藏维度：参数量减少明显，但需要更多的训练迭代才能达到良好效果
- 减少注意力头：对性能影响相对较小，是一个良好的压缩选择