keras框架——知识蒸馏之深度学习VGG19神经网络图像分类系统源码

首先，T值很大，相当于用很高的温度将关键的分布信息从原有的数据中分离，之后在同样的温度下用新模型融合蒸馏出来的数据分布，最后恢复温度，让两者充分融合。这也可以看成Prof. Hinton将这一个迁移学习过程命名为蒸馏的原因。蒸馏神经网络想做的事情，本质上更接近于迁移学习（Transfer Learning），当然也可从模型压缩（Model Compression）的角度取理解蒸馏神经网络。🔥计算

qq_1041357701

398人浏览 · 2025-01-07 21:55:31

qq_1041357701 · 2025-01-07 21:55:31 发布

keras框架——知识蒸馏之深度学习VGG19神经网络图像分类系统源码

蒸馏神经网络取名为蒸馏（Distill），其实是一个非常形象的过程。

我们把数据结构信息和数据本身当作一个混合物，分布信息通过概率分布被分离出来。首先，T值很大，相当于用很高的温度将关键的分布信息从原有的数据中分离，之后在同样的温度下用新模型融合蒸馏出来的数据分布，最后恢复温度，让两者充分融合。这也可以看成Prof. Hinton将这一个迁移学习过程命名为蒸馏的原因。

蒸馏神经网络想做的事情，本质上更接近于迁移学习（Transfer Learning），当然也可从模型压缩（Model Compression）的角度取理解蒸馏神经网络。

详细的推道过程和理论，可以参见我的另外一篇博客：知识蒸馏（Distillation）简介_自蒸馏算法大神-CSDN博客
🔥计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码定制，私聊会回复!
✍🏻作者简介：机器学习，深度学习，卷积神经网络处理，图像处理
🚀B站项目实战：https://space.bilibili.com/364224477
😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+
🤵‍♂代做需求：@个人主页
第一步：准备数据

(x_train, y_train), (x_valid,y_valid) = keras.datasets.cifar10.load_data()

第二步：搭建模型

teacher网络是vgg19，student网络是简单的cnn网络：

由于是十分类问题，直接套用网络肯定是不行，因此会在全连接部分做手脚，参考代码如下：

def build_teacher_model(name='teacher'):
    base_model = keras.applications.VGG19(input_shape=IMAGE_SIZE, include_top=False)
    base_model.trainable = True
    return keras.models.Sequential([
        base_model,
        L.GlobalAvgPool2D(),
        L.Dense(N_CLASSES, activation='softmax')
    ], name=name
    )

另外，student网络，参考代码如下：

def build_student_model(name='student'):
    return keras.models.Sequential([
        L.Conv2D(64, 3, input_shape=IMAGE_SIZE, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.MaxPool2D(pool_size=2),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.MaxPool2D(pool_size=2),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.MaxPool2D(pool_size=2),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.MaxPool2D(pool_size=2),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.Conv2D(64, 3, padding='same', activation='relu'),
        L.MaxPool2D(pool_size=2),
        L.GlobalAvgPool2D(),
        L.Dense(N_CLASSES,activation='softmax'),
    ],name=name)

第三步：训练代码

先训练teacher网络，再结合训练student网络

teacher_model.compile(
    optimizer=keras.optimizers.Adam(1e-5),
    loss=keras.losses.CategoricalCrossentropy(from_logits=True),
    metrics=['accuracy']
)

history = teacher_model.fit(
    d_train.shuffle(1024, 19).batch(BATCH_SIZE),
    validation_data=d_valid.shuffle(1024, 19).batch(BATCH_SIZE),
    epochs=T_EPOCHS,
    callbacks=nn_callbacks(),
    batch_size=BATCH_SIZE
)


distiller = Distiller(student_model, teacher_model, tf.nn.softmax)
distiller.compile(
    optimizer=keras.optimizers.Adam(),
    metrics=['accuracy'],
    student_loss_fn=keras.losses.CategoricalCrossentropy(from_logits=True),
    distillation_loss_fn=keras.losses.KLDivergence(),
    alpha=0.7,
    temperature=100,
)
history_distillation = distiller.fit(
    d_train.shuffle(1024, 19).batch(BATCH_SIZE),
    validation_data=d_valid.shuffle(1024, 19).batch(BATCH_SIZE),
    epochs=S_EPOCHS, callbacks=nn_callbacks(), batch_size=BATCH_SIZE
)

第四步：统计训练过程

第五步：运行代码

九章云极普惠算力

更多推荐

RL Baselines Zoo与Stable Baselines完美结合：构建高效强化学习 pipeline

RL Baselines Zoo 是一个基于 Stable Baselines 构建的强化学习代理集合，包含100多个预训练模型，提供了训练、超参数优化和环境包装等完整功能，帮助开发者快速构建和部署强化学习解决方案。## 为什么选择 RL Baselines Zoo？RL Baselines Zoo 解决了强化学习落地的三大核心痛点：- **开箱即用的预训练模型**：在 `traine

九章云极普惠算力

物理信息神经网络（PINN）：融合物理规律与深度学习的工程建模范式

物理信息神经网络（PINN）通过将物理偏微分方程嵌入损失函数，有效解决了传统深度学习模型在工程应用中的两大痛点：对海量标注数据的依赖和预测结果违背物理规律的问题。本文以锂电池锂离子扩散的质量守恒问题为例，详细阐述了PINN的实现方法，包括：1）将扩散方程、边界条件等物理约束转化为损失项；2）构建多层感知机网络来拟合浓度分布；3）设计加权损失函数平衡数据拟合与物理约束；4）提供完整的训练流程和可视化