🧠 1. 图像处理理论和应用-深度学习笔记

主题:从卷积神经网络(CNN)到生成对抗网络(GAN)

时间:2025年11月25日


一、全连接层(Fully Connected Layer)

🌟 定义

全连接层中每个神经元与上一层所有神经元相连。

公式:

其中

  • ( W ):权重矩阵
  • ( b ):偏置向量
  • ( x ):输入向量
  • ( y ):输出向量

💡 特点

特性 说明
完全连接 每个输入都连接到每个输出
参数量大 参数数 = 输入节点数 × 输出节点数
常用于 网络末端(分类阶段)
缺点 参数爆炸、训练慢、容易过拟合

🧮 例子

输入为 1024 维,输出为 512 维:
在这里插入图片描述


⚠️ 层数太多会“算不动”的原因

  1. 参数过多 → 内存与计算资源爆炸。
  2. 梯度消失或爆炸 → 层数过深后误差无法传回。
  3. 优化困难 → 收敛慢、容易陷入局部最优。

因此,全连接层通常只在网络最后几层使用。


二、卷积层(Convolutional Layer)

💡 核心作用

自动从图像中提取局部特征(如边缘、纹理、角点)。


⚙️ 关键思想

名称 含义
局部感知 每个神经元只看图像的一小块区域
参数共享 同一个卷积核在整张图像上滑动,使用相同权重
空间结构保留 不打乱图像的空间关系

🧮 卷积计算过程

输入图像:
在这里插入图片描述

卷积核:
在这里插入图片描述

输出(滑动计算):
在这里插入图片描述

卷积核不断滑动,得到新的特征图(Feature Map)


🎯 特征图的意义

每张特征图代表卷积核在图像上“看到”的某种特征的分布。

  • 一些核专门检测边缘
  • 一些核检测角点
  • 多个核一起提取复杂结构

三、多通道卷积(Multi-channel Convolution)

💡 图像通道

  • 灰度图:1 通道
  • 彩色图:3 通道(R/G/B)

⚙️ 卷积核结构

若输入是 3 通道,卷积核为 (3×3×3)。

每个卷积核包含三个二维权重层(对应 RGB),
计算过程:
在这里插入图片描述

输出为 1 个特征图。

如果有 64 个卷积核,则输出为 64 个特征图。


🧠 总结

多通道输入 → 每个卷积核对每个通道单独卷积 → 结果求和 → 输出一个特征图。


四、Haar 特征与 AdaBoost

💡 Haar 特征

黑白矩形模板定义:
在这里插入图片描述

通过在不同位置、不同大小滑动模板,得到 Haar 特征集合。

常见模板类型:

  • Type-2-x:左右黑白
  • Type-2-y:上下黑白
  • Type-3-x:白黑白
  • Type-4:四格交错

⚙️ 积分图(Integral Image)

用于快速计算任意矩形区域的像素和:
在这里插入图片描述

只需 4 次加减,避免重复相加,大幅加速 Haar 特征计算。


🧠 AdaBoost 的作用

从成千上万个 Haar 特征中:

  • 选择最有用的特征;
  • 组合多个“弱分类器”形成“强分类器”;
  • 用于实时人脸检测(Viola–Jones 算法)。

五、HOG + SVM 与 Haar + AdaBoost 的对比

方法 特征类型 分类器 优点 缺点
HOG + SVM 梯度方向分布 支持向量机 精度高,对光照鲁棒 计算慢
Haar + AdaBoost 亮度差 弱分类器组合 实时性好 对姿态变化敏感

六、积分图的本质

积分图的优势在于减少重复相加
从 O(n²) 降为 O(1),
使得数万次区域求和在毫秒内完成,实现实时检测。


七、生成对抗网络(GAN)

💡 结构

由两部分组成:

  • 生成器 G:从随机噪声生成假样本;
  • 判别器 D:判断样本是真是假。

🎮 对抗过程

  1. D 学会识别真假;
  2. G 学会以假乱真;
  3. 两者互相博弈,最终 G 生成的样本以假乱真。

⚙️ 损失函数

在这里插入图片描述


🧠 理解比喻

G 是“造假者”,D 是“警察”。
两者互相较量,越打越强,直到假币真假难辨。


📊 GAN 的常见变种

模型 特点 应用
DCGAN 卷积版 GAN 图像生成
CGAN 有条件输入 类别控制
CycleGAN 不需配对样本 图像风格转换
StyleGAN 控制生成风格 逼真人物生成
Pix2Pix 图像到图像转换 黑白→彩色、线稿→实图

✨ 总结

GAN = 生成器(造假) + 判别器(识假)
通过对抗训练,让模型学会**“创造真实感数据”**。


八、核心知识总览表

概念 关键思想 优势 缺点
全连接层 每节点全连 表达力强 参数爆炸
卷积层 局部感知、参数共享 参数少、特征提取好 不处理非局部关系
积分图 快速矩形求和 极快 仅适用于矩形区域
Haar 特征 亮度差 计算简单 表达能力有限
AdaBoost 特征筛选 + 弱分类组合 实时检测 对光照敏感
GAN 对抗训练 数据生成能力强 训练不稳定

更多推荐