1. swin-transformer

优点:

  • 解决transformer在cv领域速度慢的问题
  • 保持CNN的位移不变性、尺寸不变性、感受野与尺寸的关系、分阶段降低分辨率等特点
  • 在多领域表现SOTA

缺点:

  • 不具备CNN的权值共享这一特点。

2. swin-transformer的结构

在这里插入图片描述
特征图移位操作
整体流程:

  • 对特征图进行LayerNorm
  • 决定是否需要对特征图进行shift
  • 将特征图切成小的窗口
  • 计算注意力,通过注意力mask区分Window Attention和Shift Window Attention
  • 窗口合并
  • 若做了shift,就要进行reverse shift
  • dropout和残差连接
  • 再通过LayerNorm+全连接层、dropout、残差连接。

3. 细节阅读

http://giantpandacv.com/academic/%E7%AE%97%E6%B3%95%E7%A7%91%E6%99%AE/Transformer/%E5%9B%BE%E8%A7%A3swin%20transformer/
https://blog.csdn.net/qq_37541097/article/details/121119988

更多推荐