【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。

【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。



欢迎铁子们点赞、关注、收藏!
祝大家逢考必过!逢投必中!上岸上岸上岸!upupup

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “学术会议小灵通”或参考学术信息专栏:https://blog.csdn.net/2401_89898861/article/details/147776758


自监督学习(Self-Supervised Learning, SSL)

1. 起源

  • 自监督学习起源于对无标签数据的高效利用。早在语言建模(如word2vec)和自编码器中,就隐含了自监督思想:从部分数据推测其剩余部分
  • 真正作为独立学习范式提出是在2019年前后,尤其在深度学习大模型中,SSL被广泛用于预训练阶段,成为无监督学习的升级版或“伪监督学习”

2. 发展

  • 2013年:word2vec(Mikolov)首次引入“上下文预测”任务
  • 2018年:BERT(Google)提出“遮盖语言模型(Masked LM)”
  • 2019年起:MoCo、SimCLR等方法推动CV领域的SSL发展
  • 2020s之后:MAE、DINO、BYOL、iBOT等方法广泛应用于ViT预训练

3. 原理

  • 自监督学习的核心思想是通过设计预任务(pretext task),让模型在无监督情况下自我构造监督信号,从而学习数据的通用表示(Representation Learning)

典型方法:

  • 遮盖预测(Masked Prediction):如BERT、MAE,遮挡部分输入,让模型预测被遮部分;
  • 对比学习(Contrastive Learning):如SimCLR,学习使正样本更接近、负样本更远;
  • 视图不变性(View Invariance):如BYOL,不使用负样本,仅靠两个视图间的一致性;
  • 上下文预测 / 顺序预测:如GPT,预测下一个token。

4. 应用场景

在自然语言处理(NLP)中的应用:

  • 语言模型预训练:BERT、GPT、RoBERTa 等基于自监督
  • 问答系统、情感分析、翻译:利用预训练模型微调
  • 知识图谱补全、关系抽取:构造实体间预测任务

在计算机视觉(CV)中的应用:

  • 图像分类/分割的预训练特征提取器:MAE、SimCLR、MoCo、DINO
  • 医疗影像分析:在缺乏标注的图像上学习通用表示
  • 遥感图像分析:如多时相影像表示学习
  • 视频分析:如时序预测、自监督动作识别

5. 优缺点

优点:

  • ✅ 不依赖标签,可充分利用海量未标注数据;
  • ✅ 迁移能力强:学习到的表示可用于多种下游任务;
  • ✅ 提高数据效率:少量标注数据即可达到较好性能;
  • ✅ 适合跨模态、跨领域应用(如图文对比学习 CLIP)

缺点:

  • ❌ 设计任务复杂,不同任务效果差异大;
  • ❌ 训练开销大,如对比学习需要大batch;
  • ❌ 性能不稳定,容易过拟合预任务;
  • ❌ 可解释性差,缺乏明确标签指导

6. 经典模型

NLP领域:

模型 方法核心 代表性成果
word2vec 上下文预测(CBOW/Skip-gram) 静态词向量学习
BERT Masked Language Modeling 全局语义理解、问答、NER等
GPT系列 自回归预测(Next Token) 文本生成、对话系统
T5 Text-to-Text 统一框架 翻译、摘要、问答等

CV领域:

模型 方法核心 应用
SimCLR 对比学习 + 数据增强 图像分类、表示学习
MoCo 动态字典+队列机制 更稳定的对比学习
BYOL 无负样本、自蒸馏 强鲁棒性、简化训练
DINO 学生-教师框架 对ViT视觉Transformer预训练
MAE Masked Autoencoder ViT遮挡重建,效率高
iBOT 同时预测标签+对比学习 图像语义理解

7. 自监督 vs 其他学习范式对比表

学习范式 是否需人工标签 学习方式 应用特点
监督学习 ✅ 是 输入-输出映射 精度高,依赖大量标签
非监督学习 ❌ 否 发现数据结构 聚类、降维,评估困难
自监督学习 ❌ 否(伪标签) 构造预任务,自生成监督信号 可预训练,迁移性强,领域泛用性高

总结

  • 自监督学习作为监督与非监督学习之间的“桥梁”,通过设计伪监督信号,结合深度神经网络和预训练-微调机制,已成为构建大模型(如GPT、DINOv2)的核心支柱之一,推动了AI在NLP、CV、遥感、医疗等领域的快速发展。

更多推荐