【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。
【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。
·
【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。
【深度学习|学习笔记】自监督学习(Self-Supervised Learning, SSL)起源、发展、原理、应用、优缺点、经典模型详解。
文章目录
欢迎铁子们点赞、关注、收藏!
祝大家逢考必过!逢投必中!上岸上岸上岸!upupup
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “
学术会议小灵通”或参考学术信息专栏:https://blog.csdn.net/2401_89898861/article/details/147776758
自监督学习(Self-Supervised Learning, SSL)
1. 起源
- 自监督学习起源于对无标签数据的高效利用。早在语言建模(如word2vec)和自编码器中,就隐含了自监督思想:从部分数据推测其剩余部分。
- 真正作为独立学习范式提出是在2019年前后,尤其在深度学习大模型中,SSL被广泛用于预训练阶段,成为无监督学习的升级版或“伪监督学习”。
2. 发展
- 2013年:word2vec(Mikolov)首次引入“上下文预测”任务
- 2018年:BERT(Google)提出“遮盖语言模型(Masked LM)”
- 2019年起:MoCo、SimCLR等方法推动CV领域的SSL发展
- 2020s之后:MAE、DINO、BYOL、iBOT等方法广泛应用于ViT预训练
3. 原理
- 自监督学习的核心思想是通过设计预任务(pretext task),让模型在无监督情况下自我构造监督信号,从而学习数据的通用表示(Representation Learning)。
典型方法:
- 遮盖预测(Masked Prediction):如BERT、MAE,遮挡部分输入,让模型预测被遮部分;
- 对比学习(Contrastive Learning):如SimCLR,学习使正样本更接近、负样本更远;
- 视图不变性(View Invariance):如BYOL,不使用负样本,仅靠两个视图间的一致性;
- 上下文预测 / 顺序预测:如GPT,预测下一个token。
4. 应用场景
在自然语言处理(NLP)中的应用:
- 语言模型预训练:BERT、GPT、RoBERTa 等基于自监督
- 问答系统、情感分析、翻译:利用预训练模型微调
- 知识图谱补全、关系抽取:构造实体间预测任务
在计算机视觉(CV)中的应用:
- 图像分类/分割的预训练特征提取器:MAE、SimCLR、MoCo、DINO
- 医疗影像分析:在缺乏标注的图像上学习通用表示
- 遥感图像分析:如多时相影像表示学习
- 视频分析:如时序预测、自监督动作识别
5. 优缺点
优点:
- ✅ 不依赖标签,可充分利用海量未标注数据;
- ✅ 迁移能力强:学习到的表示可用于多种下游任务;
- ✅ 提高数据效率:少量标注数据即可达到较好性能;
- ✅ 适合跨模态、跨领域应用(如图文对比学习 CLIP)
缺点:
- ❌ 设计任务复杂,不同任务效果差异大;
- ❌ 训练开销大,如对比学习需要大batch;
- ❌ 性能不稳定,容易过拟合预任务;
- ❌ 可解释性差,缺乏明确标签指导
6. 经典模型
NLP领域:
| 模型 | 方法核心 | 代表性成果 |
|---|---|---|
| word2vec | 上下文预测(CBOW/Skip-gram) | 静态词向量学习 |
| BERT | Masked Language Modeling | 全局语义理解、问答、NER等 |
| GPT系列 | 自回归预测(Next Token) | 文本生成、对话系统 |
| T5 | Text-to-Text 统一框架 | 翻译、摘要、问答等 |
CV领域:
| 模型 | 方法核心 | 应用 |
|---|---|---|
| SimCLR | 对比学习 + 数据增强 | 图像分类、表示学习 |
| MoCo | 动态字典+队列机制 | 更稳定的对比学习 |
| BYOL | 无负样本、自蒸馏 | 强鲁棒性、简化训练 |
| DINO | 学生-教师框架 | 对ViT视觉Transformer预训练 |
| MAE | Masked Autoencoder | ViT遮挡重建,效率高 |
| iBOT | 同时预测标签+对比学习 | 图像语义理解 |
7. 自监督 vs 其他学习范式对比表
| 学习范式 | 是否需人工标签 | 学习方式 | 应用特点 |
|---|---|---|---|
| 监督学习 | ✅ 是 | 输入-输出映射 | 精度高,依赖大量标签 |
| 非监督学习 | ❌ 否 | 发现数据结构 | 聚类、降维,评估困难 |
| 自监督学习 | ❌ 否(伪标签) | 构造预任务,自生成监督信号 | 可预训练,迁移性强,领域泛用性高 |
总结
- 自监督学习作为监督与非监督学习之间的“桥梁”,通过设计伪监督信号,结合深度神经网络和预训练-微调机制,已成为构建大模型(如GPT、DINOv2)的核心支柱之一,推动了AI在NLP、CV、遥感、医疗等领域的快速发展。
更多推荐



所有评论(0)