【深度学习|学习笔记】自监督学习（Self-Supervised Learning, SSL）起源、发展、原理、应用、优缺点、经典模型详解。

【深度学习|学习笔记】自监督学习（Self-Supervised Learning, SSL）起源、发展、原理、应用、优缺点、经典模型详解。

2401_89898861

927人浏览 · 2025-06-08 07:30:00

2401_89898861 · 2025-06-08 07:30:00 发布

【深度学习|学习笔记】自监督学习（Self-Supervised Learning, SSL）起源、发展、原理、应用、优缺点、经典模型详解。

【深度学习|学习笔记】自监督学习（Self-Supervised Learning, SSL）起源、发展、原理、应用、优缺点、经典模型详解。

文章目录

【深度学习|学习笔记】自监督学习（Self-Supervised Learning, SSL）起源、发展、原理、应用、优缺点、经典模型详解。
自监督学习（Self-Supervised Learning, SSL）

欢迎铁子们点赞、关注、收藏！
祝大家逢考必过！逢投必中！上岸上岸上岸！upupup

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “学术会议小灵通”或参考学术信息专栏：https://blog.csdn.net/2401_89898861/article/details/147776758

自监督学习（Self-Supervised Learning, SSL）

1. 起源

自监督学习起源于对无标签数据的高效利用。早在语言建模（如word2vec）和自编码器中，就隐含了自监督思想：从部分数据推测其剩余部分。
真正作为独立学习范式提出是在2019年前后，尤其在深度学习大模型中，SSL被广泛用于预训练阶段，成为无监督学习的升级版或“伪监督学习”。

2. 发展

2013年：word2vec（Mikolov）首次引入“上下文预测”任务
2018年：BERT（Google）提出“遮盖语言模型（Masked LM）”
2019年起：MoCo、SimCLR等方法推动CV领域的SSL发展
2020s之后：MAE、DINO、BYOL、iBOT等方法广泛应用于ViT预训练

3. 原理

自监督学习的核心思想是通过设计预任务（pretext task），让模型在无监督情况下自我构造监督信号，从而学习数据的通用表示（Representation Learning）。

典型方法：

遮盖预测（Masked Prediction）：如BERT、MAE，遮挡部分输入，让模型预测被遮部分；
对比学习（Contrastive Learning）：如SimCLR，学习使正样本更接近、负样本更远；
视图不变性（View Invariance）：如BYOL，不使用负样本，仅靠两个视图间的一致性；
上下文预测 / 顺序预测：如GPT，预测下一个token。

4. 应用场景

在自然语言处理（NLP）中的应用：

语言模型预训练：BERT、GPT、RoBERTa 等基于自监督
问答系统、情感分析、翻译：利用预训练模型微调
知识图谱补全、关系抽取：构造实体间预测任务

在计算机视觉（CV）中的应用：

图像分类/分割的预训练特征提取器：MAE、SimCLR、MoCo、DINO
医疗影像分析：在缺乏标注的图像上学习通用表示
遥感图像分析：如多时相影像表示学习
视频分析：如时序预测、自监督动作识别

5. 优缺点

优点：

✅ 不依赖标签，可充分利用海量未标注数据；
✅ 迁移能力强：学习到的表示可用于多种下游任务；
✅ 提高数据效率：少量标注数据即可达到较好性能；
✅ 适合跨模态、跨领域应用（如图文对比学习 CLIP）

缺点：

❌ 设计任务复杂，不同任务效果差异大；
❌ 训练开销大，如对比学习需要大batch；
❌ 性能不稳定，容易过拟合预任务；
❌ 可解释性差，缺乏明确标签指导

6. 经典模型

NLP领域：

模型	方法核心	代表性成果
word2vec	上下文预测（CBOW/Skip-gram）	静态词向量学习
BERT	Masked Language Modeling	全局语义理解、问答、NER等
GPT系列	自回归预测（Next Token）	文本生成、对话系统
T5	Text-to-Text 统一框架	翻译、摘要、问答等

CV领域：

模型	方法核心	应用
SimCLR	对比学习 + 数据增强	图像分类、表示学习
MoCo	动态字典+队列机制	更稳定的对比学习
BYOL	无负样本、自蒸馏	强鲁棒性、简化训练
DINO	学生-教师框架	对ViT视觉Transformer预训练
MAE	Masked Autoencoder	ViT遮挡重建，效率高
iBOT	同时预测标签+对比学习	图像语义理解

7. 自监督 vs 其他学习范式对比表

学习范式	是否需人工标签	学习方式	应用特点
监督学习	✅ 是	输入-输出映射	精度高，依赖大量标签
非监督学习	❌ 否	发现数据结构	聚类、降维，评估困难
自监督学习	❌ 否（伪标签）	构造预任务，自生成监督信号	可预训练，迁移性强，领域泛用性高

总结

自监督学习作为监督与非监督学习之间的“桥梁”，通过设计伪监督信号，结合深度神经网络和预训练-微调机制，已成为构建大模型（如GPT、DINOv2）的核心支柱之一，推动了AI在NLP、CV、遥感、医疗等领域的快速发展。

九章云极普惠算力

更多推荐

cover

AI核心知识68——大语言模型之NSP （简洁且通俗易懂版）

九章云极普惠算力

cover

大语言模型系列(3): Qwen2.5-VL-3B 多模态模型端侧部署

九章云极普惠算力

cover

基于深度学习YOLOv12的垃圾分类识别检测系统（YOLOv12+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型）

九章云极普惠算力

所有评论(0)

查看更多评论

2401_89898861

已为社区贡献5条内容