【深度学习】学习率 (learning rate)

JNingWei

111593人浏览 · 2018-02-02 22:31:40

JNingWei · 2018-02-02 22:31:40 发布

Introduction

学习率 (learning rate)，控制模型的 学习进度 ：
这里写图片描述

lr 即 stride (步长) ，即反向传播算法中的 $\eta$ ：

$\omega^{n} \leftarrow \omega^{n} - \eta \frac{\partial L}{\partial \omega^{n}}$

学习率大小

	学习率大	学习率小
学习速度	快	慢
使用时间点	刚开始训练时	一定轮数过后
副作用	1.易损失值爆炸；2.易振荡。	1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note：
如果是 迁移学习 ，由于模型已在原始数据上收敛，此时应设置较小学习率 ( $\leq 10^{-4}$ ) 在新数据上进行微调。

学习率减缓机制

	轮数减缓	指数减缓	分数减缓
英文名	step decay	exponential decay	$1/ t$ decay
方法	每N轮学习率减半	学习率按训练轮数增长指数插值递减	$lr_{t} = lr_{0} / (1+kt)$ ， $k$ 控制减缓幅度， $t$ 为训练轮数

把脉目标函数损失值曲线

理想情况下曲线应该是 滑梯式下降 [绿线]：
这里写图片描述

曲线 初始时上扬 [红线]：
Solution：初始学习率过大导致振荡，应减小学习率，并 从头开始训练 。
曲线 初始时强势下降没多久归于水平 [紫线]：
Solution：后期学习率过大导致 无法拟合，应减小学习率，并 重新训练后几轮 。
曲线 全程缓慢 [黄线]：
Solution：初始学习率过小导致 收敛慢，应增大学习率，并 从头开始训练 。

[1] 调整学习速率以优化神经网络训练
[2] 如何找到最优学习率

九章云极普惠算力

更多推荐

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!

九章云极普惠算力

Zero邮件备份恢复：数据丢失预防与恢复的完整方案

在数字化时代，邮件数据安全已成为企业和个人用户面临的重要挑战。Zero开源邮件应用提供了一套完整的邮件备份恢复方案，通过智能数据保护机制确保您的邮件信息安全无忧。无论您是担心误删重要邮件、系统故障导致数据丢失，还是需要长期归档关键通信记录，Zero的备份恢复功能都能为您提供可靠保障。## 🔒 数据丢失预防：多重保护机制Zero邮件应用内置了**乐观更新机制**，在用户执行操作时立即提供视

九章云极普惠算力

突破推理瓶颈：vLLM多模态时空决策系统重构智慧城市规划流程的完整指南

在当今智慧城市建设的浪潮中，vLLM多模态时空决策系统正以其卓越的高吞吐量和内存效率，彻底重构传统城市规划流程。作为专门为大型语言模型设计的推理和服务引擎，vLLM通过创新的架构设计，解决了传统AI系统在处理复杂时空数据时的性能瓶颈，为城市规划者提供了前所未有的决策支持能力。## 🚀 vLLM多模态时空决策系统的核心优势vLLM多模态时空决策系统采用了分层架构设计，从模型引擎到分布式计算