深度学习训练缩放法则系列
预告:从理论到实践,Scaling Law 并非只存在于数学推导,还能在大模型训练中被观测。预告:Scaling Law 的未来走向,可能与 AGI 的出现相关。预告:SGD 的规律很优美,但 Adam 等优化器要复杂得多。预告:不仅是数学与经验,背后还有算力、能耗与经济问题。
课程总目录
- 第一课:学习率与批大小的 Scaling Law(基础篇)
- 第二课:Adam 等自适应优化器的缩放难题
- 第三课:大模型训练的实践 Scaling Law(经验与陷阱)
- 第四课:训练效率与能耗的极限(算力经济学)
- 第五课:未来展望——Scaling Law 与通用智能
第一课 · 学习率与批大小的 Scaling Law(基础篇)
-
主要内容:
- 梯度下降的几何直观(下山类比)。
- 批大小与学习率的数学关系。
- SGD 的最优学习率推导。
- 「效率边界」的双曲线法则。
-
核心公式:
ηSGD∗≈ηmax1+Bnoise/B \eta^*_{\text{SGD}} \approx \frac{\eta_{\max}}{1 + B_{\text{noise}}/B} ηSGD∗≈1+Bnoise/Bηmax
-
预告:SGD 的规律很优美,但 Adam 等优化器要复杂得多。
第二课 · Adam 等自适应优化器的缩放难题
-
主要问题:
- 为什么 Adam 不再符合第一课的公式?
- 动量项 $m_t$ 与方差项 $v_t$ 引入的非线性如何打破解析?
- 现有研究中的近似分析(高斯假设、独立性假设)。
-
数学难点:
ϕ~B∝mtvt+ϵ \tilde{\phi}_B \propto \frac{m_t}{\sqrt{v_t} + \epsilon} ϕ~B∝vt+ϵmt
期望计算
E[ϕ~B]≠E[mt]E[vt] \mathbb{E}[\tilde{\phi}_B] \neq \frac{\mathbb{E}[m_t]}{\sqrt{\mathbb{E}[v_t]}} E[ϕ~B]=E[vt]E[mt]
-
可能的教学重点:
- 画出「SGD 是康庄大道 vs Adam 是荆棘小径」的流程图。
- 展示数值实验:大批量训练时 Adam 为什么仍然稳定?
-
预告:从理论到实践,Scaling Law 并非只存在于数学推导,还能在大模型训练中被观测。
第三课 · 大模型训练的实践 Scaling Law(经验与陷阱)
-
主要问题:
- 实际训练中,Scaling Law 如何指导批大小与学习率设置?
- 「线性学习率缩放法则」:当 $B$ 增加 $k$ 倍时,$\eta$ 也增大 $k$ 倍。
- 「平方根缩放法则」:另一种常见经验。
-
案例:
- GPT-3、PaLM、LLaMA 等大模型训练报告中的超参数策略。
- 为什么在 trillion-token 规模下,Scaling Law 更加显著?
-
教学形式:
- 做对比图:理论公式 vs 实际经验。
- 加入「失败案例」:盲目增大学习率时的发散现象。
-
预告:不仅是数学与经验,背后还有算力、能耗与经济问题。
第四课 · 训练效率与能耗的极限(算力经济学)
-
主要问题:
- 训练一个大模型到底要多少算力、多少电?
- 「效率边界」如何转化为 算力-数据-能耗三者关系?
- 硅谷和科研机构是如何在硬件层面优化的?
-
公式:
E=B×S,(SSmin−1)(EEmin−1)=1 E = B \times S, \quad \Big(\frac{S}{S_{\min}} - 1\Big)\Big(\frac{E}{E_{\min}} - 1\Big) = 1 E=B×S,(SminS−1)(EminE−1)=1
-
扩展话题:
- 训练中的碳排放计算。
- 算力「摩尔定律」与 Scaling Law 的交织。
-
教学形式:
- 用交互式图表展示「增加批大小 vs 增加 GPU 数量」的不同代价。
-
预告:Scaling Law 的未来走向,可能与 AGI 的出现相关。
第五课 · 未来展望——Scaling Law 与通用智能
-
主要问题:
- Scaling Law 只是经验规律,还是更深层物理法则?
- 批大小、学习率之外,还有哪些隐藏变量?
- 当数据与算力无限增长时,Scaling Law 的终点是什么?
-
哲学讨论:
- 「大就是好」是否是通向 AGI 的唯一道路?
- Scaling Law 会不会崩溃?
-
展示:
- 科研前沿中的最新 Scaling Law 变种(如训练时长 vs 性能的对数规律)。
-
结尾:
- 总结整个系列的学习路径。
- 给读者留一个开放性问题:「如果算力无限,你会如何设计训练策略?」
更多推荐
所有评论(0)