课程总目录

  • 第一课:学习率与批大小的 Scaling Law(基础篇)
  • 第二课:Adam 等自适应优化器的缩放难题
  • 第三课:大模型训练的实践 Scaling Law(经验与陷阱)
  • 第四课:训练效率与能耗的极限(算力经济学)
  • 第五课:未来展望——Scaling Law 与通用智能

第一课 · 学习率与批大小的 Scaling Law(基础篇)

  • 主要内容:

    • 梯度下降的几何直观(下山类比)。
    • 批大小与学习率的数学关系。
    • SGD 的最优学习率推导。
    • 「效率边界」的双曲线法则。
  • 核心公式:

    ηSGD∗≈ηmax⁡1+Bnoise/B \eta^*_{\text{SGD}} \approx \frac{\eta_{\max}}{1 + B_{\text{noise}}/B} ηSGD1+Bnoise/Bηmax

  • 预告:SGD 的规律很优美,但 Adam 等优化器要复杂得多。


第二课 · Adam 等自适应优化器的缩放难题

  • 主要问题:

    • 为什么 Adam 不再符合第一课的公式?
    • 动量项 $m_t$ 与方差项 $v_t$ 引入的非线性如何打破解析?
    • 现有研究中的近似分析(高斯假设、独立性假设)。
  • 数学难点:

    ϕ~B∝mtvt+ϵ \tilde{\phi}_B \propto \frac{m_t}{\sqrt{v_t} + \epsilon} ϕ~Bvt +ϵmt

    期望计算

    E[ϕ~B]≠E[mt]E[vt] \mathbb{E}[\tilde{\phi}_B] \neq \frac{\mathbb{E}[m_t]}{\sqrt{\mathbb{E}[v_t]}} E[ϕ~B]=E[vt] E[mt]

  • 可能的教学重点:

    • 画出「SGD 是康庄大道 vs Adam 是荆棘小径」的流程图。
    • 展示数值实验:大批量训练时 Adam 为什么仍然稳定?
  • 预告:从理论到实践,Scaling Law 并非只存在于数学推导,还能在大模型训练中被观测。


第三课 · 大模型训练的实践 Scaling Law(经验与陷阱)

  • 主要问题:

    • 实际训练中,Scaling Law 如何指导批大小与学习率设置?
    • 「线性学习率缩放法则」:当 $B$ 增加 $k$ 倍时,$\eta$ 也增大 $k$ 倍。
    • 「平方根缩放法则」:另一种常见经验。
  • 案例:

    • GPT-3、PaLM、LLaMA 等大模型训练报告中的超参数策略。
    • 为什么在 trillion-token 规模下,Scaling Law 更加显著?
  • 教学形式:

    • 做对比图:理论公式 vs 实际经验。
    • 加入「失败案例」:盲目增大学习率时的发散现象。
  • 预告:不仅是数学与经验,背后还有算力、能耗与经济问题。


第四课 · 训练效率与能耗的极限(算力经济学)

  • 主要问题:

    • 训练一个大模型到底要多少算力、多少电?
    • 「效率边界」如何转化为 算力-数据-能耗三者关系
    • 硅谷和科研机构是如何在硬件层面优化的?
  • 公式:

    E=B×S,(SSmin⁡−1)(EEmin⁡−1)=1 E = B \times S, \quad \Big(\frac{S}{S_{\min}} - 1\Big)\Big(\frac{E}{E_{\min}} - 1\Big) = 1 E=B×S,(SminS1)(EminE1)=1

  • 扩展话题:

    • 训练中的碳排放计算。
    • 算力「摩尔定律」与 Scaling Law 的交织。
  • 教学形式:

    • 用交互式图表展示「增加批大小 vs 增加 GPU 数量」的不同代价。
  • 预告:Scaling Law 的未来走向,可能与 AGI 的出现相关。


第五课 · 未来展望——Scaling Law 与通用智能

  • 主要问题:

    • Scaling Law 只是经验规律,还是更深层物理法则?
    • 批大小、学习率之外,还有哪些隐藏变量?
    • 当数据与算力无限增长时,Scaling Law 的终点是什么?
  • 哲学讨论:

    • 「大就是好」是否是通向 AGI 的唯一道路?
    • Scaling Law 会不会崩溃?
  • 展示:

    • 科研前沿中的最新 Scaling Law 变种(如训练时长 vs 性能的对数规律)。
  • 结尾:

    • 总结整个系列的学习路径。
    • 给读者留一个开放性问题:「如果算力无限,你会如何设计训练策略?」

更多推荐