深度学习训练缩放法则系列

预告：从理论到实践，Scaling Law 并非只存在于数学推导，还能在大模型训练中被观测。预告：Scaling Law 的未来走向，可能与 AGI 的出现相关。预告：SGD 的规律很优美，但 Adam 等优化器要复杂得多。预告：不仅是数学与经验，背后还有算力、能耗与经济问题。

路人与大师

602人浏览 · 2025-09-22 15:43:50

路人与大师 · 2025-09-22 15:43:50 发布

课程总目录

第一课：学习率与批大小的 Scaling Law（基础篇）
第二课：Adam 等自适应优化器的缩放难题
第三课：大模型训练的实践 Scaling Law（经验与陷阱）
第四课：训练效率与能耗的极限（算力经济学）
第五课：未来展望——Scaling Law 与通用智能

第一课 · 学习率与批大小的 Scaling Law（基础篇）

主要内容：
- 梯度下降的几何直观（下山类比）。
- 批大小与学习率的数学关系。
- SGD 的最优学习率推导。
- 「效率边界」的双曲线法则。
核心公式：

$\eta^*_{\text{SGD}} \approx \frac{\eta_{\max}}{1 + B_{\text{noise}}/B}$
预告：SGD 的规律很优美，但 Adam 等优化器要复杂得多。

第二课 · Adam 等自适应优化器的缩放难题

主要问题：
- 为什么 Adam 不再符合第一课的公式？
- 动量项 $m_t$ 与方差项 $v_t$ 引入的非线性如何打破解析？
- 现有研究中的近似分析（高斯假设、独立性假设）。
数学难点：

$\tilde{\phi}_B \propto \frac{m_t}{\sqrt{v_t} + \epsilon}$

期望计算

$\mathbb{E}[\tilde{\phi}_B] \neq \frac{\mathbb{E}[m_t]}{\sqrt{\mathbb{E}[v_t]}}$
可能的教学重点：
- 画出「SGD 是康庄大道 vs Adam 是荆棘小径」的流程图。
- 展示数值实验：大批量训练时 Adam 为什么仍然稳定？
预告：从理论到实践，Scaling Law 并非只存在于数学推导，还能在大模型训练中被观测。

第三课 · 大模型训练的实践 Scaling Law（经验与陷阱）

主要问题：
- 实际训练中，Scaling Law 如何指导批大小与学习率设置？
- 「线性学习率缩放法则」：当 $B$ 增加 $k$ 倍时，$\eta$ 也增大 $k$ 倍。
- 「平方根缩放法则」：另一种常见经验。
案例：
- GPT-3、PaLM、LLaMA 等大模型训练报告中的超参数策略。
- 为什么在 trillion-token 规模下，Scaling Law 更加显著？
教学形式：
- 做对比图：理论公式 vs 实际经验。
- 加入「失败案例」：盲目增大学习率时的发散现象。
预告：不仅是数学与经验，背后还有算力、能耗与经济问题。

第四课 · 训练效率与能耗的极限（算力经济学）

主要问题：
- 训练一个大模型到底要多少算力、多少电？
- 「效率边界」如何转化为 算力-数据-能耗三者关系？
- 硅谷和科研机构是如何在硬件层面优化的？
公式：

$\times S, \quad \Big(\frac{S}{S_{\min}} - 1\Big)\Big(\frac{E}{E_{\min}} - 1\Big) = 1$
扩展话题：
- 训练中的碳排放计算。
- 算力「摩尔定律」与 Scaling Law 的交织。
教学形式：
- 用交互式图表展示「增加批大小 vs 增加 GPU 数量」的不同代价。
预告：Scaling Law 的未来走向，可能与 AGI 的出现相关。

第五课 · 未来展望——Scaling Law 与通用智能

主要问题：
- Scaling Law 只是经验规律，还是更深层物理法则？
- 批大小、学习率之外，还有哪些隐藏变量？
- 当数据与算力无限增长时，Scaling Law 的终点是什么？
哲学讨论：
- 「大就是好」是否是通向 AGI 的唯一道路？
- Scaling Law 会不会崩溃？
展示：
- 科研前沿中的最新 Scaling Law 变种（如训练时长 vs 性能的对数规律）。
结尾：
- 总结整个系列的学习路径。
- 给读者留一个开放性问题：「如果算力无限，你会如何设计训练策略？」

九章云极普惠算力

更多推荐

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!

九章云极普惠算力

Zero邮件备份恢复：数据丢失预防与恢复的完整方案

在数字化时代，邮件数据安全已成为企业和个人用户面临的重要挑战。Zero开源邮件应用提供了一套完整的邮件备份恢复方案，通过智能数据保护机制确保您的邮件信息安全无忧。无论您是担心误删重要邮件、系统故障导致数据丢失，还是需要长期归档关键通信记录，Zero的备份恢复功能都能为您提供可靠保障。## 🔒 数据丢失预防：多重保护机制Zero邮件应用内置了**乐观更新机制**，在用户执行操作时立即提供视

九章云极普惠算力

突破推理瓶颈：vLLM多模态时空决策系统重构智慧城市规划流程的完整指南

在当今智慧城市建设的浪潮中，vLLM多模态时空决策系统正以其卓越的高吞吐量和内存效率，彻底重构传统城市规划流程。作为专门为大型语言模型设计的推理和服务引擎，vLLM通过创新的架构设计，解决了传统AI系统在处理复杂时空数据时的性能瓶颈，为城市规划者提供了前所未有的决策支持能力。## 🚀 vLLM多模态时空决策系统的核心优势vLLM多模态时空决策系统采用了分层架构设计，从模型引擎到分布式计算