【万字长文】强化学习怎么学？从巴甫洛夫的狗到贝叶斯大脑，理解RL的前世今生！

2025年，"智能体"（Agent）概念大热，但真正意义上的智能体在强化学习领域已发展三十余年。本文系统梳理强化学习的发展历程，将其划分为十个认知层级：基础反射层（巴甫洛夫条件反射与Hebb学习法则）试错学习层（桑代克的猫与斯金纳箱实验）认知地图层（托尔曼的潜在学习理论）策略优化层（REINFORCE算法）时序差分层（TD学习与Bootstrapping）价值函数层

m0_63171455

1212人浏览 · 2025-07-31 10:09:06

m0_63171455 · 2025-07-31 10:09:06 发布

2025 年，“智能体”（Agent）概念大热，几乎每家公司都在宣称自己在做“智能体”，许多大语言模型（LLM）也被 Prompt 包装成所谓的“智能体”，几乎所有的助理类功能都“泛化”成智能体了。

然而，真正意义上的Agent，早在强化学习（Reinforcement Learning）领域中，已存在了三十余年，扎根于严谨的理论体系。从条件反射到类脑智能，从神经连接的强化到LLM，人类对“学习”的理解早已超越了简单的奖惩机制，并取得了耀眼的成果——从击败李世石的 AlphaGo，到拿下奥赛金牌的 AlphaEvolve。

强化学习，作为连接神经科学与人工智能的桥梁，正沿着这条认知之路不断推进，成为通往通用人工智能（AGI）的关键路径之一。本文旨在梳理RL的前世今生，让您一文理解RL的核心概念和它们之间的关系及发展脉络。

AlphaEvolve解决了56年悬而未决的问题，将某矩阵乘法问题（Strassen’s）的次数从49次减少到48次，这意味大量的能源将被节约https://devproai.com.au/2025/05/17/crikey-googles-new-ai-just-solved-a-56-year-old-problem-what-alphaevolve-means-for-your-business-and-humanity/

导语：为什么要谈“RL的十层境界”？

今天的人工智能，早已不是当年只能执行规则的自动机。它拥有了“感知”、“计划”、“探索”、“协作”甚至“推理”的能力——这些能力背后，都指向同一个核心问题：

智能体（Agent）如何通过与环境的交互，不断学习并优化自己的行为策略？

这正是强化学习（Reinforcement Learning, RL）所关注的核心命题。但 RL 并非凭空诞生，它的思想根基深植于行为心理学、神经科学与控制论的沃土之中：从巴甫洛夫的狗与 Hebb 的突触可塑性法则，到桑代克的猫、斯金纳箱中的老鼠等行为主义实验，再到当代的多智能体系统（Multi-Agent RL, MARL）与大语言模型（LLMs）。强化学习，是这条从生物智能延伸至人工智能的进化主线上的算法结晶。

进入 21 世纪，RL 从早期的单体智能体决策模型，拓展到多智能体交互与博弈，并正迈向以语言驱动策略生成、认知对齐的新范式。它一方面试图摆脱对大规模监督数据的依赖，转向经验驱动的学习（Sutton），另一方面结合世界模型的构建（LeCun），朝向更具因果性与抽象性的智能体发展。强化学习，正逐步成为连接神经科学原理与现代 AI 决策系统的桥梁。

强化学习的方法通常分为两大“门派”：基于价值的方法（Value-based）与基于策略的方法（Policy-based）。经典教材通常从值函数、贝尔曼方程等数学推导起步，这虽然严谨且按历史轨迹，但离当下的前沿实践仍有距离，复杂的数学公式也容易劝退不少读者。

因此，本文尝试走一条不一样的路径。你将看到两点特别之处：

1. 从历史与概念的双重视角，为你讲述“强化学习的十重境界”。每一层，都是一次认知的飞跃。你可以选择任何一层暂做停留，也可一路探索直至终点。
2. 先讲策略方法（Policy-based），再讲价值方法（Value-based）。我们将从现代强化学习实践中更常用、更实用、更新颖的策略方法讲起，随后再回溯价值方法的基础原理。这就像线性代数教材中将“行列式”一章安排在后面——帮助你先掌握“可操作的技能”，再理解其数学根基。通过对 RL 入门内容的重新排序，我们希望让已有机器学习基础（假设你了解梯度下降和大一微积分）的你，阅读体验更加自然顺畅。

第一部分：行为心理学的引子

第1层：巴甫洛夫的狗 + Hebb 学习法则 —— 环境信号与神经连接（爬行脑）

1.1 从铃声到流口水：条件反射

如果要追溯人类对“学习”这个行为的最早科学理解，伊万·巴甫洛夫（Ivan Pavlov)的狗无疑是一个起点。在19世纪末到20世纪初，巴甫洛夫的实验揭示了一个惊人的现象：狗在听到铃声后，即使没有看到食物，也会开始分泌唾液。起初，狗只会对食物产生唾液反应（这是一种天然的无条件反射），但当铃声与食物反复配对后，铃声本身就成为了触发唾液分泌的“信号”。这种新形成的刺激—反应关联，被称为条件反射（Conditioned Reflex）。

在这个层面，智能体的学习表现为对环境中某些信号的响应习得，是一种典型的被动学习机制。

https://sites.psu.edu/siowfa16/2016/12/02/classical-conditioning/

1.2 Hebbian 法则：神经元之间的“联络加强”

1949年，加拿大心理学家Donald Hebb在其著作《行为的组织》中提出了一个生理学假设：

“Neurons that fire together, wire together.”
—— 同时激活的神经元，其连接将被加强。

这个后来被称为Hebbian 学习法则的理论，描述了一种基于时间关联的突触可塑性。简单说，如果在一段时间里神经元A经常激活神经元B，那么它们之间的突触连接会变得更强，从而在未来更容易一起激活。Hebb 理论的核心在于：“学习=连接权重的变化”。

这不仅为巴甫洛夫的行为实验提供了神经层面的解释，也成为后来的神经网络、感知机（Perceptron）和突触权重更新机制的生物启发源泉。这可以说是今天如火如荼的深度学习的起源。

1.3 在强化学习中的对应

虽然强化学习（RL）最常与奖励、策略、值函数等数学概念相关联，但它的深层根基，正是来源于上述两种早期认知机制：

• 巴甫洛夫的狗启示我们，环境中的状态可以预测未来的奖励；
• Hebbian 学习启示我们，大脑或网络可以通过“经验”改变内部参数以适应这种预测。

在 RL 框架中：

• 状态（如铃声）被编码为输入；
• 奖励（如食物）是目标信号；
• 模型会通过某种形式的权重更新（Hebb 或反向传播）来调整状态与奖励之间的映射。

即便是在现代深度强化学习中，这一思想依然保留。例如，在深度强化学习DQN 中，神经网络通过梯度下降来更新参数，本质上也是 Hebbian 学习的计算机实现。

1.4 小结

这一阶段的智能体具备的能力非常有限：

• 感知输入：能识别环境中的简单信号
• 奖励关联：状态与奖励之间的被动关联学习，建立状态与奖励的静态联系
• 这一阶段智能体不需要决策，仅仅通过环境信号塑造行为反应，神经元连接强度会改变（权重更新）
• 是后续策略学习中价值函数构建的神经基础
• 但智能体没有主动选择的能力，也尚未形成主动行为策略。

https://www.structural-learning.com/post/ivan-pavlovs-theory

第2层：桑代克的猫与斯金纳的老鼠 —— 主动行为与试错探索（哺乳脑）

https://terriermandotcom.blogspot.com/2012/05/thorndikes-cat-box.html

2.1 桑代克的猫：尝试—错误机制（Trial and Error）

20世纪初，美国心理学家爱德华·桑代克（Edward Thorndike）提出了“效果律（Law of Effect）”，他通过一系列著名的“猫逃出迷箱（Puzzle Box）”实验发现：猫在被关进一个装置中时，会不断地抓挠、乱动，直到偶然触碰开关而成功逃脱。多次重复之后，猫逃脱所需的时间明显缩短，并越来越快速地做出“正确动作”。

这表明：

行为不是一次性学会的，而是在反复尝试错误的过程中，通过正向结果“筛选”出来的。

这种“Trial and Error（尝试-错误）”学习机制，强调行为与后果之间的因果联系，是强化学习中最早出现的主动行为调整模式。智能体不再只是被动响应，而是开始基于结果优化自己的行为。

2.2 斯金纳的老鼠：行为塑造与强化机制

到了20世纪中叶，B.F. 斯金纳（B.F. Skinner）在“操作性条件作用（Operant Conditioning）”理论中，进一步发展了行为主义。他设计了著名的“斯金纳箱（Skinner Box）”：一个封闭的实验装置，老鼠被放置其中，环境中设置了一个可按压的杠杆，按下后会触发食物投放器。

最初，老鼠在箱中四处探索，偶然碰到杠杆得到食物奖励。经过多次试验后，它便会主动、有目的地按压杠杆以获取奖励，这揭示了“行为的后果会影响未来的行为概率”这一核心规律，也就是强化学习中“行动—奖励”的基本逻辑单元。

2.2.1 行为塑造（Shaping）：让目标行为“逐步浮现”

真正体现斯金纳理论深度的，是他提出的“行为塑造（Shaping）”策略。这个概念强调，复杂行为不应期待一次性学会，而应通过阶段性地强化逐步接近目标的行为，让智能体沿着正确轨迹“攀升”。

在实验中，这一过程通常如下：

• 第一阶段：老鼠只要靠近杠杆，就给予食物奖励；
• 第二阶段：老鼠必须抬起前肢靠近杠杆，才能得到奖励；
• 第三阶段：只有当老鼠真正按下杠杆，才给予奖励。

通过逐步强化更接近目标行为的动作，让智能体朝目标逐渐靠近。这种逐步引导式的策略，与今天深度强化学习中的稀疏奖励（Sparse Reward）设计和探索—利用权衡（Exploration vs Exploitation）思想不谋而合。这种分层奖励机制，使得智能体在稀疏或难以探索的任务中也能逐渐学习复杂行为。这一思想后来被广泛应用于Reward Shaping、Curriculum Learning（课程式学习），以及分层强化学习（Hierarchical RL）等现代方法中。

https://commercebizhub.com/learning-theories-in-organizational-behavior/

2.2.2 负强化（Negative Reward）：抑制不期望的行为

斯金纳箱中还有另一个常见设置：双按钮机制。一个按钮带来奖励，另一个按钮触发电击、蜂鸣等不良刺激。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这样的实验中，老鼠逐渐学会避开负面刺激源，这种基于“惩罚”信号的学习过程被称为负强化（Negative Reinforcement），或更广义上的惩罚学习（Punishment Learning）。它不仅用于强化正确行为，也用于抑制错误策略，体现了“奖励最大化 + 惩罚最小化”的联合目标。

2.3 在强化学习中的对应

这一层级的智能体学习方式，已从被动响应转向主动试错。其在强化学习中的映射：

• 试错Trial & Error：Agent（老鼠/鸽子）会探索环境，尝试不同动作（Action），并根据回报调整行为策略；
• 操作性条件作用（Operant Conditioning）[1]：对应现代 RL 中的“策略学习“（Policy Learning）思想，即通过试探行为与奖励之间的关系，优化行为概率分布；
• Shaping：通过设计阶段性奖励或分层任务，逐步引导学习过程，避免陷入稀疏奖励困境。

经典的 REINFORCE 算法就源自于这一思想：智能体尝试多种行为，根据行为带来的回报大小，提升带来好回报的动作概率。

2.4 小结

这一阶段的智能体，从被动反应者变成主动行为者，从“刺激—反应”走向“行为—结果“，已具有探索行为与行为后果评估的能力, 使智能体首次具备了“主动探索—结果反馈—行为更新”的基本闭环，为强化学习提供了“试错+反馈”这一最基本学习机制。在巴普洛夫的狗的环境感知、奖励关联的基础上，开始输出行为，并会根据奖励结果强化某些行为（行为概率调整），实现的策略优化，具有初步的决策能力，但尚不具备精确策略建模能力。

本层代表了智能体从“被动反射”迈向“主动行为”的关键一步，标志着从神经反应走向决策策略的过渡。

第3层：托尔曼的迷宫老鼠与认知地图 —— 探索行为与内在表征的萌芽（大脑皮层）

在前两个境界中，智能体仍然是一个典型的“反应者”——它的行为完全依赖于当下的刺激和奖励，没有对未来的预期，也没有对世界结构的理解。然而，到了第三境界，一位名叫爱德华·托尔曼（Edward Tolman 1886-1959）的美国心理学家，让世界第一次见识到了“智能体可以为将来而学习”。

托尔曼迷宫老鼠 https://pressbooks.online.ucf.edu/lumenpsychology/chapter/reading-cognition-and-latent-learning/

3.1 背离行为主义的“异类实验”

在20世纪40年代，当斯金纳的“操作性条件作用”理论大行其道之时，托尔曼却提出了一个极具颠覆性的观点：动物不是被动地对刺激作出反应，而是会主动形成对环境的“认知地图”。托尔曼的经典实验如下，他让三组老鼠分别在迷宫中进行任务：

• 第一组：每次走到终点就获得食物奖励；
• 第二组：从不提供奖励；
• 第三组：最初没有奖励，但在第11天开始提供奖励。

实验结果显示：第三组老鼠在第11天开始获得奖励后，几乎瞬间就达到了第一组的表现水平，甚至更快。这表明：老鼠在前10天虽然没有外部奖励，但它们并非“什么也没学到”——而是在无奖励条件下主动探索并构建了环境的内部表示，一旦有了动机（奖励），便迅速发挥出来。

3.2 从“Trial & Error”到“Latent Learning”

这项实验挑战了传统行为主义的两个核心假设：

• 1）学习必须有奖励驱动；
• 2）学习是通过“尝试—错误”逐步积累的。

托尔曼的研究表明：动物可以在没有奖励的情况下进行“潜在学习”（Latent Learning），并在之后的适当时机中将其释放。这种能力的存在，预示着智能体不再只是条件反射的集合，而是具备了一种更复杂的内在建模机制。这就是后人所称的认知地图（Cognitive Map）——对空间结构和环境状态之间关系的内部建模。

3.3 在现代强化学习中的体现

托尔曼的观点，在今天的强化学习系统中找到了多个重要对应：

• 模型建构（Model-Based RL）：智能体不再只依赖“值函数”或“策略网络”来决定行动，而是显式学习环境状态转移和奖励模型，即“如果我这么做，会发生什么”，用数学公式表达就是两个概率分布：1）状态转移模型：，表示在当前状态下采取动作后转移到下一个状态的概率；2）奖励模型：，表示在状态下采取动作后获得奖励的概率。
• 探索行为（Intrinsic Motivation）：鼓励智能体在没有外部奖励的情况下主动探索，比如通过奖励“信息增益”、“预测误差”或“访问新颖状态”等内部激励机制产生探索行为。最近一年RL领域出现了不少这个方向的文章。
• 表征学习（Representation Learning）：通过神经网络自动提取状态的低维嵌入表示，这可以被视为深度强化学习中的“认知地图压缩版本”。
• Zero-Shot / Few-Shot 迁移学习：一旦构建了认知地图，智能体就可以在新的任务或目标位置变化时迅速适应（类似迷宫终点变动后的重新路径选择）。

3.4 从“反应者”到“建模者”的飞跃

在前两个境界中，智能体仍然是一个典型的“反应者”——它的行为完全依赖于当下的刺激和奖励，没有对未来的预期，也没有对世界结构的理解。然而，托尔曼的迷宫老鼠揭示了一个惊人的转折：智能体可以在没有奖励的情况下，自主探索环境，构建内在的“认知地图”，并在未来使用这些地图做出更高效的决策。

这种能力，标志着智能体从“刺激—反应”的生存机制，跃迁到了“建模—规划”的认知机制。智能，不再是被动地回应过去经验，而是主动地预演未来可能的情境。托尔曼的实验，为今天的“世界模型”（World Model）思想提供了最早的生物学雏形。这一思想如今被 Yann LeCun 等人视为迈向通用人工智能（AGI）的核心路径之一，也日益成为神经网络与强化学习研究的关键方向，可能也是通往AGI之路上的一块重要基石。

3.5 从认知地图到控制论：反馈与目标导向行为

托尔曼提出“认知地图”的理念，打破了行为主义将动物视为“刺激-反应”机器的传统，指出它们具备建立内部世界模型的能力。这一观念也为后来的强化学习打下了基础——智能体不再仅靠外部奖惩塑造行为，而是可以预判环境变化、规划未来路径。这与20世纪40年代兴起的控制论（Cybernetics）思想不谋而合。控制论由诺伯特·维纳（Norbert Wiener）提出，强调通过反馈机制实现系统的自我调节与目标控制。在一个典型的控制系统中（如恒温器、导弹制导），系统会感知自身状态与目标之间的偏差，通过调整行为不断接近目标，从而实现稳定控制。

https://www.mathworks.com/help/reinforcement-learning/ug/reinforcement-learning-for-control-systems-applications.html

这一理念正好映射到强化学习智能体中：

• 当前状态对应系统观测；
• 策略对应控制器的调节机制；
• 价值函数或奖励是衡量偏差的目标信号；
• 行为 A的改变就是反馈控制的动作输出。

在这个意义上，我们可以把现代强化学习看作是控制论在人工智能领域的延伸：从动物行为的实验室走向具备目标导向、自我调整能力的智能体系统，而认知地图、世界模型、Model-Based RL 正是这条路径上的里程碑。

“控制的本质，是对未来的预测。” —— 诺伯特·维纳

强化学习与控制论，虽然诞生于不同学科，但殊途同归，都在试图回答同一个问题：如何让系统自主地行动，以实现长期目标。

P.S. 控制论是AI诞生的重要来源之一。

3.6 小结

至此，行为心理学的探索暂告一段落。我们从巴甫洛夫的狗，到斯金纳的老鼠，再到托尔曼的迷宫，逐步见证了“学习”从被动反应到主动探索、再到建模预演的认知跃迁。它们不仅为强化学习打下了深刻的生物与心理学基础，也揭示了智能体从低级刺激反应到高级规划推理的进化轨迹。

接下来，我们将正式进入“强化学习”的技术世界。但别担心，这不是一本公式堆砌的教科书，我们不走寻常路。我们的目标，是把这些复杂的技术思想，讲得尽量好懂、好用，特别是为新手读者提供一条“认知友好”的学习路径，把你一步步引向现代强化学习的核心地带，甚至触碰 AGI 的边界。

请系好安全带，准备进入第二部分--RL基石篇章。

我们将从第四境界启程：从直觉到策略，从试错（Trial & Error）到策略梯度（Policy Gradient）。与绝大多数教材先讲价值再讲策略的经典书籍不同，这里我们选择直击核心目标：如何直接优化策略本身，以最大化未来回报。

https://kitrum.com/blog/reinforcement-learning-for-business-real-life-examples/

第二部分：强化学习基石

第4层：基于策略的RL —— 从“试错”到“期望提升”

在前三个境界中，智能体的行为逐步进化：从条件反射式的被动响应（巴甫洛夫），到行为被奖励塑造（斯金纳），再到主动探索环境、形成认知地图（托尔曼）。但这一切，仍然是经验驱动下的“试错学习”。智能体或许知道“什么行为有效”，却并不理解如何系统地优化自己的行为策略。

而从本境界开始，真正的强化学习算法首次登场 —— 一次意义深远的范式飞跃就此发生。我们为智能体引入了可微分的目标函数（Objective Function），它就像一枚内在的指南针，指引行为的优化方向。策略不再依赖盲目的试错，而是通过梯度上升，沿着最大化长期期望奖励的方向不断前进。这一机制，正是基于策略的方法（Policy-based Methods）的核心思想：从“凭经验尝试”走向“按目标优化”，从心理学启发走入数学可导的算法世界。

4.0 问题设定与与符号约定

强化学习（RL）描述的是一个智能体（agent）在环境（environment）中通过与环境交互以最大化长期奖励的问题。该问题通常被建模为一个马尔可夫决策过程（Markov Decision Process, MDP），用一个五元组表示：，其中：

• ：状态空间（State space），每个时刻的环境状态记为；
• ：动作空间（Action space），智能体在状态下可选的动作为；
• ：状态转移概率（Transition function），表示在执行动作后从状态转移到下一个状态的概率；
• ：奖励函数（Reward function），表示在状态下执行动作所获得的即时奖励；
• ：折扣因子（Discount factor），表示未来奖励的衰减程度，越接近 1 越重视长期回报。

策略与回报

• 策略：智能体的行为策略记作，表示在状态下采取动作的概率。对于确定性策略，也可以写作。
• Return：从某一时刻起始的总奖励，记作：它是智能体在某个轨迹上，未来获得奖励的总和(考虑折扣)。

4.1 策略是什么？

所谓策略（Policy），就是智能体在每一个状态下采取某个动作的“倾向性”或“分布”，通常记作：，这可以是一个确定性策略（Deterministic Policy），也可以是一个带温度（Softmax）的随机策略（Stochastic Policy）。在这一境界，智能体的目标不再是被动建模或形成价值判断，而是直接对行为策略本身进行优化，使其在与环境互动中能获得更高的长期奖励。

https://gibberblot.github.io/rl-notes/single-agent/MDPs.html

4.2 从试错到“期望提升”

相比早期的“盲目试错”，这里的学习过程更像是“通过反复交互，试图让未来更好”。我们定义一个目标函数：

其中是策略的参数，是折扣因子，是在时刻的reward。该目标函数就是我们希望最大化的期望累积奖励（Expected Return）。也可以加个负号，将最大化Return转变了最小化损失，就可以采用熟悉的梯度下降方法来解了。目前我们还求（总回报）最大值，仍需采用梯度上升。

智能体不再只通过“看看哪里有奖励”来调整行为，而是系统性地优化这个函数，使得策略参数逐渐趋向让行为更优。这就是从“经验主义试错”进化到“梯度驱动优化”的跃迁。

引入策略函数：智能体首次拥有了“行为蓝图”

在前两个境界，智能体主要通过试错（Trial and Error）来学习——行为成功就加强连接或重复尝试，失败就避免。这虽然朴素有效，但缺乏一种明确的、可以系统优化的“行为表达形式”。

4.3 策略梯度（Policy Gradient）：策略优化的利剑

Policy Gradient 方法是基于策略优化的核心技术。它通过采样状态—动作轨迹，并根据奖励反馈来估计目标函数对策略参数的梯度：

这一估计方法本质上使用了下面要介绍的 Monte Carlo 技术：通过采样轨迹来近似目标函数的数学期望，类似于用样本均值来估计总体均值，因为前者是后者的无偏估计。如希望了解具体公式推导，请见：

https://zhuanlan.zhihu.com/p/274906314

这个看似简单的公式背后，是一个划时代的思想：我们可以通过“梯度上升”来改进智能体的行为倾向，使得它更有可能做出有利决策。这种方法最大的优势是无需显式建模环境，即使面对不可微分、不可逆或未知的环境动态，仍然可以进行策略改进。也不用计算各个状态和动作的价值，就好像没有地图，也不耽误我们爬山。

4.4 REINFORCE：策略梯度开山之作

1992 年，美国东北大学教授Ronald J. Williams (1945-2024) 提出了著名的 REINFORCE 算法，它标志着策略优化的正式诞生，他也是反向传播的共同作者。这是第一种实现“策略梯度”（Policy Gradient）思想的强化学习方法，其核心思想非常直白却极具启发性：

直观来说，这个公式的含义是：

如果某个行为最终带来了高累积回报，那么就提高采取这个行为的概率。在这个过程中，回报起到了一个权重的作用。它衡量了行为“值得被强化”的程度，也正体现了“强化学习”一词的本质——强化好的行为，弱化坏的行为。

这像不像现实生活中“表现好就多奖励”的原则？

REINFORCE 正是将这种“经验塑造”转化为了可微分的目标函数，使得智能体可以直接对策略进行梯度更新，开启了强化学习的“可优化时代”。REINFORCE 支持两种策略表示方式：：

• 表格形式（Tabular）：适用于状态和动作离散可枚举的简单环境；
• 参数化形式（Parametric）：如通过神经网络建模策略，输入状态，输出动作概率分布。

本境界实现了从基于结果调整行为的“经验反馈”，跃迁到通过策略函数事前预期的“行为倾向建模”。不同于以往依赖环境回报反复修正行为的方式，基于策略的 Agent 可以在没有显式状态值评估机制的前提下，直接学习“哪种行为在长期更可能带来奖励”。

这也意味着，我们终于可以摆脱那些“繁琐又间接”的基于价值的方法，不再死守 Bellman 方程，不必反复估计状态值或动作值，“单刀直入”，直奔核心目标：优化行为策略本身。毕竟，智能体的关键任务，不是先画好一张地图，而是尽快学会在复杂地形中活下来。

你可以把 Agent 想象成一位被空投到敌后、手上只有一把武器的特种兵——在没有现成地图的情况下，他仍然必须迅速判断方向，占领高地，达成目标。这时再回头绘制环境模型，“远水救不了近火”。

https://pylessons.com/Beyond-DQN

从心理学视角：这一阶段的智能体已经具备了“习得性、目标导向行为”的能力，不再只是应激反应，而是有内在行为偏好的决策者；

从机器学习角度：这是强化学习首次引入了梯度驱动的优化机制，也是向现代深度学习体系靠拢的起点。

4.5 减少方差的智慧：Baseline 技术的引入

尽管 REINFORCE 提供了一个简单直接的策略优化路径，但它也存在一个严重的问题：方差太大，学习不稳定。在 REINFORCE 中，轨迹的总回报 R 被用于“奖励”或“惩罚”某个行为的 log-probability。但回报 R 本身波动极大，可能受到随机事件的剧烈影响，从而导致策略更新方向剧烈摆动。你可以想象：同样的行为，有时因为运气好得分高、有时因为环境变化得分低，这种“情绪化”的反馈显然不利于稳定学习。

为此，Baseline 技术应运而生。它的核心思想很简单——减去一个“基线”值，使得更新方向只取决于“当前行为是否优于平均水平”。我们将策略梯度更新公式从：

变为：

其中就是 baseline，最常见的选择是：该状态下的平均回报，也就是下一境界要介绍值函数。此时被称为优势函数（Advantage Function），代表了“当前动作比平均水平到底好多少？”。引入 baseline 带来了两大好处：

• 减小方差：将策略更新集中在“真正优于平均水平”的行为上，提升学习稳定性。
• 保持无偏性：虽然减去了 baseline，但不会引入系统性偏差（因为 baseline 与行为无关，不影响期望）。

https://velog.io/@mmodestaa/HuggingFace-Deep-RL-Course-8.-Proximal-Policy-Optimization-PPO

正是这个小trick，使策略梯度方法从“概念验证PoC”走向了“可实用系统”的关键一步。如今，几乎所有主流策略梯度算法（包括 A2C、PPO、TRPO 等）都引入了 baseline。

4.6 小结

在前三个境界中，智能体的行为仍停留在基于经验的被动反应与探索层面：它“知道什么有效”，但并不“知道如何改进”。而第四境界带来了范式的跃迁——智能体首次拥有了可微分的目标函数，可以通过梯度优化系统性地提升策略。REINFORCE 算法揭开了策略梯度方法的序幕，让智能体从“反复试错”进化为“有方向地自我改进”。从此，学习不再只是结果的积累，更是学习过程本身的优化。

下一境界，我们将迎来值函数的登场，走进强化学习的另一核心思想——时序差分学习（TD Learning）。

第5层：TD 学习与 Bootstrapping —— 时间差分的悄然革命

在上一境界（第四层），我们初步实现了从试错到策略优化的跃迁。策略梯度方法如 REINFORCE，确实开启了用梯度优化策略的新时代，但它有一个显著的缺点：它必须等到整条轨迹结束之后，才能计算累积回报，进而更新策略。然而，现实世界中的回报往往是延迟的，智能体希望能在回合（episode）尚未结束时就尽早修正自己的行为倾向。甚至更理想的情况是：每一步都能更新一次策略（或者值函数）。这种“边走边学”的愿望，正是时间差分学习（Temporal Difference Learning, TD）诞生的背景。

这就引出了一个类比：

• REINFORCE 的策略更新，就像 Batch Gradient Descent：只有在经历完整轨迹后，才更新一次。不同点是：不同点是：因为未来回报的不确定性叠加，导致方差大，梯度估计波动性强，收敛效率较低。
• 而 TD Learning（特别是 TD(0)）则更像是 Stochastic Gradient Descent (SGD)：每走一步，就更新一步，误差信号快速传播，效率更高。
• 更进一步，n-step TD 和 TD(λ) 则可以视作 Mini-batch Gradient Descent—— 在完整轨迹（Batch）与单步更新（SGD）之间，提供了一个可调节的折中方案，兼顾稳定性与响应速度。

正是由于 TD 学习能在不中断任务的前提下，逐步修正估计，它成为现代强化学习中最具工程实用性的基础技术之一，而且比策略梯度法更早被成功用于游戏智能体与机器人控制中。

于是，“及时学习”的需求催生了时间差分学习（Temporal Difference Learning, 简称 TD ——这是一场更贴近生命体认知节奏的革命。

5.1 未来的影子：从策略角度理解时间差分

REINFORCE 只能在轨迹终点总结“整场行动的得失”，再反向影响整条路径，缺乏沿途的“早期信号”。这就像一个士兵必须打完整场仗，回营后才能总结得失；而时间差分学习（TD Learning），则让他可以边打边学，每走一步都获得“即时反馈” —— 不再非得靠终点打分，而是让每一步都蕴含对未来的预期。TD 学习带来的思想转变是：

“我不需要知道全部未来，我只需知道：下一步的大致方向。”

其中表示状态的价值函数，作为 baseline 引入，用于降低策略梯度的方差而不引入偏差。基于此，Agent 不再依赖轨迹终点给出评价，而是在走的每一步中，就“感知下一步的未来”。

如果说 REINFORCE 是一种“经验反馈”（retrospective）—— 只能在整条轨迹结束后，回顾性地调整策略；那么 时间差分学习（TD Learning）则代表“预期引导”（prospective） —— 它利用对未来的估计，在当前就开始修正行为。这种方法 摆脱了对完整轨迹回报的依赖，转而使用未来价值的预测（Bootstrapping）来引导当前更新。由此带来两大优势：

• 更快的收敛速度，尤其是在训练初期；
• 更稳定的更新过程，显著减少方差；

这是一种真正意义上的“范式变革”：智能体从后验总结经验，进化为前瞻性地预估未来并调整行为，强化学习向更接近生命体认知节奏的方向迈进。

至于如何估计，涉及到Bellman方程，请参考下面链接，下面马上也会介绍。

https://zhuanlan.zhihu.com/p/1923267407058830526

5.2 每步一调：最简形式TD(0)

值函数的定义：值函数（Value Function）是强化学习中最核心的表征之一。它回答了一个关键问题：

“如果我从某个状态出发，遵循当前策略行动，未来预计能拿到多少回报？”

我们通常记作：

也就是说，值函数表示在当前策略下，从状态出发，未来所能获得的累计奖励的期望值。它并不依赖未来真实发生了什么——只要能预测预期的长期回报即可。这种对未来的“评估能力”就是强化学习中最关键的内部模型之一。

TD(0)是最简单的时间差分估计（TD Learning)，智能体在每一步都会更新其对当前状态的值函数估计，更新公式为：

误差

其中是学习系数。这背后的逻辑是：目标值不是完整的累计回报，而是当前奖励加上下一状态的估值，也就是上一节提到的的递归形式（贝尔曼方程有点嗯不住了，下个境界讲）；

误差项（TD Error）反映了“当前估计”和“从未来看回来”的差距；因为用的是自己的估计值，所以这类方法被称为 Bootstrapping（自举，是因为它们用自己的估计值来修正自身——就像“左脚踩右脚往上跳”，虽然听起来有点悖论，但在数学上却是完全可行的。它不依赖真实的完整回报，而是拿未来某个状态的估值当作当前目标的一部分，以此逐步逼近真实的长期回报。

https://aarl-ieee-nitk.github.io/reinforcement-learning,/value-based-learning,/bootstrapped-learning,/sampled-learning/2019/12/19/Temporal-Difference-Learning.html

如果说TD(0) ≈ SGD：每走一步更新一步，噪声大但更新快；REINFORCE ≈ Batch GD：全轨迹才更新一次，更新稳定但效率低；那有没有折衷如mini-batch GD的TD呢？

5.3 n-step TD：mini-batch梯度下降式的预期更新

在 TD(0) 中，智能体每走一步就用下一步的估值来更新当前状态的估值，这种“边走边估”非常高效，却往往受限于短视的反馈。而 REINFORCE 这类方法虽然考虑完整回报 R ，但每次更新都必须等待整个轨迹结束，样本效率低，方差大。

有没有一种方法能兼顾两者？既不像 TD(0) 那样“眼里只有一步”，也不必像 REINFORCE 那样“必须回顾全局”？这正是 n-step TD 诞生的动机。我们可以推理，n-step TD 是：

“等步之后再更新估值，用这步内的真实奖励，加上第步的预测，作为当前的目标”。

公式：

其中，前步是真实奖励，最后一项是引导更新的未来估值，因此，这种形式也被称作 n-step return。

5.4 Monte Carlo：等待终点的“整场总结”

在前几小节中，我们介绍了 TD 学习如何“边走边学”，借助对未来的预测（bootstrapping）实现更快速的学习。而与之形成鲜明对比的，是一种更“后验”的方法——Monte Carlo 方法（MC）。其核心思想可以用一句话概括：

“不预判未来，只在全部经历之后回顾总结。”

具体操作如下：

• 智能体必须完整执行一条轨迹，直到整个episode 结束；
• 然后基于实际经历，直接计算每个状态或动作的真实回报：
• 再用这些“最终成绩单”来更新策略或价值估计，不依赖任何对未来的预测。

这种方式就像一个士兵打完整场仗后回营复盘：只有在战争尘埃落定后，才能回顾每一步的得失，反思哪些决策值得保留、哪些需要修正。简单直观，却也带来了明显的缺点：必须等待整个 episode 结束才能得到反馈，学习节奏较慢，数据利用效率较低。

“Monte Carlo”一词源于摩纳哥的著名赌城，因其与随机试验和概率密切相关，在机器学习中常用来泛指一类通过随机采样进行估计的方法。

在上一境界中我们提到的 REINFORCE 方法，其实正是一种基于 Monte Carlo 的策略梯度算法。它使用 episode 中采样得到的总回报 R_t 来指导策略更新，不使用 bootstrapping，因此理论上无偏，但也面临高方差和训练不稳定的问题。

5.5 生物学意义

1997 年，剑桥大学神经科学教授Wolfram Schultz 等人的实验发现：

灵长类动物中中脑多巴胺神经元的放电模式，与 TD 学习中的 prediction error 高度一致。

具体表现为：

• 意外获得奖励时（比预期更好） → 多巴胺释放增加（正向 TD 误差）；
• 奖励如预期而至 → 多巴胺神经元没有额外反应（TD 误差接近 0）；
• 期待奖励却未获得 → 多巴胺释放减少（负向 TD 误差）；

知足常乐，其实是一种对多巴胺系统的精准优化。你的快乐（多巴胺）并不来源于绝对的奖励值，而是源于实际得到的奖励与预期之间的差值。从强化学习的视角看，这正是所谓的“时间差分误差”（TD error）：

多巴胺的释放，正是对这个差值的响应(RPE)。如果你对未来的期望很低，即使获得平凡的结果，也能带来正向的惊喜，释放更多多巴胺，让你感到愉悦。反之，期望太高，即使结果不差，也可能因“低于预期”而失落。

所以真正的幸福，不在于你得到了什么，而在于你得到了“超过预期的什么”。这正是“知足常乐”的神经科学与计算认知基础。

https://www.pnas.org/doi/10.1073/pnas.2316658121

第6层：基于价值的RL —— 从评估到决策的价值哲学

在前几层境界中，我们见证了智能体从条件反射的初级反应，进化为具备策略函数、能够通过梯度优化实现“自我提升”的智能体。然而，这些策略优化方法虽然高效，却更像是“摸着石头过河” —— 它们缺乏对环境结构的深入建模，也未构建出系统化的世界观。

本层，我们引入强化学习领域的核心支柱之一：贝尔曼方程（Bellman Equation） —— 一个可递归、具备“预见未来”能力的结构化公式。与前述策略直接优化不同，贝尔曼方程的核心思想是：当前行为的好坏，取决于其对未来长期回报的影响。这意味着，智能体不再只是“在当下做出合理选择”，而是开始尝试“在脑海中绘制未来的地图”，以评估和规划最优行为。

基于价值函数的方法，正是通过不断逼近贝尔曼方程的解，来学习状态或动作的长期价值（Value），进而引导策略更新。通过这种方式，智能体不仅“知道当下该做什么”，更“知道做了之后会发生什么” —— 决策的基础从即时反馈，跃升为预测驱动的价值评估。

尽管基于价值的方法源于上世纪 1950 年代的动态规划理论，在马尔可夫决策过程（MDP）等问题中取得了大量成功，因此在多数强化学习教材中（如 Sutton 等人的经典著作）被安排在第二章位置。然而，放眼当下，随着深度强化学习与基于策略的无模型方法（Model-Free Policy Optimization）迅速发展，Value-based 方法的相对“性价比”正在下降。其在高维、复杂任务中的局限性逐渐显现，因此，将这一章节适当“后移”，以更贴合现代强化学习的学习路径，也是一种更具逻辑性的安排。

https://link.springer.com/chapter/10.1007/978-981-19-0638-1_4

6.1 价值函数

在基于价值（Value-based）的方法中，核心思路不再是直接优化策略本身，而是先学会“评估”每个状态或动作的价值。这种评估是通过期望累计回报来衡量的，通常分为两种形式：

• 状态值函数（State Value Function）：

表示从状态出发，遵循策略所能获得的期望总回报。

• 动作值函数（Action-Value Function）：

表示在状态下采取动作，后续按照策略所能获得的期望总回报。

在强化学习中，状态（state）是智能体对环境当前情境的感知。它可以是一个图像（如游戏画面中的一帧）、一个数字向量（如股票价格序列），或者一组传感器读数。状态决定了“此时此刻，环境是什么样的”。而动作（action）是智能体在该状态下可做的决策或选择，例如“向左移动”、“购买一支股票”、“加速前进”等。每个动作都可能改变环境，从而进入新的状态，并获得一个即时奖励。

6.2 贝尔曼方程

“贝尔曼方程”（Bellman Equation），又称“动态规划方程”（Dynamic Programming Equation），由理查德·贝尔曼（Richard Bellman）（1920-1984）于20世纪50年代提出，最初用于研究导弹控制中的最优决策问题。从历史上看，贝尔曼方程的提出时间甚至早于1956年达特茅斯会议（人工智能领域的公认起点），它是动态规划（Dynamic Programming）这一数学优化方法能够实现最优解的必要条件。该方程的核心思想是：

将某一时刻的决策问题的“最优值”，表示为当前选择所带来的即时收益，加上该选择引导出的子问题的最优值。

换言之，它将一个动态优化问题拆解为一系列更小、更易求解的子问题。这种分而治之的结构，被贝尔曼称为“最优性原理”（Principle of Optimality），即：“一个最优策略的任一子策略，亦必然是该子问题的最优策略”。

https://data-science-blog.com/blog/2022/03/01/four-propositions-to-dynamic-dynamic-programming-dynamic-programming-and-the-bellman-equation-part-two/

贝尔曼方程最初广泛应用于控制理论和应用数学等工程领域，随后在经济学中也发挥了深远影响，成为动态最优化分析中的基础工具。几乎所有能够借助最优控制理论（Optimal Control Theory）求解的问题，也都可以通过构造并分析相应的贝尔曼方程来解决。

需要指出的是，“贝尔曼方程”通常特指离散时间（discrete-time）优化问题中的动态规划方程。而在处理连续时间（continuous-time）最优化问题时，其对应形式则是一类偏微分方程，称为汉密尔顿-雅可比-贝尔曼方程（Hamilton–Jacobi–Bellman Equation，简称 HJB 方程）。

HJB 方程是连续时间最优控制理论的核心工具，是贝尔曼原理在连续系统中的自然延伸。在强化学习中，贝尔曼方程是连接环境、策略与价值函数的桥梁，构成了值迭代（Value Iteration）、策略迭代（Policy Iteration）等一系列核心算法的理论基础，也为后续如 Q-learning、DQN 等方法的发展奠定了根基。

更详细的内容，请见：

https://zhuanlan.zhihu.com/p/1923267407058830526

P.S. 搞机器学习的人，大多听过“维度诅咒”（Curse of Dimensionality）这个词吧，也是Richard Bellman最早提出(coined)的。他还是普林斯顿史上最快获得博士学位的人（3个月完成学位，在服役之后）（二战期间，他在Los Alamos的理论物理组工作）。

6.3 贝尔曼最优方程：理性行为的形式化表达

在前一节中，我们介绍了贝尔曼方程，它刻画了给定策略下某状态的期望价值。然而，强化学习的最终目标通常不是评估某个既定策略，而是找到最优策略，使得智能体在任何状态下都能获得尽可能高的长期收益。拿地图导航来举例，地图不仅要能计算出通过不同路线到达目的地的时间（贝尔曼方程），还要给出最短/最快路径。

这时，贝尔曼最优方程（Bellman Optimality Equation，BOE）登场了。它不再是条件性的“根据某个策略”，而是直接刻画了在所有策略中表现最优的那个策略的递推关系，同样分为状态和动作两个方程：

这里的操作，标志着“决策”的出现：它在所有可能的行动中，选择能够带来最大长期价值的那一个。这是强化学习中最关键的一步跃迁：从“评估某种行为的价值”，进化为“选择最优行为”。Q表示行动的质量(Quality)，后面要讲的Q-Learning和DQN的Q都是这里来的。

最优策略的定义

一旦得到了或，就可以使用贪婪策略（greedy policy）构造出最优策略：。这意味着，智能体只要知道每个状态-动作对的“最优值”，便能推导出最优行为规则。与前面的策略评估不同，贝尔曼最优方程将“学习什么”和“做什么”紧密绑定在一起，成为理性决策的形式化表达。

一个隐含但深刻的哲学问题

贝尔曼最优方程其实也提出了一个“自洽性”的悖论问题：我们如何知道某个策略是最优的？答案是：我们并不知道，但我们可以构造出满足自洽方程的最优值函数，然后从中导出最优策略。换句话说，“先有价值，后有策略”，最优行为源于对未来价值的理解，而非经验或模仿。

小结

贝尔曼最优方程不仅是强化学习中的核心公式，更是一种哲学宣言：

“真正的智能，不应只是对当前情况的应激反应，而是基于对未来的预测来做出当下的最优选择。”

它为后续一系列最优策略学习方法（如值迭代、策略迭代、Q-learning 等）提供了统一的数学基础，也为通往 AGI 的道路，搭建了“理性决策”的桥梁。

https://zhuanlan.zhihu.com/p/1924409358093099292

6.4 策略迭代与值迭代：在期望与现实之间寻找平衡

在强化学习的价值哲学中，值函数（Value Function）是通向最优策略的核心中介。正如前文所述，贝尔曼方程为我们提供了一种将“未来期望回报”进行递归建模的方式，使得智能体可以在不显式建模环境的情况下，评估每个状态-动作的长远收益。而基于值函数的最优性算法，正是试图在不直接学习策略函数的前提下，通过逼近最优值函数来反推出最优策略。

本节我们将介绍三种基于贝尔曼思想的核心算法：值迭代（Value Iteration）、策略迭代（Policy Iteration），以及二者之间折中（或者说是更General）的方案——截断式策略迭代（Truncated Policy Iteration）。

https://data-science-blog.com/blog/2022/03/01/four-propositions-to-dynamic-dynamic-programming-dynamic-programming-and-the-bellman-equation-part-two/

6.4.1 值迭代

值迭代（Value Iteration， VI）是最早被提出的动态规划算法之一(Bellman 1957)，也被称为 backward induction（反向归纳）。核心思想是：不显式维护策略，而是将策略优化过程融合进值函数更新。

具体步骤：
1）所有状态价值初始化，通常都为0；
2）每一步直接应用 Bellman 最优性方程：

通过不断应用该更新操作，值函数逐步逼近 $v^*(s)4 ，下图中可以看到值从终点（1.00）逐步传播到全局。

3）当值收敛后，通过以下公式直接提取最优策略：

https://main.p.lodz.pl/news.php?id=123

Value Iteration与马上要提到的策略迭代（6.4.2）相比，其方法可谓“激进直接”：它融合了策略评估与策略改进两个步骤（见下小节6.4.2），由于每轮都面向最优动作更新，值迭代往往具备更快的收敛速度，适合在状态空间有限、转移概率已知的情境下使用，是众多基于值的算法（如 Q-learning、DQN 等）的理论起点。

相比于第 4 层中的策略梯度方法可能因梯度信息局部而陷入次优解，价值迭代（Value Iteration, VI）具备全局性的更新特性。在每一轮迭代中，它会同时对所有状态的价值函数进行更新，使得整个策略空间在全局层面上趋向最优解。这种“同时扫过全部状态空间”的更新机制，使其更容易跳出局部最优。

但与此同时，这种全局更新也带来了更高的计算成本，尤其在状态空间较大时，收敛速度较慢。此外，VI 中并不显式存储和更新策略，而是通过值函数间接推导，使得策略的演化过程难以追踪。更重要的是，VI 将策略评估与策略改进融合在一步“贪婪最大化”中，缺乏可调的中间过程，不利于学习动态的控制与分析。

为了克服这些限制，一种更具可解释性和调节性的迭代方法应运而生 —— 策略迭代（Policy Iteration, PI）。

6.4.2 策略迭代

https://levelup.gitconnected.com/fundamentals-of-reinforcement-learning-value-iteration-and-policy-iteration-with-tutorials-a7ad0049c84f

策略迭代（Policy Iteration, PI）是一种“双循环”结构的求解方法，由斯坦福大学 Ronald Howard (1934-2024) 于 1960 年提出。其核心思想非常直观：先评估当前策略的表现，再基于评估结果改进策略，循环往复直到收敛。这一过程可拆解为两个阶段：

• 策略评估（Policy Evaluation）
对当前策略 \pi 固定不变，利用贝尔曼期望方程不断迭代逼近其值函数

• 策略改进（Policy Improvement）
基于当前值函数，更新策略使其在每个状态下选择最优动作：

上述两个阶段交替执行，直到策略不再改变，即达到了策略收敛。可以证明：策略迭代在有限状态空间下总是收敛到最优策略。

在策略迭代（Policy Iteration）和值迭代（Value Iteration）之间，还有一种折衷方案，称为：

6.4.3截断式策略迭代（Truncated Policy Iteration）

截断式策略迭代（Truncated Policy Iteration, TPI）是一种在策略迭代（Policy Iteration, PI）与价值迭代（Value Iteration, VI）之间折中权衡的中间路径，在实际强化学习任务中被广泛应用。换句话说，PI 与 VI 都可以被视为 TPI 的特例：当评估步数趋于无穷时，TPI 退化为标准的 PI；当评估步数为 1 时，则等价于 VI：

• k=1 时，TPI 就变成了 值迭代VI
• k→∞ 时，TPI 就退化为 策略迭代PI

在实际任务中，适度的 k 值（如 3~10）通常能显著提升效率而几乎不影响策略质量
这种结构上的连续性，使三者关系类似于梯度下降中的 Batch Gradient Descent、Stochastic Gradient Descent 与 Mini-batch Gradient Descent；类似的还有上一层讨论过的MC, n-step TD和TD(0)。

TPI 的核心思想是在每轮策略改进之前，仅进行有限步数的策略评估，从而在计算效率与策略收敛性之间取得良好平衡。它既继承了 VI 的高效性，又保留了 PI 中对策略收敛的更强控制，是强化学习中一种兼具实用性与理论价值的方法。

TPI的基本步骤如下：

• 初始化策略 ，初始化值函数。
• 有限步策略评估（k-step Policy Evaluation）：
对当前策略，进行次贝尔曼期望更新，得到近似值函数

• 策略改进（Policy Improvement）：
使用近似值函数更新策略：

• 收敛判定：若策略发生的变化低于设定的阈值，或达到最大轮数，则停止；否则返回步骤 2。

TPI 不仅在理论上构建了 PI 与 VI 的连续谱，也启发了现代 RL 中一系列有限更新 + 策略改进的近似方法，如：

• Generalized Policy Iteration（GPI）：一种理论框架或“范式”，描述了强化学习中策略评估与策略改进交替进行的基本过程，无论评估精度如何（精确或近似），只要两者交替进行，策略总会不断改进并趋于最优，PI、VI、TPI、Q-learning、SARSA 等都属于 GPI 范畴。
• 深度强化学习中的 DQN（Q-learning） 与 A3C 等 Actor-Critic 方法；
TRPO / PPO 中以 trust region 或近端更新限制策略变动，也是一种“截断改进”的思想延续。

小结：

TPI是一个兼具稳定性与效率的中间路径，不仅在理论上贯通了策略迭代PI与值迭代VI，也在现代RL的深度版本中广泛出现，体现出从离线到在线、从近似到精确的连续性思想。

小贴士：离线学习是在固定数据上训练策略，在线学习则是在与环境实时交互中边试边学。打个比方：离线 = 看录像学打拳；在线 = 上台边打边学。

6.5 SARSA 与 Q-Learning：on-policy vs. off-policy 的分野

在值函数的RL方法下，如果对环境的模型不了解，就需要考虑使用SARSA 和 Q-Learning 是两种最为经典的无模型（model-free）算法，它们都通过更新状态-动作值函数 Q(s, a) 来逐步逼近最优策略。然而，它们的更新路径却体现出两种核心思想的对立：on-policy 与 off-policy。这不仅是更新机制的技术区别，更是智能体“如何面对不确定未来”的哲学分野。

6.5.1 SARSA：基于当前策略的价值更新（on-policy）

https://www.upgrad.com/tutorials/ai-ml/machine-learning-tutorial/sarsa-in-machine-learning/

SARSA 的名字来自于它更新所依赖的五个变量：，更新公式为：

这个公式是否似曾相识？是不是很像TD：

这几乎是 TD 的自然延伸，只不过从 状态值 V 变成了 动作值 Q，并且用到了“下一个动作”的信息，形成了一个完整的五元组（SARSA）。可以说：SARSA 是 TD 学习在动作值上的 on-policy 版本，最后那一项可以理解为TD-Target。从 V 到 Q，从状态到状态-动作对，从只看下一状态到考虑下一动作，这是一种逐步逼近真实期望的泛化路径。

再进一步，SARSA是不是也像梯度上升公式：，TD Target对应，是“目标函数的提升方向”。尽管它不是标准意义下的梯度，但确实遵循同样的思想：一点一点逼近最优目标的估计值。这背后统一的数学基础，其实可以追溯到随机逼近理论(Stochastic approximation)。

• Robbins-Monro 定理：在不确定性环境中，用“估计误差”驱动更新，逐步逼近期望值，，其中：：第 n 次迭代的参数估计；：学习率（步长），通常满足；：带有噪声的观测函数，期望为目标函数（通俗理解：噪声抵销了，无偏估计）；：我们想逼近的期望值，在TD里面就是TD-target。该定理由美国数学家Herbert Robbins与Sutton Monro 1951年提出。

Robbins-Monro 定理，比牛顿法的确定性收敛速度稍慢，但其强大之处在于能够在噪声环境中依然保证收敛性，并无需显式计算导数或海森矩阵，更适合强化学习这类样本噪声大、环境反馈不稳定的问题。来源：https://cenac.perso.math.cnrs.fr/hdr/algo-stochastiques.html

• Dvoretzky 定理（Dvoretzky’s Theorem）：揭示了高维空间中“局部逼近全局”的几何特性，为强化学习中估计收敛提供了理论支撑。Dvoretzky 定理由以色列数学家Aryeh(Arie)Dvoretzk（1916-2008）在1960年代早期出提出。

是否对每天使用的SGD的理论基础提出者有点感恩和崇敬之心，看看人家六七十年前的成就，奠定了今天RL乃至ML优化的重要基础。

因此，可以说：

SARSA 是 TD 学习在动作值（ Q 值）层面的 on-policy 实现，它既继承了 TD 的增量更新风格，也具备某种“伪梯度上升”的结构。

回到公式本身，由于下一个动作是基于当前策略（如下面将提到的）所采样的，SARSA 实际上会将探索行为带来的“非最优后果”也纳入学习过程。换言之，它是在模拟 “你实际上会怎么做”，而不是理想情况下最优该怎么做”。这使得 SARSA 在训练过程中更加保守，具有更好的稳定性。

举个例子：想象你在训练一个走迷宫的机器人。SARSA 会基于机器人当前真实采用的策略来评估路径——即便它因为探索而走了弯路，也会纳入经验更新。这种学习方式更贴近现实，有助于在早期避免过度乐观或策略震荡。

SARSA 是一种 on-policy 学习方法，它更新动作价值时，使用的是当前行为策略下实际选取的下一个动作。这一点虽然增强了学习的稳定性和安全性，尤其适用于需要规避风险的环境（如机器人控制），但也带来了两个明显的缺点：

• 学习过于保守：它评估的是“我实际会怎么走”的结果，哪怕这不是最优路径，也会围绕它进行微调。
• 收敛慢、易陷入局部最优：在策略初期，探索行为较多时，SARSA 也会“学习探索行为的后果”，从而影响最优策略的学习速度。

为了解决 SARSA 的这类问题，Q-Learning 被提出作为一种 off-policy 的强化学习方法。它跳出了当前策略的限制，每一步都朝着最优策略的方向更新：不管当前行为是否最优，它始终用下一个状态中“看起来最好的动作”来指导更新。这种“大胆假设、激进优化”的思路，使得 Q-Learning 更有机会快速学到理论上最优的策略，尤其适合在模型明确、训练目标清晰的环境中使用（如围棋、博弈 AI、游戏等）。SARSA 是“跟着自己脚步走”，而 Q-Learning 是“向着山顶努力走”，哪怕此刻脚下偏离了方向。

小贴士：on-policy：learn和act是一个策略；off-policy：learn和act的策略是两个不同的策略。

6.5.2 Q-Learning：最优策略驱动的更新（off-policy）

https://github.com/imohitmayank/interactive_q_learning

Q-Learning 虽然同样以五元组为基础进行更新，但它与 SARSA 的核心区别在于目标值的计算方式。在 Q-Learning 中，动作价值函数的更新公式为：

其中下一状态中假设的最优动作。

与Sarsa的公式对比：

Sarsa（On-policy）更新公式的意思是：我更新当前这一步的 Q 值，是基于我实际上走了哪一步（ A_{t+1} ）后的回报进行估计的。行为策略 = 目标策略（on-policy），强调对当前实际行为后果的总结，更新更保守。

Q-Learning（Off-policy）更新公式的意思是：我虽然实际走了某一步，但在更新时假设自己下次一定选最优动作（），来估算未来收益。行为策略 ≠ 目标策略（off-policy），强调对理想最优行为的推演，更新更激进。

如果你是在设计一个实际任务，如果想要保守一点、减少因为过度乐观导致的风险：用 SARSA；想要快点学出最优策略，能承受一定的不稳定性：用 Q-Learning。Q-Learning和SARSA，分别是理想主义者（总假设下一步是是最优的完美行为）和现实主义者（承认自己会犯错）的代名词。

Q-Learning 虽然在小规模离散状态空间中非常有效，但在面对大规模或连续空间问题时暴露出一些关键缺陷，比如：Q值通过查表方式保存，在连续和高维情况下，表变得很大，容易导致 “维度灾难”；表格型方法不能对未见过的状态进行推理；学习过程的不稳定与过估计现象。为了解决这些问题，DeepMind 在 2015 年提出了 Deep Q-Network（DQN），开启了深度强化学习的新时代。

Q-Learning 是由 Christopher J.C.H. Watkins 于 1989 年在其博士论文中首次提出的，为后续的深度 Q 网络（DQN）奠定了基础，是强化学习史上的一个重要里程。

6.5.3 DQN：从查表到函数逼近，深度强化学习的起点

Deepmind 早期DQN玩 Atari游戏

2015 年，一段令人震撼的视频出现在 NeurIPS 的舞台上：智能体盯着一块像素屏幕，不断挥动“球拍”击打上方砖块，逐渐学会打出人类玩家都难以企及的“穿墙打法”。而它的“眼睛”只有像素，“大脑”只是一个深度神经网络。这正是 DeepMind 发布的里程碑工作 —— Deep Q-Network（DQN）。

DQN 的出现，首次将深度神经网络成功地应用于强化学习任务中，使得代理人不依赖任何手工特征，仅通过图像像素与奖励信号，就能在 Atari 2600 多款游戏中超越人类水平。这一成就标志着深度强化学习（Deep Reinforcement Learning）的正式崛起。

核心思想：

在传统 Q-Learning 中，我们维护一个表，记录每个状态-动作对的估计价值。这本质上是一个 有限状态空间下的离散查表操作。但如果我们换一个角度思考，把表看作是一个函数，那么：

• 输入是状态和动作；
• 输出是这个状态-动作对的期望回报；
• Q-Learning 实际上是在构建一个 从状态-动作对到回报的函数逼近器。

然而，当状态空间巨大甚至是连续的（比如图像像素），Q 表就无法穷举记录，这时“查表”将变得不切实际。

这正是 DQN 的突破点所在：

用神经网络来逼近 Q 函数，取代查表，从而拓展到高维状态空间。

在 DQN 中，我们训练一个参数化神经网络，输入状态（通常是图像或特征），输出所有可能动作的值，从而实现策略的选择与价值估计。

https://towardsdatascience.com/reinforcement-learning-explained-visually-part-5-deep-q-networks-step-by-step-5a5317197f4b/

更新规则与 Q-Learning 类似，只不过 Q 值不再查表，而是通过神经网络预测：

其中目标值为：，完整公式：

注意这里的是一个目标网络（target network）的参数，与主网络参数 \theta 定期同步，以减少震荡。不然，就像在追移动的兔子，目标一直在变化，永远追不到。

为了解决强化学习中特有的不稳定性和收敛困难，DQN 引入了三项重要机制：

• 1） 目标网络（Target Network），设置一个冻结参数的网络来生成目标值，并每隔若干步将主网络参数复制过去，缓解训练震荡。
• 2）经验回放（Experience Replay），将Agent经历的状态转移存入回放缓存，从中随机采样小批量进行训练，打破样本之间的时间相关性，提升样本利用效率。
• 3）Mini-batch SGD（小批量梯度下降） 在每一步中，从经验池中采样一小批数据，用标准的梯度下降优化损失函数，提升训练稳定性。

DQN 不仅在 Atari 游戏中展现惊人实力，还为后续的深度强化学习方法（如 Double DQN、Dueling DQN、Rainbow 等）奠定了基础。更重要的是，它为 AlphaGo 提供了关键模块，在 AlphaGo 的自我博弈训练中，动作选择策略网络和价值评估网络都是从 DQN 演化而来的结构；AlphaGo Zero 更进一步，采用纯自我对弈训练，完全不依赖人类数据，展示了 RL 的真正潜力。也人们首次看到了AGI的一点点微光。

小结：从值函数出发的“控制之道”

在第六境界，我们见证了强化学习最经典、最早被系统化的方法体系——基于值的强化学习。从最初的 动态规划（DP） 的贝尔曼方程，到VI和PI，再到行为策略中不断改进的 SARSA 和 Q-Learning，最终到DQN，这一系列方法构建了“以状态-动作值为中心”的学习路径。

核心理念在于：通过估计每一个状态或状态-动作对的长期价值，从而指导智能体的行为选择。而 DQN 的出现，更是把这一路线从“小表格”推进到了“大世界”，开启了深度强化学习的大门。我们也从中看到了一个重要主题的浮现：

如何在现实采样与理想估计之间寻找平衡？

SARSA 更保守、注重探索代价；Q-Learning 更激进、追求最优策略；DQN 则是两者的深度融合，用神经网络逼近价值函数，让强化学习步入高维感知世界。

至此，第六层境界：基于值的强化学习正式落幕，也标志着整个人工智能强化学习体系的“基石篇”完成构建。

从动态规划的理性穷举，到 Q-Learning 的理想主义查表，再到 DQN 的深度泛化，我们沿着价值函数的脉络，追溯出强化学习的原始动力机制。这一篇，也顺势打破了我个人知乎文章的历史字数记录。

之前商界有位名人说过：“站在风口，猪都能吹上天”。这几年，AI大模型领域百家争鸣，百舸争流，明显是这个时代下一个风口！

那如何学习大模型&AI产品经理？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以点扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述