强化学习中智能体与环境的核心互动循环图--解释

强化学习概念：强化学习（，RL）讨论的问题是一个怎么在一个复杂不确定的里面去极大化它能获得的。通过感知所处环境的对的，来指导更好的动作，从而获得最大的，这被称为在交互中学习，这样的学习方法就被称作强化学习。这是。

乱世军军

415人浏览 · 2025-12-03 14:35:39

乱世军军 · 2025-12-03 14:35:39 发布

强化学习概念：

强化学习（Reinforcement learning，RL）讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的 环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的 状态(state) 对 动作(action) 的 反应(reward)，来指导更好的动作，从而获得最大的 收益(return)，这被称为在交互中学习，这样的学习方法就被称作强化学习。

这是强化学习中智能体与环境的核心互动循环图，用来描述 AI（智能体）如何在环境里 “试错学习”，具体流程是这样的：

1. 核心角色

智能体：可以理解成 “学习的主体”（比如游戏 AI、机器人）；
环境：智能体所处的 “场景”（比如游戏关卡、机器人的工作空间）。

2. 互动流程（按时间循环）

① 【时刻 t】环境先告诉智能体当前的 “处境”——状态 St（比如游戏里 “当前的敌人位置、自己的血量”，这里 “St” 里的 “t” 代表 “时刻 t”）；
② 智能体根据这个处境，做一个操作 ——动作 At（比如游戏里 “向右走、放技能”，“At” 的 “t” 对应时刻 t 的动作），把动作传给环境；
③ 环境收到动作后，给两个反馈：
- 新处境：变成状态 St+1（“t+1” 代表 “下一个时刻” 的状态，比如移动后 “自己位置变了、被敌人打了一下”）；
- 评价：给智能体一个奖励 Rt+1（“t+1” 对应动作后的奖励，比如 “杀敌人得 + 10 分” 是好奖励，“被打扣血得 - 5 分” 是坏奖励）；
④ 新状态 St+1 再传给智能体，开启下一轮 “处境→操作→评价 + 新处境” 的循环。