强化学习概念:

强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的 环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的 状态(state) 对 动作(action) 的 反应(reward), 来指导更好的动作,从而获得最大的 收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习。

这是强化学习中智能体与环境的核心互动循环图,用来描述 AI(智能体)如何在环境里 “试错学习”,具体流程是这样的:

1. 核心角色

  • 智能体:可以理解成 “学习的主体”(比如游戏 AI、机器人);
  • 环境:智能体所处的 “场景”(比如游戏关卡、机器人的工作空间)。

2. 互动流程(按时间循环)

  • ① 【时刻 t】环境先告诉智能体当前的 “处境”——状态 St(比如游戏里 “当前的敌人位置、自己的血量”,这里 “St” 里的 “t” 代表 “时刻 t”);
  • ② 智能体根据这个处境,做一个操作 ——动作 At(比如游戏里 “向右走、放技能”,“At” 的 “t” 对应时刻 t 的动作),把动作传给环境;
  • ③ 环境收到动作后,给两个反馈:
    • 新处境:变成状态 St+1(“t+1” 代表 “下一个时刻” 的状态,比如移动后 “自己位置变了、被敌人打了一下”);
    • 评价:给智能体一个奖励 Rt+1(“t+1” 对应动作后的奖励,比如 “杀敌人得 + 10 分” 是好奖励,“被打扣血得 - 5 分” 是坏奖励);
  • ④ 新状态 St+1 再传给智能体,开启下一轮 “处境→操作→评价 + 新处境” 的循环。

智能体就是在这种 “试错 + 奖励反馈” 里,慢慢学会做能拿到更多奖励的动作(比如游戏 AI 学会通关、机器人学会完成任务)。

更多推荐