【导读】

Transformer+强化学习:当下顶会热门的决策智能新范式 Transformer与强化学习(RL)的交叉融合,正成为NeurIPS、ICLR等顶会的“焦点方向”,一举打破传统RL在复杂决策场景的诸多瓶颈!核心逻辑在于借Transformer超强的时序建模与注意力关联能力,破解RL长期面临的三大难题——长时序依赖难捕捉、离线数据利用率低、安全约束与任务奖励难平衡,让智能体既能高效学习决策策略,又能应对真实场景的动态需求。 当前这一领域聚焦三大研究热点:一是离线RL的序列化建模,从静态数据集里挖掘有效信息,避免在线交互的安全风险与样本浪费;二是安全约束下的灵活适配,实现不同场景下“奖励-安全”阈值的动态调整;三是情景RL的效率突破,让模型生成完整动作序列时,兼具样本高效性与轨迹平滑性。其技术优势鲜明,既保留RL的决策核心,又靠Transformer挖掘时序关联,已在机器人控制、自动驾驶等领域展现实用价值。

本文整理了该方向26篇顶会前沿文献,涵盖核心创新思路与开源代码,无偿分享给研究者,助力快速把握这一方向的突破点与创新路径!

➔➔➔➔点击查看原文,获取论文合集https://mp.weixin.qq.com/s/MHTJVShsU3w3N9vviP4lWg

【论文1】《Constrained Decision Transformer for Offline Safe Reinforcement Learning

研究方法

1. 问题建模:多目标优化视角下的离线安全 RL
  • 引入三个关键函数刻画数据集的 “奖励 - 成本权衡” 属性:

    • Pareto Frontier(PF):成本≤κ 时的最大奖励,即;

    • Inverse Pareto Frontier(IPF):成本≥κ 时的最大奖励,即;

    • Reward Frontier(RF):特定成本 κ 下的最大奖励,即。

  • 提出ϵ-reducible 概念量化任务难度:若,则 ε 越大(正),任务越易(高奖励轨迹天然满足安全约束);ε 越小(负),任务越难(高奖励轨迹多违反约束)。

2. 模型架构:基于决策 Transformer(DT)的扩展
  • 输入设计:在 DT 的 “奖励回报 + 状态 + 动作” 输入基础上,新增成本回报序列(,),形成四元输入 token 。

  • 策略表示:采用随机高斯策略(而非 DT 的确定性策略),输出动作分布,避免分布外动作导致的约束违反;引入香农熵正则化()缓解过拟合,提升鲁棒性。

3. 关键技术:解决安全与适应难题
  • 数据增强(回报重标记):针对 “目标回报冲突”(如 ρ>RF (κ,T),即高奖励与低成本不可兼得),找到满足的最大奖励轨迹,重标记其奖励()和成本(),引导模型学习安全行为。

  • 训练与评估

    • 训练:采用监督学习式优化,目标为 “最小化负对数似然 + 最大化熵”();

    • 评估:动态更新目标回报(根据环境反馈调整和),实现对不同约束阈值的实时适应。

创新点

  • 视角创新:首次从多目标优化(MOO)视角分析离线安全 RL,提出 ϵ-reducible 概念定量刻画任务难度,揭示数据集 “奖励 - 成本分布” 对算法性能的影响,填补现有研究中数据集分类的空白。

  • 模型创新:提出 CDT,首次实现离线安全 RL 的零 - shot 适应—— 无需重新训练,即可动态调整约束阈值(κ),解决现有方法(如 BCQ-Lag、COptiDICE)需固定阈值训练、无法灵活适配不同安全需求的核心局限。

  • 技术创新

    • 引入随机策略与熵正则化,有效缓解离线场景下 “分布外动作导致的约束违反” 问题,对比 DT 的确定性策略,安全性能显著提升;

    • 基于帕累托前沿的数据增强,解决 “目标回报冲突”(高奖励与低成本不可兼得),使模型在高目标奖励下仍能保持安全。

  • 性能优势:在 5 个机器人 locomotion 任务(Ant-Run、Car-Circle 等)中,CDT 是唯一在所有任务中同时满足 “安全(成本≤1)” 和 “高奖励” 的方法,平均奖励(82.99)显著优于 BC-Safe(71.04)、DT-Cost(86.37,但成本 4.42)等基线。

【论文2】《TOP-ERL: TRANSFORMER-BASED OFF-POLICY EPISODIC REINFORCEMENT LEARNING》

研究方法

1. 问题背景:突破 ERL 的在线局限

ERL 的核心是通过轨迹生成器(如 Movement Primitives)输出完整动作序列,而非单步动作,但其在线框架需依赖 “策略梯度” 更新,样本效率低;本文设计离线 ERL,利用 replay buffer 复用数据,提升效率。

2. 核心架构:Transformer 评论家 + ProDMP 轨迹生成
  • 轨迹生成:采用Probabilistic Dynamic Movement Primitives(ProDMPs) 作为生成器,将 policy 输出的参数(服从)映射为连续动作序列;支持初始条件约束(通过设置 ProDMP 的初始位置 / 速度),解决新动作序列与片段起始状态的 mismatch 问题。

  • Transformer 评论家

    • 片段化处理:将长轨迹分割为 K 个长度为 L 的片段,每个片段输入为 “起始状态 + L 个动作”;

    • 编码与预测:输入经 “状态 / 动作编码器(线性层)+ 可训练位置编码” 后,输入解码器 - only Transformer(带因果掩码),输出 “状态值 + 序列动作值”(N≤L-1),实现对动作序列价值的估计。

3. 关键技术:离线更新与稳定训练
  • N 步回报目标:评论家更新采用 N 步 TD 误差,目标值为;无需重要性采样(因动作序列固定为输入),避免离线 RL 中 “权重乘积导致的方差爆炸”。

  • 策略更新:采用 SAC 式重参数化技巧,采样 ProDMP 参数,生成新动作序列,最大化评论家预测的序列值期望()。

  • 稳定技术

    • 采用Trust Region Projection Layer(TRPL) 约束高斯策略的更新幅度,避免高维参数空间的不稳定;

    • 使用随机片段长度(而非固定 L),增强评论家对不同时间尺度的适应能力;禁用 dropout(小 replay buffer 已缓解过拟合)。

4. 实验设置
  • 任务:Meta-World MT50(50 个机器人操纵任务)、Hopper Jump(最大化跳跃高度)、Box Pushing(dense/sparse 奖励);

  • 基线:ERL 类(BBRL、TCE)、步基 RL 类(PPO、SAC、gSDE、GTrXL);

  • 指标:Interquartile Mean(IQM)成功率 / 性能,95% 置信区间。

创新点

  • 框架创新:首次提出离线 Episodic RL 算法(TOP-ERL),打破 ERL 多为在线框架的局限,结合离线 RL 的样本高效性(复用数据)与 ERL 的长视野优势(捕捉动作时序相关性、生成平滑轨迹),填补离线 ERL 研究空白。

  • 架构创新:将 Transformer 作为评论家用于序列动作价值估计,通过 “片段化处理 + 因果掩码” 解决 ERL 中 “难以评估动作序列价值” 的核心问题,无需依赖单步 TD 误差(避免 ERL “黑箱优化” 的低效率)。

  • 技术创新

    • 基于 ProDMP 的初始条件约束,解决新动作序列与片段起始状态的 mismatch 问题,提升价值估计准确性;

    • N 步回报目标设计,减少价值估计偏差,且无需重要性采样,规避离线 RL 的方差问题;

    • 随机片段长度,简化超参调优,同时增强模型对不同时间尺度的适应能力(固定长度性能下降 50% 以上)。

  • 性能优势

    • 在 Meta-World MT50 中,TOP-ERL 以 1×10⁷环境交互达到 98% 成功率(TCE 需 2×10⁷,SAC 仅 85%);

    • 在 Box Pushing(稀疏奖励)中,TOP-ERL 达到 70% 成功率仅需 1.4×10⁷样本,而 TCE 需 5×10⁷,gSDE 需 5×10⁷。

➔➔➔➔点击查看原文,获取论文合集https://mp.weixin.qq.com/s/MHTJVShsU3w3N9vviP4lWg

更多推荐