置信度感知强化学习在自动驾驶中的应用

ee345

984人浏览 · 2025-10-17 11:07:21

ee345 · 2025-10-17 11:07:21 发布

面向自动驾驶汽车的置信度感知强化学习

摘要

强化学习（RL）可用于在传统方法无法应对的复杂情况下设计智能驾驶策略。然而，这些方法通常是黑箱式的，所得到的策略可能表现不佳，尤其是在少量训练案例可用的场景中。本文提出一种在两种条件下使用强化学习的方法：（i）强化学习与基于规则的基线驾驶策略协同工作；（ii）仅当基于规则的方法难以处理当前情况且强化学习策略的置信度较高时，强化学习才进行干预。我们的动机是利用训练不足的强化学习策略可靠地提升自动驾驶汽车的性能。策略的置信度通过林德伯格‐列维定理，利用训练过程中记录的数据分布进行评估。该整体框架被称为“置信度感知强化学习”（CARL）。文中分析并给出了强化学习策略与基线策略之间切换的条件。以双车道环岛场景中的驾驶作为应用案例进行研究。仿真结果表明，所提出的方法优于纯强化学习策略和基于规则的基线策略。

索引术语

自动驾驶汽车，强化学习，运动规划。

一、引言

AUTONOMOUS 驾驶技术在各种驾驶场景中具有大幅提升车辆安全和通行性的巨大潜力[1]。目前，一些工业级（保密的）自动驾驶汽车已实现了令人印象深刻的性能。2018年，Waymo车辆[9]在加利福尼亚测试中创下了一项惊人记录：超过17,000公里无干预驾驶。与此同时，记录了数百个接管（复杂场景）案例。假设这些接管案例确实必要，即工程师必须改进当前的自动驾驶汽车算法以应对这数百个复杂场景。那么该如何处理？调整现有策略以尝试应对这些复杂场景并非稳妥之举，因为这可能导致车辆在“其余17,000公里”驾驶中的性能下降，从而引发新的复杂场景。

数据驱动方法[2],例如，强化学习（RL），能够从收集的驾驶数据中进行学习，是具有潜力的方法设计更智能的驾驶策略。基于强化学习的驾驶策略在许多场景中已得到验证，例如匝道并线[3], 、高速公路出口 [4], 、交叉路口驾驶[5]等。然而，完全自动驾驶并非若干独立场景的简单连接，其中可能包含多种需要同时处理的未定义场景。直接为全部“17,000公里”路程训练一个强化学习策略似乎也是一种高风险方法，因为它需要越来越多的大量数据和长时间的训练才能覆盖大多数场景。一个训练不足的强化学习策略可能不可信，甚至不如当前基于规则的策略。事实上，根据一份研究报告[6],，仅强化学习模型中的策略评估过程就需要至少88亿英里驾驶数据。当仅有有限的数据量时，强化学习策略可能无法充分训练，并在某些情况下失败。目前大多数基于强化学习的自动驾驶研究工作集中在学习速度、样本复杂度或计算复杂度上，但无法在训练数据有限的情况下保证性能[10]。

强化学习训练的不可解释性和不可量化性阻碍了该技术在自动驾驶汽车等关键任务的实际应用中的使用。由于当前的自动驾驶系统[7],[8]在大多数情况下能够驾驶，使用可解释的算法，例如基于规则或基于模型的方法，我们的动机是：我们能否通过强化学习技术保证“可信提升”？即一个训练不足的强化学习策略仍然可以优于给定的驾驶策略，例如工业自动驾驶系统。这项工作可以使强化学习技术直接提升完全自动驾驶性能，而无需等待理想的训练条件。

在强化学习领域，策略性能的保障涉及安全强化学习主题[11]。典型方法大致可分为1）专家策略启发式，以及2）危险动作校正。专家策略启发式方法首先模仿专家策略，例如人为设计的策略，然后学习以获得更好的性能。专家策略的模仿可以使用监督学习[2],逆向强化学习[12],或添加专家策略启发式奖励[13]。随后，强化学习将继续更新该策略以提升性能。理想情况下，模仿得到的策略将具有与人为设计策略相当的性能，并且强化学习将进一步改进这些策略。然而，模仿过程和强化学习训练都需要大量训练数据，否则最终策略并不总是优于专家策略。

另一种保证强化学习安全的方法是纠正危险动作。一种简单的方法通过基于规则的保护措施[16]直接调整自动驾驶汽车的动作。然而，由此产生的策略可能过于保守，在高速场景中无法生成可接受的解决方案。一些方法还通过设计面向安全的奖励函数，并在策略导致危险结果时引入惩罚来校正动作。例如，在[14] 和[15],中，跟车情况下的最小距离被用于计算成本函数。这些方法仍然需要大量训练数据或复杂的保护措施。它们无法保证比给定的自动驾驶系统有更好的性能。

考虑强化学习训练策略置信度的相关工作是安全策略改进[18]。与经典强化学习策略更新过程（即在训练期间持续更新策略）不同，安全策略改进方法会在新策略置信度不足时阻止策略更新。该工作提供了一种根据训练数据来分析策略置信度的方法。基于这一思路，[17],[19]提高了数据采样效率并放宽了数据采集策略的要求。[20]进一步将该方法应用于非平稳马尔可夫决策过程。[21]在考虑训练数据误差的情况下计算策略置信度。然而，在数据不足的情况下，生成的策略在少量训练案例中仍可能失效。

与上述方法不同，本文提出了一种置信度感知强化学习（CARL）方法，该方法结合了基于原则的自动驾驶系统。其核心思想是“不完全依赖强化学习模型，而仅在模型具备学习效果时启用它”。也就是说，针对训练不足的强化学习模型，所提出的CARL能够利用基于原则的策略来保证自动驾驶汽车的统计下界。生成的CARL策略将优于基于原则的策略以及单纯的强化学习模型。具体贡献包括： 1)一种置信度感知的强化学习框架，包含一个强化学习规划器和一个基线基于原则的规划器。通过激活更优的规划器，最终的混合策略可以优于任一单独的规划器。2)一种根据记录的数据分布来估计强化学习规划器和基线基于原则的规划器置信水平的方法。3)一个可靠检测器，用于确定何时激活强化学习规划器。

本文其余部分组织如下：第二节介绍预备知识并正式定义问题。第三节定义策略置信度水平。第四节设计面向自动驾驶汽车规划的置信度感知强化学习系统。第五节展示应用场景和仿真结果。最后，第六节总结本研究工作。

II. 预备知识与问题定义

A. 预备知识

自动驾驶汽车的轨迹规划问题被建模为马尔可夫决策过程（MDP）或部分观测马尔可夫决策过程（POMDP），其建模过程如[22]所示。MDP假设该问题满足马尔可夫性质：未来状态的条件概率分布仅依赖于当前状态。本文采用马尔可夫决策过程（MDP）表示法，而该算法可通过将状态替换为观测[23]转化为部分可观测马尔可夫决策过程（POMDP）问题。智能体应在一个通用的序列化决策环境中优化长期奖励。强化学习被用于解决此问题，使得智能体能够学习一种策略，将丰富的观测映射到动作。

更具体地说，一个有限时域马尔可夫决策过程由一个元组(S, A,r, P)构成：
- 一个上下文状态空间 S；
- 一个动作空间 A
- 奖励函数r： S → R；
- 一个转移算子（概率分布） P： S×A×S → R；
- 一个折扣因子 γ ∈（0, 1],设为固定值；
- 有限规划水平线定义为H ∈ N。

一般策略 π ∈ 将每个上下文状态映射到动作上的分布（即S → P(S))。也就是说，π(a|s) 表示使用策略 π在状态s 执行动作a 的概率（密度）。本文为简化起见采用固定策略设置，即aπ(s)= argmaxa(π(a|s))。其中，表示包含所有候选策略 π的集合。一个策略π 具有关联的价值函数和动作价值函数。对于给定的奖励函数，这些函数定义为:
∀h ∈ N,
$$
Vπ(s):= Eπ[\sum_{t=h}^{h+H−1} \gamma^{t−h}rt | sh= s]
$$
$$
Qπ(s, a):= Eπ[\sum_{t=h}^{h+H−1} \gamma^{t−h}rt | sh= s, ah= a] (1)
$$
其中at ∼ π(at|st)。 E[·]表示关于环境转移分布的期望。rt表示在时刻t的奖励。Vπ(s)和Qπ(s, a)中的下标 π表示这些函数的值依赖于策略 π。

强化学习的目标是找到最优的 π以生成下一个动作，从而最大化期望奖励，记为:
∀st ∈ S,
$$
Vπ(st)= argmaxπ Est+1∼P[r(st, aπ)+ γ Vπ(st+1)] (2)
$$
其中st+1是由st,aπ生成的下一个状态，即st+1 ∼P(st+1| st,at)。公式(2)是贝尔曼最优方程。收集的数据定义如下:
$$
τπ(s):={s, a τ τ
Dπ:={τπ(si)}, si ∈ S
G(τπ(s)):=\sum_i \gamma^n (r(s τ i , a τ i)) (3)
$$
其中， τ π(s)表示一条长度为H的轨迹，该轨迹是由一系列状态和动作组成的序列。s是τ π(s)的起始状态。在此轨迹中，回报值表示所有折扣奖励的总和，记为G(τπ(s))。数据集Dπ保存了通过策略 π收集的所有这些轨迹，用于训练强化学习策略。

在本文中，我们使用深度Q学习框架作为强化学习策略生成器。需要注意的是，其他强化学习框架也可能适用，但在本研究中未进行探索。

示意图0

B. 问题定义

本文研究的问题定义如下：一辆自动驾驶汽车具有一种基于规则的驾驶策略，称为基线策略。该策略在大多数情况下表现良好，但偶尔会失效。所提出的方法旨在利用有限的训练数据来训练一种强化学习策略，以改进基线策略（在其可能失效时）。然后设计一种置信度指数，用于评估基线策略和强化学习策略的驾驶置信度。最后，通过激活置信度更高的策略，混合规划器的表现能够优于任一单独策略。

如图1所示，该置信度感知框架由两部分组成：交通环境和智能体。智能体根据观测到的状态生成动作，并包含两种策略：基线基于原则的策略 πb和强化学习策略πrl。智能体首先评估这两种策略的性能，然后根据收集的数据计算置信度。随后，智能体选择具有高置信度的更优策略进行驾驶。因此，最终性能应优于任一单独策略，即使在训练数据有限的情况下也是如此。策略评估、置信度计算以及强化学习策略激活条件的方法将在第三节中介绍。

在此问题中，基线策略的输入和输出与强化学习策略的状态空间和动作空间相同。此外，问题描述中的失败情况由终止状态集 T定义，即 T ⊂ S。用于评估和训练过程的奖励函数与这些失败情况密切相关，如公式(4)所示。这是一种稀疏奖励设置，增加了强化学习训练的难度。
$$
r(s)=
\begin{cases}
-1, & \text{if } s \in T \
0, & \text{else}
\end{cases}
(4)
$$

III. 驾驶策略性能与置信度

众所周知，强化学习中的策略是通过奖励期望Qπ(s, aπ)来评估的。如果训练数据不足，策略评估的准确性可能会降低。我们提出一种置信度指数来量化策略评估的质量。策略评估及其置信度估计将在以下小节中讨论。

A. 驾驶策略评估

驾驶策略评估过程可以使用蒙特卡洛策略评估方法来估计状态值函数。首先，定义子数据集如下
$$
Dπ(si)={τπ(si)} (5)
$$
其中Dπ(si)表示从状态si开始的收集的数据。根据马尔可夫性质，这些收集的数据（即在公式(5)中定义的轨迹）是独立同分布（i.i.d）的采样。随后通过以下方式估计状态值函数
∀si ∈ S,
$$
Qπ(si, aπ) ← \bar{G}(τπ(si))= \frac{1}{n}\sum_i(G(τπ(si))) (6)
$$
¯其中Qπ(si,aπ)是真实的性能值，而G(τπ(si))是估计值。当样本数量足够大时，¯G趋近于Qπ。

然而，由于交通环境的不确定性以及收集的数据有限，估计值G 可能与Qπ 存在显著差异。该CARL应进一步考虑策略价值函数的置信度。

B. 驾驶策略置信度

真实值Qπ(si,aπ)仅在概念上存在，无法直接观测。这里我们定义一个Qπ的分布¯，用于描述Qπ在估计值G附近的概率，记为P(Qπ)。该分布称为真实值分布。真实值分布是基于林德伯格‐列维定理:计算得出的
∀z ∈ R, si ∈ S
$$
\lim_{n→∞} P[\sqrt{n}(\bar{G}_π(si) − Qπ(si, aπ(si))) ≤ z]=\Phi(z / \sigma)
$$
$$
\sigma^2= Var(Gπ(si)) (7)
$$
其中Gπ(si)是G(τπ(si))的简写。 (z)是在z处计算的标准正态累积分布函数（CDF）。随着样本数量的增加，真实值落在估计值附近的概率也随之增加。

CARL框架应激活具有更高¯策略值的策略。与显式比较估计值G不同，所提出的CARL将使用策略改进概率作为指标来决定强化学习策略的激活时机。策略改进概率 C(si)定义为强化学习策略相对于基线策略实现改进的概率，如公式(8)所示。
$$
C(si)= P(Qrl(si, arl(si)) ≥ Qb(si, ab(si))) (8)
$$
其中si ∈ S。下标rl、b分别表示强化学习策略和基线策略。 C(si)表示策略改进置信度。结合公式(7)和(8)，该策略改进置信度可进一步计算为:
$$
C(si)= P(Qrl(si, arl(si)) ≥ Qb(si, ab(si)))
= \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^{0} \exp\left(- \frac{(μ - x)^2}{2\sigma^2}\right)dx
$$
$$
μ= \bar{G} {rl}(si) − \bar{G} {b}(si), \sigma^2= \frac{\sigma^2(G_{rl}(si))}{n_{rl}} + \frac{\sigma^2(G_{b}(si))}{n_b}, n_{rl}, n_b \geq n_{thres} ≥ (9)
$$
其中si ∈ S。nrl,nb 分别表示数据集Drl(si)和Db(si)中收集的轨迹数量。当收集的轨迹少于nthres= 30时，我们设 C(si) = 0。

在此框架中，基线策略应保证整个系统的下界性能，即仅在强化学习策略能够提升基线策略时才使用该强化学习策略。为此，我们定义一个置信度阈值cthres，使得只有当C(si) ≥ cthres时，强化学习策略才会被激活以提升基线策略性能。置信度阈值cthres 的取值应满足以下条件:
∀si ∈ S
$$
E(Qπrl(si, arl(si))) − E(Qπb(si, ab(si)) ≥ 0) ≥ 0
$$
$$
P(Qπrl(si, arl(si)) ≥ Qπb(si, ab(si))) ≥ 0.5 ⇒ cthres ≥ 0.5 (10)
$$
其中cthres表示置信度阈值。cthres=0.5是使用强化学习策略而非基线策略的阈值。

四、基于置信度的强化学习

本节描述了数据收集过程，并使用两个子策略生成 CARL混合策略，即πb, πrl。

A. 数据收集

我们使用固定时域滑动窗口来收集轨迹 τπ(si)及其值回报G(τπ(si))，如下所示:
$$
ωπ:={s1, a1,…, sm ∈ T}, s1…m−1∈/ T
$$
$$
τπ(s i):={s i, a i, s2, a2,…, sk} (11)
$$
其中k= min(i+ H − 1,m)。 ωπ 是使用策略 π收集的轨迹集合。随后，为策略评估和置信度分析定义了不同的子数据集:
$$
D(s, a)= Db(s) ∪ Drl(s)
$$
$$
Db(s):={τ(s1= s, a1= πb(s1)}
$$
$$
Drl(s):={τ(s1= s, a1= πrl(s1)} (12)
$$
其中D(s,a)被划分为两个子数据集，划分依据是第一个动作。具体而言，Db(s)包含那些第一个动作使用基线策略的轨迹，而Drl(s)包含其他轨迹。这是因为对结果影响最大的通常是第一个动作。然后可以利用公式(8)基于这些数据集计算策略改进置信度。
$$
C(si) ← D b(s), Drl(s) (13)
$$
强化学习策略在驾驶过程中被更新，这意味着由强化学习策略生成的动作不断变化，且收集的数据并非严格关联于最终的强化学习策略。这些问题将在强化学习策略训练过程（第四节-B）和混合策略生成模块（第四节-C）中进一步考虑。

B. 强化学习策略生成

根据公式(9)和(13)，策略改进置信度的计算不依赖于强化学习训练模型，但需要一个训练好的强化学习策略。本研究以深度Q学习模型为例来训练强化学习策略，而其他强化学习模型，例如PPO、SAC或TD3，也可应用于后续研究中。一个更好的强化学习策略可能有更多机会被激活，并进一步展现出更好的性能。深度Q学习使用如下更新规则:
$$
Q(st, at) ← Q(st, at)+ α[r(st+1)+ γ maxa Q(st+1, a) − Q(st, at)] (14)
$$
其中 α表示学习率。由于状态空间是连续的且具有高维度，深度Q学习使用神经网络来近似Q价值函数。深度Q学习中的Q价值函数定义为:
$$
θk+1 ← θk − α∇θ E[(Q(st, at, θ) − \hat{Q}(st, at))^2]
$$
$$
\hat{Q}(st, at)= r(st+1)+ γ maxa Q(st+1, a, θ−) (15)
$$
其中 θ和θ−表示预测Q值网络和目标Q值网络的参数，这些参数通过训练数据进行更新。 θ−在每nupdate=100次迭代后更新为 θ。该设置有助于网络更稳定地提升性能。(Q(st,at)) 2是训练的损失函数，其中Q(st,at)表示由公式 (2)中的贝尔曼函数计算得到的值。

为了高效地收集所需数据，CARL方法将强化学习训练过程设计为两个阶段：基线策略价值估计阶段和强化学习模型探索阶段。在第一阶段，自动驾驶汽车仅使用基线策略来收集数据集Db(s)。在第二阶段，强化学习策略可以探索与基线策略价值不同的动作以获得更好的性能。本文重点研究何时应触发强化学习探索，并采用贪婪算法进行探索。整体的数据收集与强化学习策略探索算法在算法1中进行了描述。

¯其中Gπ b(s(t))表示从动态更新的数据集D(s(t),ab)中估计的值。nb表示数据集D(s(t),ab)的大小。迭代次数表示总训练与评估的轮数。

在该算法的迭代过程中，自动驾驶汽车应选择是使用基线策略来收集更多数据，还是进行强化学习策略探索。有两种条件会阻止探索：1）基线策略尚未被充分评估，即nb <nthres；2）基线策略表现良好；第二种条件设定使用一个均匀分布的随机变量 ξ ∼ U(0, 1)。

示意图1

C. 混合驾驶策略

强化学习策略训练完成后，置信度感知强化学习框架将根据策略评估和置信度分析激活强化学习策略，以改进基线策略。图2展示了最终策略的生成过程。本节将详细描述相关内容。

当访问状态st时，该框架将首先根据基线策略评估数据D(st, ab(st))，利用公式(7)计算基线策略的真实值分布 P(Q(st, ab(st)))的累积分布函数（CDF）根据深度Q学习算法，arl= argmaxa∈AQ(st, a)。因此，强化学习策略的真实值分布应依赖于D(st, arl)。该策略选择最大的Q值，但实际上无法最大化改进基线策略的可能性。因此，该框架将对强化学习策略进行如下调整:
$$
a=
\begin{cases}
a_{rl}(st), & \text{if } P(Q(st, a_{rl}) − Q(st, a_b(st)) ≥ 0) ≥ c_{thres} \
a_b(st), & \text{else}
\end{cases}
(16)
$$
其中$ a_{rl}(st) = \arg\max_{a \in A} P(Q(st, a) − Q(st, a_b(st)) ≥ 0) $， $ P(Q(st, a)) $从收集的数据集D(st, a)中估计得到。根据公式(10)，cthres的最优值为0.5。

公式(16)选择更好的策略进行驾驶，并在置信度较低（即由较少案例训练得出）时避免激活强化学习。因此，即使在有限数据的情况下，最终性能也能优于基于规则的策略和强化学习策略。随着更多训练数据的加入，CARL可以在更多时间激活强化学习策略，这意味着策略可以逐步改进。下一节将在一个示例场景中实现CARL，以展示这些优势。

V. 案例研究

A. CALR评估设置

1) 评估环境设置：为了测试我们的方法，我们使用 Carla仿真器[25],设计了一个环岛场景，如图3所示。该环岛包含两条车道，车辆可为安全或通行性而变道，并设有八个匝道，供交通汇入和驶出。该仿真环岛中的交通被设计为随机且激进。周围车辆包含卡车和轿车等多种类型，并在随机位置生成。每辆车辆都被设计为以激进且不确定的动作频繁地驶入和驶出该环岛。环境在每个步长持续生成车辆，形成随机的交通密度和场景。这种危险环境设置可以加速评估过程。此外，不确定环境使得自车在每次驾驶过程中都会遇到不同的周围交通状况。这将迫使生成的策略适应不确定的周围环境，并克服过拟合问题。该环岛场景为评估所提出的方法提供了环境，但并不限制其应用。其他场景也可以使用CARL方法生成驾驶策略。

示意图2

2) 评估方法和性能指标：本工作使用安全行驶距离来评估策略性能，如图4所示。即，自车自动驾驶车辆需在环岛中尽可能远地驾驶，直到与其他车辆发生碰撞。安全性能指标是平均安全行驶距离，通过每次碰撞间的行驶距离来量化，
$$
d_s = \frac{d}{\text{collisions}} (17)
$$
其中d 表示在 ∼10 h驾驶中自动驾驶车辆的总行驶距离。

这种安全驾驶评估方法给驾驶策略带来了日益增加的难度，并导致高风险。自车不仅需要应对周围车辆的汇入，还需考虑它们在正常行驶时的行为，例如车道保持、换道以及驶出环岛。这三种类型的周围车辆及其随机初始位置的组合将形成越来越复杂的交通场景。例如，当自车在环岛内行驶一圈时，可能同时遭遇五次周围车辆汇入、三次驶出和六次换道。碰撞可能以多种方式发生。我们在图5中绘制了一些碰撞示例。这样的环境带来了一个高维度的驾驶问题，使得设计一个能够应对所有情况的完美策略变得困难。然而，该环境更贴近自然驾驶，因为真实的驾驶过程并不是一些独立案例的简单连接。

示意图3

3) CARL方法实现可信提升的预期结果：本工作最显著的优势是通过训练不足的强化学习策略实现“可信提升”。因此，CARL应在以下条件下进行评估：1）给定一个可能引发碰撞的基于原则的策略；2）强化学习策略缺乏足够的训练数据。预期结果是CARL策略能够优于基于原则的策略，而单独的强化学习策略则无法做到这一点。这些结果应来自这三种方法碰撞风险的比较。如果该结论成立，则进一步改进基于原则的策略或训练强化学习策略将提升 CARL系统的最终性能。

该问题的强化学习框架细节在第五节B部分中给出，包括状态空间、动作空间、奖励和训练参数。为了评估训练不足的强化学习策略所带来的“可信提升”，本工作在CARL框架中设计了一种固定的基线原则‐based策略，如第V-C节所述。

示意图4 由并入车辆引起的碰撞；(b)由驶出车辆引起的碰撞；(c)由正常行驶车辆引起的碰撞：自车正在变道以避免与前方车辆发生碰撞，但后方车辆未能及时减速。)

B. 强化学习设计

1) 状态空间：对于一般的状态空间表示，设计了一个场景转换器，用于将此环岛场景转换为具有多个匝道的双车道直线道路。状态空间定义为
$$
s \in S, s={q_e, q_{0f}, q_{0r}, q_{1f}, q_{1r}} (18)
$$
其中$ q={x,y, \dot{x}, \dot{y}} $表示车辆在转换后的车道坐标系中的运动学状态。x表示沿车道到原点的距离，y表示相对于中心线的横向偏移。q的下标数字表示车道编号，下标 f,r分别表示位于自车前方/后方的相邻车辆。通常情况下，最多有五辆周围车辆。如果在指定位置没有实际车辆，则由一个默认的虚拟车辆占据状态空间，该虚拟车辆不会影响自车的决策。

将环岛场景转换为直线道路的原因是为了以简洁的方式统一状态空间表示，这对强化学习训练至关重要。具体而言，描述车辆状态不仅需要位置和速度，还需要与车道及周围车辆的关系，例如车辆行驶在哪条车道上，或位于另一车辆的前方还是后方。使用自然世界坐标系（WCS）在缺乏车道信息的情况下难以高效描述这些必要关系。因此，我们构建了车道坐标系（LCS）。该系统通过将中心线作为参考路径，将环岛的弯曲车道转换为直线车道。x、 y值便可直接表示车辆与车道之间的纵向和横向关系。该策略实现了更好的可扩展性，即使用一个统一模型来处理各种场景。

此处以一条车道为例来构建LCS。在环岛场景中，车道的起点和终点相同，均为自车的对侧（即最远）位置。该车道的中心线沿车辆的行驶方向延伸。然后按如下方式构建LCS:
$$
h(t)= \frac{c_0}{c_i} \int_0^t (|c’(σ)|)dσ, c(s)= c(t(h))
$$
$$
T = \frac{dc}{dh} / \left|\frac{dc}{dh}\right|, N = \frac{dT}{dh} / \left|\frac{dT}{dh}\right|, \frac{dN}{dh} = -κ T, θ= \arctan \frac{T_y}{T_x} (19)
$$
其中s(t)表示从起点到沿中心线某一点的长度，该点在WCS中的坐标为h(s)。T和N分别表示切向量和法向量。ci表示第ith条环岛车道的半径，使得两条车道在LCS中的车道长度相同。以下方程将观测到的车辆状态从WCS转换到LCS。
$$
x(h, l)= c(h)+ l(h) w N_r(h)
$$
$$
l=[x −c]^T w N_c(h)
$$
$$
v_x= | \dot{x} |, θ= θ_x − θ_c
$$
$$
\dot{l}= v_x \sinθ
$$
$$
\dot{h}= \dot{x} − \dot{l} N_c (1 − κr)l T_c
$$
$$
y_l= l+ l_id (20)
$$
˙其中 x, x表示在WCS中的车辆观测状态，而(h, yl, ˙h, ˙l)表示在LCS中的对应坐标。 c(s)表示中心线上的点，受约束条件(c(s)−x) · Tc= 0限制。带有下标c的变量表示该点的属性。w表示车道宽度，在LCS中为1。此设置使得在不同LCS中计算车辆坐标时，yl保持一致。

状态空间中的前方和后方车辆可以按如下方式计算:
$$
∀q_i=(h_i, y_l^i, \dot{h} i, \dot{l}_i) \in L {id}, s.t.
$$
$$
(|y_l^i − l_{id}| ≤ 0.5) ∨ |y_l^i − l_{id}| ∈[0.5, 1) ∧(y_l^i − l_{id})\dot{l} i< 0
$$
$$
⇒ q {id,f}= \arg\min_{q_i∈L_{id},h_i>h_e}(h_i − h_e)
$$
$$
q_{id,r}= \arg\max_{q_i∈L_{id},h_i<h_e}(h_i − h_e) (21)
$$
其中 Lid表示在ith车道上的车辆。变道进入该车道的车辆也被考虑在内。

使用LCS，为直路开发的策略可用于环岛场景。远离车道的车辆将被删除。

2) 动作空间： LCS中的动作空间定义如下:
$$
a=(\ddot{x} e, y {lc} \in A)
$$
$$
a \in{a_b^t,{a_c^t}} (22)
$$
其中 ¨xe表示纵向加速度，从紧急制动、一个加速值、轻微减速值和零中选择，用于调整或保持车速。ylc的值被假定限制在集合{0, 1/klc,−1/klc}内，代表保持车道（0)、向右换道（−1/klc)和向左换道（1/klc)。完成一次完整的换道至少需要在相同方向上连续做出klc次换道决策。在本研究中，klc设为6。结合 ¨xe,ylc构成驾驶候选动作集。此外，动作空间还包含基线策略动作ab t。

时间步长选择 t= 0.75，依据驾驶员反应时间（约 0.7秒至1.5秒）以及平滑驾驶与快速计算之间的权衡。也可以选择其他 klc和 t的值。由于动作之间的时间步长较长，车辆应遵循一条平滑的轨迹，以连接当前状态x0, y0, ˙x0, ˙y0与期望的终端状态˙ ˙x1, y1,x1, y1：
$$
p(t)=(2t^3 −3t^2+ 1)p_0+(t^3 −2t^2+ t)m_0
$$
$$
+(−2t^3+ 3t^2 )p_1+(t^3 − t^2 )m_1, t \in[0, 1] (23)
$$
其中，p(t)表示曲线上的点。p0=[x0 ,y0] T和 p1=[x1 ,y1] T分别表示自车当前位置和目标位置。 m0 =[ x˙0 , ˙ y0 ] / | [ ˙ x0 , ˙ y0 ] |和 m1 =[ ˙x1 , ˙y1 ] / | [ ˙x1 , ˙y1 ] |分别表示自车起始切线方向和目标终点方向切线，分别对应。这是三次埃尔米特样条曲线。最后，应根据公式(20)将轨迹转换到世界坐标系中。

此外，动作空间应受到控制模块能力的限制，以确保自动驾驶汽车能够跟踪规划的轨迹。这可以使评估结果直接反映规划器在随机环境中的轨迹规划能力。该CARL系统通过根据规划轨迹的特征从动作空间中剪枝非法动作，来增加控制器能力约束。即，在每个时间步长计算动作之前，系统会首先检查所有候选轨迹，然后将不符合控制器要求（如曲率过大）的轨迹从动作空间中剪枝。预览控制算法[26]能够在较宽的速度范围（例如，从0到50 km/h）内跟踪横向加速度小于0.5g的轨迹。在我们仿真的大部分时间内，它能够跟踪期望的轨迹。已设计一种屏障控制以保证有界的跟踪误差[27]。为了公平比较，在评估过程中，该控制器能力约束将同等应用于所有规划器。

3) 奖励函数：奖励函数根据公式(4)定义。终止集 T 仅包含由Carla检测到的自车发生碰撞的状态。

C. 基线基于原则的策略

基线基于原则的策略在纵向规划中使用智能驾驶员模型（IDM）[28]，在横向规划中使用最小化变道引起的制动（MOBIL）[29]模型。两者均为广泛使用的驾驶策略，但也可采用其他驾驶模型。基线策略中使用的所有状态和动作均在LCS中定义。该设置使其易于在其他基于车道的场景中应用该策略。公式（24）展示了IDM模型。
$$
\ddot{x}= a\left[1 −\left( \frac{\dot{x}}{\dot{x}_0} \right)^δ −\left(\frac{g_0+ T \dot{x}+ \dot{x}Δ\dot{x}}{2\sqrt{ab}} g \right)^2 \right] (24)
$$
其中x为自车位置； ˙x和 ¨x分别为车辆的速度和加速度； ¨x 0为期望的自由流速度；g为自车与前车之间的实际间距及其前车和g0, T,a与b是决定车辆期望间距的参数，如表II所示。

公式(25)展示了用于规划横向运动的MOBIL模型。当满足以下条件时，会产生变道动机:
$$
\bar{\ddot{x}} e − \ddot{x}_e+ p(\bar{\ddot{x}}_n − \ddot{x}_n+ \bar{\ddot{x}}_o − \ddot{x}_o)> a {th} (25)
$$
¯其中， ¨x和 ¨x分别表示自车当前时刻的状态以及变道后的状态。下标e表示自车的状态，n,o分别表示新的后车和原来的后车。此外，p和 ath为模型参数，如表 II所示。

所有参数均设置得较为激进，例如期望速度高于周围交通的速度。采用激进的基线策略将提高驾驶灵活性，同时强化学习也能找到更多机会来改进该策略。

D. 数据收集和强化学习训练

数据收集和强化学习训练遵循算法1，耗时约41小时。在此过程中，CARL框架将寻找探索和学习的机会，以实现更好的性能。

为了展示基线策略的数据分布，我们将20维数据边缘化为二维，即自车速度和到环岛中心的距离，以表示车道。该分布如图(6)所示。

图7显示了所有基线策略数据的回报值G，其中超过90 %的情况高于 −0.2，这意味着基线策略在大部分时间内都能安全驾驶。然而，在某些情况下可能发生碰撞，例如当有车辆切入并突然刹车时。此时，强化学习策略将探索其他动作。

在本研究中，探索模块在训练期间激活了超过3,500次。我们还将通过强化学习策略收集的20维数据降维为2D数据，如图8所示。整体驾驶策略由公式(16)生成，基于收集的数据和置信度指数设计。图6和图8表明，在训练过程中，基线策略和强化学习探索均无法覆盖整个状态空间。数据驱动的强化学习策略在训练不足的情况下可能失效。

示意图5 数据的直方图； (b)通过高斯混合模型拟合的数据概率密度函数。x和y坐标表示状态空间二十维中的两个维度，即行驶车道和自车速度。)

示意图6

示意图7 数据的直方图；(b)通过高斯混合模型拟合的数据概率密度函数。x和y坐标表示状态空间二十维中的两个维度，即行驶车道和自车速度。)

E. 仿真结果

1) 不同置信度阈值下的CARL性能：我们首先设计仿真，以测试在不同置信度阈值设置下生成的CARL性能。该阈值决定了强化学习策略的激活条件。置信度阈值cthres被设置为6个不同水平，即0、0.25、0.5、0.75、0.95，如表III所示。

自车在仿真中行驶了约60小时和1200公里。仿真结果如表IV所示，其中安全指标为每次碰撞的平均距离，定义见公式(17)。

在表IV中，随着置信度阈值的增加，强化学习策略的激活率从4.02%下降到1.41%，此外包括强化学习策略（c thres= 0）和基线策略（c thres= 1）。更高的置信度阈值意味着对强化学习策略的可靠性提出了更严格的要求。

示意图8

示意图9

纯基于规则的基线策略的安全性能为0.46公里/碰撞，且碰撞通常是由于该基线策略对某些情况响应不佳所导致正在驶出或并入的车辆。该基线策略的碰撞率高于通用策略，但为CARL规划器提供了更多评估薄弱情况的机会，从而进一步加速了验证过程。纯强化学习策略的表现更差，即0.25公里/碰撞，因为在强化学习训练中未包含基线策略表现良好的大多数情况。这证实了CARL中的纯强化学习策略并未得到充分训练。

使用置信度感知的强化学习，安全指标在不同置信度阈值设置下显著提升，从(0.25,0.46)提高到(0.74,0.93, 1.03,1.10)。我们认为这主要归因于两个原因：首先， CARL方法能够评估基线策略的复杂场景，并仅在这些情况下激活强化学习策略；其次，激活的强化学习策略必须经过良好训练，即具有高置信度。通过这种方式，所提出的方法充分考虑了强化学习训练中的不确定性，并利用了其自主学习能力。根据图10，CARL规划器并非始终激活强化学习策略，但其性能仍优于基线策略和纯强化学习策略。

如果这一结论成立，我们便可以在实际应用中进一步使用良好调优的基于原则的策略，并利用大量数据训练强化学习策略，以实现更安全的CARL性能。最终的性能有望超越最优人工设计策略，并避免强化学习策略的意外行为。

此外，置信度阈值的设置体现了对策略改进概率的要求。与我们的分析一致，当cthres= 0.5时，我们获得了最安全的结果。当cthres= 0.95时，仿真结果证实了在强化学习的置信度较高时，置信度感知强化学习算法能够提升基线策略。

2) CARL驾驶示例案例：在使用置信度感知强化学习策略进行测试时，我们发现了一个强化学习策略改进基线策略的示例案例，如图11(a)所示。

在此场景中，基线策略正在车道内向前驾驶。同时，内侧车辆正试图驶出环岛。在Carla仿真中，周围车辆可能会激进地驶出环岛，而自车没有足够的距离对该车辆做出响应，可能导致侧面碰撞。

置信度感知强化学习策略可以发现基线策略在此场景中可能失效，并提前使自车自动驾驶车辆减速，如图11(b)所示。因此，所提出的方法可以从过去的失败中学习，并改进基线策略以适应周围环境。

示意图10

3) CARL 性能提升与更多训练数据：置信度感知强化学习的另一个显著优势是能够在具有可靠的性能下限的同时逐步提升算法性能。为了验证这一结论，我们在训练过程中记录了一些中间训练策略及相应的训练数据。自车使用每个中间训练策略在上述环岛环境中驾驶约1小时。结果如图12所示。

在仿真结果中，所有中间CARL策略的性能均优于基线策略（即训练时间为0）。这表明CARL能够改进基线策略，即使强化学习策略尚未收集足够的数据且未完全训练好。此外，随着收集的数据增多和训练的进行，自车自动驾驶车辆的安全性能从0.5提升到1.2公里/碰撞，强化学习模型有更多的机会被激活，即激活率从0%提高到4%。这意味着所提出的框架可以逐步改善算法性能始终优于基于规则的自动驾驶系统。当首次在实车上应用强化学习策略时，这一特性极为重要。

示意图11

第六节结论

本文中，我们提出了一种置信度感知强化学习框架。该CARL框架包含一个基于原则的策略和一个强化学习策略。自动驾驶汽车始终根据两个策略的价值函数选择更优的驾驶策略。此外，CARL方法能够分析强化学习策略的学习位置，并避免在训练数据较少的情况下激活强化学习策略。这种设置可以避免由于训练不足导致的强化学习策略异常行为，从而提高其可靠性。同时设计了置信度阈值以最优地激活强化学习策略，最优的置信度阈值设置为 0.5。

该框架在使用开源模拟器Carla的双车道环岛中进行了测试。经过约60小时、1200公里的模拟驾驶后，置信度感知强化学习相比基于原则的策略和纯强化学习策略实现了更好的性能。随着更多训练数据的加入，CARL将在更多时间内激活强化学习策略，并提升驾驶性能。

一般来说，置信度感知强化学习能够根据训练数据来分析所学策略性能的置信度，并避免进入强化学习策略准备不足的区域。基于原则的基线策略提供了性能的下限，当强化学习策略置信度较低时，默认使用该策略。