NeurIPS 2024｜解密大语言模型拒绝回答机制

实验采用“方向消融”的策略，即在模型的残差流中移除与拒绝行为相关的特征分量，使模型在生成响应时不再沿该方向进行表示传播。而当拒绝方向被消融后，模型的拒绝率显著下降，生成的回答中开始出现明确的违规或有害内容。这一实验清晰地表明，拒绝方向不仅与安全防护相关联，更是拒绝行为的直接因果触发源，其存在足以单独诱导模型产生拒绝响应，从而验证了该方向在行为层面的因果作用。研究发现，模型的“拒绝回答”行为可以用一

鬼道2022

1501人浏览 · 2025-11-05 11:07:38

鬼道2022 · 2025-11-05 11:07:38 发布

1 引言

由苏黎世联邦理工学院和麻省理工学院等机构的研究者联合完成的论文《Refusal in Language Models Is Mediated by a Single Direction》发表于NeurIPS 2024。该研究系统性地探讨了大语言模型在面对有害或违规指令时产生拒绝行为的内部机制。论文通过对13种主流开源聊天模型的深入分析发现，这些模型在经过安全微调后，其拒绝行为实际上可被归结为一个统一的、一维线性子空间——即拒绝方向。研究者进一步指出，只需对模型内部残差流中的该方向进行干预：移除它即可使模型不再拒绝任何请求，反之则会让模型对普通指令产生过度拒绝。基于这一发现，作者提出了一种无需重新训练的“权重正交化”白盒越狱方法，该方法能够在保持模型主要能力不变的前提下，完全解除其安全限制。该研究揭示了现有安全微调机制的脆弱性，并展示了从模型内部理解与精确控制语言模型行为的新途径。

2 研究背景

在大语言模型安全与可解释性领域，研究者长期关注模型在面对有害指令时的响应机制，即“拒绝行为”。然而，在该论文之前，学界对这一行为的内部结构尚缺乏统一的解释。过去的研究多从不同角度探讨模型的安全性与内部表示，但仍存在以下局限：

缺乏统一的因果表示视角：多数工作将拒绝视为由多个神经元或层级共同决定的复杂机制，未能找到其核心控制变量。
对越狱机制缺乏机制性解释：虽然已有大量越狱攻击取得成功，但这些方法大多基于经验或启发式，而非源于模型内部结构的理解。
缺乏稳定的可操控手段：以往方法多依赖梯度优化或微调，操作复杂且容易破坏模型其他能力。

为清晰展示该论文与前人工作的区别，下面列出了一张对比表：

类别	代表研究	方法概述	局限性	本文创新
安全性削弱	E-Disalign	分析安全微调引发的安全问题	仅基于输出层分析，缺乏内部机制解释	从模型表示出发，揭示“一维拒绝方向”
越狱攻击	UTA	优化后缀触发拒绝绕过	成功率高但机制不明	揭示后缀通过抑制拒绝方向实现越狱
可解释性	COSMIC	识别激活空间中的拒绝方向	覆盖模型少，验证有限	验证拒绝子空间的普遍性

本论文旨在回答一个关键问题：语言模型在面对有害请求时的“拒绝行为”是否由某种单一、可解释的内部表示所驱动。为此，作者提出“一维拒绝子空间假设”，证明拒绝行为可由单一方向控制；并设计了“线性干预方法”与“权重正交化白盒越狱”，可在无需微调的情况下精确操控模型拒绝行为，同时揭示了adversarial suffix通过抑制该方向传播实现越狱的机制。该研究首次揭示拒绝行为的线性本质，提出高效、可解释的安全解除方法，为理解与控制大语言模型的安全机制提供了新的理论框架。

3 论文方法

该论文的核心思想是：语言模型内部其实像一个“特征空间”，不同的行为（比如拒绝或回答）都对应某个方向。研究发现，模型的“拒绝回答”行为可以用一个单独的线性方向来表示——即在模型内部有一根“拒绝轴”，如果模型在这个方向上的信号比较强，它就倾向于拒绝回答；反之，如果这个信号被削弱，模型就更可能正常作答。

3.1 残差流与层内激活表示

设输入的 token 序列为 $(t_1, t_2, \dots, t_n)$ ，模型隐藏层维度为 $d_{\mathrm{model}}$ 。对于Transformer的第 $l$ 层和第 $i$ 个token，其残差激活表示为 $x_i^{(l)} \in \mathbb{R}^{d_{\mathrm{model}}}$ ，每层的更新过程如下： $\tilde{x}_i^{(l)} = x_i^{(l)} + \text{Attn}^{(l)}(x_i^{(l)}), \quad x_i^{(l+1)} = \tilde{x}_i^{(l)} + \text{MLP}^{(l)}(\tilde{x}_i^{(l)}).$ 该残差表示捕捉了模型在逐层生成响应时的语义信息流。论文通过分析这些激活层的表示，识别出了与“拒绝行为”相关的线性特征方向。

3.2 拒绝方向的提取

论文采用对比均值差分法来提取“拒绝方向”。定义两类输入数据集：有害指令集合 $D_{\text{harmful}}$ 和无害指令集合 $D_{\text{harmless}}$ 。对于第 $l$ 层第 $i$ 个位置的激活向量，分别计算其在两类数据集上的均值： $\mu_i^{(l)} = \frac{1}{|D_{\text{harmful}}|}\sum_{t\in D_{\text{harmful}}} x_i^{(l)}(t), \quad \nu_i^{(l)} = \frac{1}{|D_{\text{harmless}}|}\sum_{t\in D_{\text{harmless}}} x_i^{(l)}(t)$ 由此得到拒绝方向候选向量： $r_i^{(l)} = \mu_i^{(l)} - \nu_i^{(l)}$ 随后，在所有层与位置上选择最具判别力的向量： $r_{i^*}^{(l^*)}, \quad \hat{r} = \frac{r}{\|r\|_2}$ 最终得到的向量 $\hat{r}$ 即为“拒绝方向”，表示拒绝行为在激活空间中的一维线性子空间。

诱发拒绝行为：
对于第 $l$ 层的残差激活向量 $x^{(l)} \in \mathbb{R}^{d_{\mathrm{model}}}$ ，通过在该层添加“拒绝方向” $r$ （未归一化）可以增强模型的拒绝倾向： $\hat{x}^{(l)} = x^{(l)} + \alpha r,$ 其中， $x^{(l)}$ 表示原始残差激活向量， $r$ 表示拒绝方向向量， $\alpha$ 表示缩放系数，用于控制拒绝强度。当 $\alpha$ 较大时，模型会在普通指令上也表现出明显的拒绝倾向。

消除拒绝行为：
为了削弱或消除拒绝行为，可以在残差空间中移除激活向量在“拒绝方向”上的分量。设 $\hat{r} = \frac{r}{\|r\|_2}$ 为归一化后的拒绝方向，则新的残差激活向量表示为： $\hat{x} = x - \hat{r}(\hat{r}^\top x)$ 其中， $\hat{r}^\top x$ 表示原始激活 $x$ 在拒绝方向上的投影强度， $\hat{r}(\hat{r}^\top x)$ 为该方向上的投影分量，减去该分量后得到的 $\hat{x}$ ，即在残差空间中去除了与拒绝行为相关的信息。通过这一操作，模型将无法再沿“拒绝方向”编码拒绝信号，从而显著降低其拒绝倾向。

3.3 权重正交化

为了将上述干预从一次性的激活修改扩展为永久性的结构变更，论文进一步提出了权重正交化方法。对所有写入残差流的权重矩阵 $W_{\text{out}}$ ，进行如下变换： $W_{\text{out}} = W_{\text{out}} - \hat{r}(\hat{r}^\top W_{\text{out}})$ 其中， $W_{\text{out}} \in \mathbb{R}^{d_{\mathrm{model}} \times d_{\mathrm{out}}}$ 表示某一层将信息写入残差流的权重矩阵， $\hat{r} = \frac{r}{\|r\|_2}$ 为归一化后的“拒绝方向”向量且 $\hat{r} \in \mathbb{R}^{d_{\mathrm{model}}}$ ， $\hat{r}^\top W_{\text{out}}$ 表示权重矩阵中在拒绝方向上的投影， $\hat{r}(\hat{r}^\top W_{\text{out}})$ 表示该投影分量在原空间的重构。通过从原权重中减去该分量，使新的权重矩阵 $W_{\text{out}}$ 与拒绝方向 $\hat{r}$ 保持正交，从而在参数层面阻断模型沿该方向写入激活信息。这一过程等价于在训练完成后永久移除模型内部的拒绝机制。

4 实验结果

4.1 拒绝方向的消融实验

该实验旨在验证语言模型的拒绝行为是否由单一线性方向所介导。在13个主流开源聊天模型上进行了系统性测试，涵盖不同架构与规模的模型（如 LLaMA-2/3、Qwen、Yi、Gemma等），并在JAILBREAKBENCH数据集中的100条典型有害指令上进行评估。实验采用“方向消融”的策略，即在模型的残差流中移除与拒绝行为相关的特征分量，使模型在生成响应时不再沿该方向进行表示传播。实验结果如下图所示，在未干预的情况下，各模型几乎总是拒绝执行有害请求，呈现出较高的拒绝率与安全得分；而当拒绝方向被消融后，模型的拒绝率显著下降，生成的回答中开始出现明确的违规或有害内容。这一结果强有力地表明，拒绝行为确实被集中编码在模型内部的一个一维线性子空间中，并且该方向的存在是触发拒绝机制的关键因素。

4.2 拒绝方向的激活添加实验

为了进一步验证拒绝方向的因果有效性，研究者设计了“激活添加”实验，该实验与方向消融互为补充，旨在从反向角度证明这一方向确实能够主动触发模型的拒绝反应。在与前一实验相同的13个开源模型上进行测试，并从ALPACA数据集中选取100条语义上完全无害的指令作为输入。结果如下图所示，在未进行任何干预时，模型会正常回答用户请求，不表现出拒绝行为；而当添加拒绝方向后，模型即使面对普通指令也会产生过度防御反应，如输出“我无法提供此类信息”或“该请求可能不安全”等拒绝性回答。这一实验清晰地表明，拒绝方向不仅与安全防护相关联，更是拒绝行为的直接因果触发源，其存在足以单独诱导模型产生拒绝响应，从而验证了该方向在行为层面的因果作用。

4.3 权重正交化白盒越狱

为验证拒绝机制能否被结构性修改移除，作者提出“权重正交化”方法：在参数层面将所有写入残差流的权重（注意力输出、MLP 输出、词嵌入及偏置）与提取出的“拒绝方向”正交化，使模型不再向该方向写入激活，从而从根本上阻断拒绝信号。研究在 HARMBENCH 基准上测试了该改动的效果，结果表明：对Qwen系列模型实施正交化后，攻击成功率超过 80%，明显优于传统微调或对抗后缀攻击，同时在 MMLU、ARC、GSM8K等常规评测上的性能几乎无损。该实验说明，拒绝机制可以通过一次线性参数修改被高效且有选择性地解除，为基于模型结构的安全研究提供了新的可行路径。