大型语言模型中情感推断的机制可解释性研究

为了验证实验结果的争取性，实验者采用了activation patching 方法，即把“来源句子”的中层激活贴到“目标句子”里，看能不能把目标的情绪预测强行改成来源的情绪。为了进一步的研究，我们分析了MHSA和FNN单元的补丁效应，FNN单元的效果最好的激活层出现的比MHSA出现的要晚。实验发现，准确率在中间层后就没有太大的变化，这说明，模型的输出情感主要由中间层决定，后续层级的处理贡献微乎其微

Samdy L

775人浏览 · 2025-10-13 19:06:52

Samdy L · 2025-10-13 19:06:52 发布

Mechanistic Interpretability of Emotion Inference in

Large Language Models

大型语言模型中情感推断的机制可解释性研究

发布于 2025年2月8日 ACL2025

实验代码：aminbana/emo-llm: Official Repo for "Mechanistic Interpretability of Emotion Inference in Large Language Models"

原文链接：[2502.05489] Mechanistic Interpretability of Emotion Inference in Large Language Models

简介

LLM在从文本预测人类情绪方面展现出巨大的潜力，但是其情感推断内部机制仍然是一片空白。该篇论文填补了这一空白。

通过引入心理学中的认知评价理论，作者发现模型中层（mid-layers）的多头自注意力机制（MHSA）在情绪推理中起关键作用，并可通过干预这些机制实现对模型情绪输出的精准控制。

这项研究揭示了一种新型因果干预与控制情感推断的方法，有望在敏感的情感领域提升安全性并促进情感协调。

实验

实验目的

找出大模型在哪一层、用哪种机制“想明白”了文本的情绪，并验证能不能人为干预这些机制来“改情绪”。

数据集

crowd-enVENT数据集，该数据集包含6,800个情感场景描述，每个场景都标注了自我报告的情绪（从13个选项中选取）及23项自我评估变量，这些变量能细致反映对刺激的评价，包括愉悦/不愉悦、自主性/他人主导性、可预测性/突发性等维度。

prompts模板

选取的分析样本

仅仅分析LLM与人工标注同一标签的样本，以确保在评估的样本中，模型的内部机制可靠。

5、模型架构选取

为评估模型规模与架构差异的影响，我们选取了多款不同架构的模型系列进行测试。

实验原理

先前的研究表明，MHSA和FFN单元在特定下游任务中共同驱动生成过程

基于线性表征假说，我们提出以下的公式，用于从模型的内部激活向量中预测情绪类别。

6、实验结果

实验发现，准确率在中间层后就没有太大的变化，这说明，模型的输出情感主要由中间层决定，后续层级的处理贡献微乎其微。

7、activation patching验证

为了验证实验结果的争取性，实验者采用了activation patching 方法，即把“来源句子”的中层激活贴到“目标句子”里，看能不能把目标的情绪预测强行改成来源的情绪。

实验结果表明，中层的确是模型决定情绪的咽喉要道。

为了进一步的研究，我们分析了MHSA和FNN单元的补丁效应，FNN单元的效果最好的激活层出现的比MHSA出现的要晚。这说明，MHSA单元更为重要。

为了再次验证MHSA单元的重要性，作者还进行了一次knock-out（敲除）补充实验，敲掉MHSA单元后，情绪预测的准确率下降显著。这说明，MHSA单元的确更为关键。

Appraisal评估实验

实验目的

结合心理学中的“认知评价理论”，去验证并操控 LLM 的情绪表征，证明模型在中层达到好的效果。

实验原理

对每层、每个 appraisal 维度独立训练 ridge 线性回归

这样就可以把模型里抽象的向量翻译成看得懂的心理学概念——appraisal参数

计算每一层、每一位维度的R²（探针预测值与人工标注值之间的吻合程度），探索在哪一层表现好。

通过计算appraisal a和emotion e的余弦相似度，我们可以得到评价对情绪判断的影响。

我们对指定层进行干预

实验结果

①中层 R² 峰值与情绪探测同层，说明 appraisal 信息在该层线性可解码且与情绪决策同步达到最强，为模型提供了构建情绪表征的关键基础。

②浅层 appraisal 与 emotion 方向高度重合，中层开始解耦，说明模型已完成利用评价特征构建情绪表征的阶段，转入仅保留判别边界的纯分类模式，不再线性依赖原始评价坐标。

③在中间层进行干预会导致会影响情绪检测，说明中间层是因果可控的决策咽喉点。

思考与感想

LLM在浅层学习评价体系，中层完成情感判断，深层做细节优化，我更加清晰地认知了大模型在SA问题上的工作原理。

在未来的研究中，我们或许可以思考以下几个方面：

大模型在中层就已经基本完成了情感分析功能的实现，深层的计算负责了细节的优化和细粒度的修饰，那有没有什么方法可以使得在中期就完成细粒度的修饰？可不可以实时测试大模型的SA任务能力，在合适的层停止，兼顾效率和精度。
我们可以在中间层做干预，那么是不是可以在中间层做优化，实现模型更高效或者更准确。（感觉和第一点有点重合了）