Mechanistic Interpretability of Emotion Inference in

Large Language Models

大型语言模型中情感推断的机制可解释性研究

发布于 2025年2月8日 ACL2025

实验代码:aminbana/emo-llm: Official Repo for "Mechanistic Interpretability of Emotion Inference in Large Language Models"

原文链接:[2502.05489] Mechanistic Interpretability of Emotion Inference in Large Language Models

  • 简介

LLM在从文本预测人类情绪方面展现出巨大的潜力,但是其情感推断内部机制仍然是一片空白。该篇论文填补了这一空白。

通过引入心理学中的认知评价理论,作者发现模型中层(mid-layers)的多头自注意力机制(MHSA)在情绪推理中起关键作用,并可通过干预这些机制实现对模型情绪输出的精准控制。

这项研究揭示了一种新型因果干预与控制情感推断的方法,有望在敏感的情感领域提升安全性并促进情感协调。

  • 实验
  1. 实验目的

找出大模型在哪一层、用哪种机制“想明白”了文本的情绪,并验证能不能人为干预这些机制来“改情绪”。

  1. 数据集

crowd-enVENT数据集,该数据集包含6,800个情感场景描述,每个场景都标注了自我报告的情绪(从13个选项中选取)及23项自我评估变量,这些变量能细致反映对刺激的评价,包括愉悦/不愉悦、自主性/他人主导性、可预测性/突发性等维度。

  1. prompts模板

  1. 选取的分析样本

仅仅分析LLM与人工标注同一标签的样本,以确保在评估的样本中,模型的内部机制可靠。


5、模型架构选取

为评估模型规模与架构差异的影响,我们选取了多款不同架构的模型系列进行测试。

  1. 实验原理

先前的研究表明,MHSA和FFN单元在特定下游任务中共同驱动生成过程

基于线性表征假说,我们提出以下的公式,用于从模型的内部激活向量中预测情绪类别。

6、实验结果

实验发现,准确率在中间层后就没有太大的变化,这说明,模型的输出情感主要由中间层决定,后续层级的处理贡献微乎其微。

7、activation patching验证

为了验证实验结果的争取性,实验者采用了activation patching 方法,即把“来源句子”的中层激活贴到“目标句子”里,看能不能把目标的情绪预测强行改成来源的情绪。

实验结果表明,中层的确是模型决定情绪的咽喉要道。

为了进一步的研究,我们分析了MHSA和FNN单元的补丁效应,FNN单元的效果最好的激活层出现的比MHSA出现的要晚。这说明,MHSA单元更为重要。

为了再次验证MHSA单元的重要性,作者还进行了一次knock-out(敲除)补充实验,敲掉MHSA单元后,情绪预测的准确率下降显著。这说明,MHSA单元的确更为关键。

  • Appraisal评估实验
  1. 实验目的

结合心理学中的“认知评价理论”,去验证并操控 LLM 的情绪表征,证明模型在中层达到好的效果。

  1. 实验原理

对每层、每个 appraisal 维度独立训练 ridge 线性回归

这样就可以把模型里抽象的向量翻译成看得懂的心理学概念——appraisal参数

计算每一层、每一位维度的R²(探针预测值与人工标注值之间的吻合程度),探索在哪一层表现好。

通过计算appraisal a和emotion e的余弦相似度,我们可以得到评价对情绪判断的影响。

我们对指定层进行干预

  1. 实验结果

①中层 R² 峰值与情绪探测同层,说明 appraisal 信息在该层线性可解码且与情绪决策同步达到最强,为模型提供了构建情绪表征的关键基础。

②浅层 appraisal 与 emotion 方向高度重合,中层开始解耦,说明模型已完成利用评价特征构建情绪表征的阶段,转入仅保留判别边界的纯分类模式,不再线性依赖原始评价坐标。

③在中间层进行干预会导致会影响情绪检测,说明中间层是因果可控的决策咽喉点。

  • 思考与感想

LLM在浅层学习评价体系,中层完成情感判断,深层做细节优化,我更加清晰地认知了大模型在SA问题上的工作原理。

在未来的研究中,我们或许可以思考以下几个方面:

  1. 大模型在中层就已经基本完成了情感分析功能的实现,深层的计算负责了细节的优化和细粒度的修饰,那有没有什么方法可以使得在中期就完成细粒度的修饰?可不可以实时测试大模型的SA任务能力,在合适的层停止,兼顾效率和精度。
  2. 我们可以在中间层做干预,那么是不是可以在中间层做优化,实现模型更高效或者更准确。(感觉和第一点有点重合了)

更多推荐