Nat. Commun.|SafeTraffic Copilot：适配大型语言模型以实现可信的交通安全评估与决策干预

文章信息文章题目为《SafeTraffic Copilot: adapting large language models for trustworthy traffic safety assessments and decision interventions》，2025年发表在Nature子刊《Nature Communications》。本文将交通事故预测转换为文本推理，并实现了事故特征的归

当交通遇上机器学习

633人浏览 · 2025-10-16 11:01:01

当交通遇上机器学习 · 2025-10-16 11:01:01 发布

文章信息

文章题目为《SafeTraffic Copilot: adapting large language models for trustworthy traffic safety assessments and decision interventions》，2025年发表在Nature子刊《Nature Communications》。本文将交通事故预测转换为文本推理，并实现了事故特征的归因分析。

摘要

由于碰撞数据本身固有的复杂性，且人们一直对预测的可信度存在担忧，预测预期交通事故并设计有针对性的干预措施极具挑战性。本文推出了 SafeTraffic Copilot，它对大型语言模型（LLMs）进行适配，将预期碰撞预测作为一项文本推理任务来执行，随后为有针对性的安全干预确定关键特征。在 Copilot 中，SafeTraffic LLM 经过定制后，在文本化的 SafeTraffic 事件数据集上进行了微调，该数据集包含来自美国 5 个州的 66,205 个真实碰撞案例，文本量达 1,450 万字。在包括碰撞类型、严重程度和受伤人数等多项预测任务中，SafeTraffic LLM 与现有研究成果相比，平均 F1 分数提升了 33.3% 至 45.8%。为了解释这些结果并为安全干预提供依据，本文引入了 SafeTraffic Attribution，这是一个句子级的特征归因框架，能够实现条件性的“假设性”风险分析。研究结果表明，酒驾是造成严重碰撞事故的首要因素，与损伤相关的行为和攻击性驾驶行为带来的风险，几乎是其他行为的近三倍。此外，SafeTraffic Attribution 还能在微调过程中识别关键特征，为持续改进的碰撞数据收集策略提供指导。SafeTraffic Copilot 通过基础模型实现了对条件性碰撞风险的预测和推理，从而为改善交通安全提供支持，并在泛化性、适应性和可信度方面展现出明显优势。

引言

道路交通事故伤害仍是美国一项棘手的公共卫生危机。仅2022年，就有42,795人在美国道路上丧生——这是发达国家中人均死亡率最高的情况之一。尽管已有数十年的应对措施，但死亡人数曲线仍持续上升，尤其是在美国（如图1a所示），这凸显出迫切需要新的数据驱动技术，以揭示事故发生的机制并为果断的政策行动提供依据。预期事故预测模型（以下简称“事故预测”）提供了一种从历史数据中学习并分离出最能显著增加风险因素的规范方法。

当前的事故预测方法大致可分为宏观层面的统计分析和微观层面的事件调查。宏观模型能对安全性能有一个大致的了解，识别高风险区域和时间趋势，但缺乏解释事故具体情况（涉及谁、发生了什么、为什么发生）的细致程度。而微观模型通常采用机器学习，旨在预测特定交通条件下的事故后果，但在精确性和泛化性方面一直存在困难。一个根本挑战在于有效整合与事故事件相关的多模态数据，这些数据涵盖文本叙述、数值数据、图像和驾驶员历史，涉及解读促成因素之间复杂的相互作用，从而限制了它们在制定有效安全政策方面的效用。

基础模型（尤其是大型语言模型，LLMs）的近期出现，为缓解这些长期存在的挑战提供了变革性的机会，凭借其在处理和从复杂多模态信息中推理的先进能力。这些模型能够整合和解读大量无结构数据，例如事故报告中的叙述性描述，并将其与道路特征、驾驶员历史等结构化数据对齐，提供了比以往更全面的理解。然而，使这些强大的生成式模型适应事故后果预测这一区分性任务，带来了自身的一系列技术障碍。主要的挑战在于方法论层面：具有广泛输出词汇的生成式大型语言模型必须经过重新设计，才能在一组定义明确的有限类别（例如，事故严重程度等级）内可靠地预测结果。这种适配引发了对其预测的可信度和校准度的重大担忧，而这对于公共安全等高风险应用至关重要。此外，这些模型固有的“黑箱”特性，对于实现有针对性的安全改进所需的可解释性而言，是一个主要障碍。虽然初步研究已经探索了将大型语言模型用于交通安全领域，但这些研究仅限于提示工程，并且尚未解决关键的可解释性差距，而这种差距对于强大的决策支持以及回答关于事故原因的关键“为什么”和“如何”等问题是必不可少的。

在本研究中，引入了SafeTraffic Copilot，这是一个由大型语言模型驱动的框架，它将范式从汇总层面的统计转向细致的、事件层面的事故预测与理解（见图1b）。通过将事故预测重新构建为基于文本的推理任务，SafeTraffic Copilot 旨在解决数据整合、模型泛化和特征归因方面的关键挑战。该框架由三个集成组件组成：用于统一多模态事故数据的SafeTraffic Event数据集；用于准确输出预测的SafeTraffic LLM；以及用于条件风险分析的SafeTraffic Attribution。这种方法不仅能够预测事故发生的时间、地点、涉及人员和具体情况，还能深入、可解释地理解事故发生的原因，以及如何减轻类似风险，为有针对性且有效的数据驱动安全干预提供了统一的方法。

图 1

研究结果

SafeTraffic 归因框架

了解 SafeTraffic LLM 如何生成准确预测，以及输入提示的各个组成部分如何影响结果，对于实现基于证据的决策制定至关重要。在本文的分析中仅聚焦于严重事故（即致命和重伤事故），以确定这些事件背后的促成因素。如前所述，SafeTraffic LLM 的置信度分数与其对严重事故的预测准确率密切相关。因此，与严重事故预测相关的置信度分数（以下简称 “置信度分数”）可被用作事故风险等级的指标：置信度分数越高，对应严重事故的预测准确率就越高，这反过来又反映出实际中事故属于严重事故（而非轻微或无明显受伤）的可能性越大。值得注意的是，SafeTraffic LLM 的置信度分数往往低于其相应的准确率数值，这表明使用置信度分数是对风险的保守估计。

在 SafeTraffic 归因框架内，提出了一种基于句子的特征贡献计算方法，以确定每个句子如何基于夏普利（Shapley）理论对 LLM 的输出产生作用。夏普利理论被公认为是一种系统且公平的方法，用于将每个特征对模型输出的贡献进行归因，从而在事件层面揭示与事故相关的因素（详情见原文）。本质上，每个特征的贡献代表了它在模型对特定预测的置信度中所承担的责任份额。所有特征贡献的总和等于置信度分数本身。图 2 以华盛顿州和伊利诺伊州的各一起事故为例，展示了单个事故事件严重程度的句子级特征贡献。在华盛顿州的事故示例（图 2a）中，驾驶员行为（例如，鲁莽驾驶或超速）是导致重伤事故的主要因素，特征贡献为 0.258。人员信息（例如，未使用安全带）也显示出显著影响，特征贡献为 0.149。相比之下，动态信息（日光和干燥路面）以 -0.009 的负特征贡献降低了发生重伤事故的概率。而在伊利诺伊州的示例（图 2 b）中，升高的血液酒精浓度（BAC，特征贡献为 0.284）和施工区域的存在（特征贡献为 0.462）显著增加了致命事故结果的可能性。更多句子级特征归因分析可在补充部分 4.1 和 4.2 中找到。以下部分将利用 SafeTraffic 归因框架，从两个视角考察特征重要性：（1）在推理阶段，确定在各种条件和高风险场景下影响事故预测的关键因素；（2）在微调阶段，明确哪些数据对模型学习更为关键。

图 2

条件风险分析中推理阶段的因素归因

条件分析会评估不同场景下的事故结果，比如饮酒或不饮酒驾驶的情况，以量化与每个场景相关的风险因素。由于严重事故（重伤和致命事故）对交通安全至关重要，因此在条件分析中优先考虑这类事故。SafeTraffic LLM 能够准确且可靠地预测这些事故，尤其是致命事故。在该条件下，确定了五个关键促成因素：驾驶员血液酒精浓度（BAC = 0 mg/dL 或未提供 / BAC < 80 mg/dL/BAC ≥ 80 mg/dL）、道路类型（高速公路 / 非高速公路）、施工区域（施工区域 / 非施工区域）、用户类型（骑行者或行人 / 非骑行者或非行人）以及驾驶员行为（攻击性驾驶 / 与骑行者相关的行为 / 交通规则违反 / 其他）。总体而言，这些因素在预测严重和致命事故时，平均占模型总归因的 79.33%（见图 3b）。关键发现总结如下：

血液酒精浓度（BAC）记录成为预测严重和致命事故的关键决定因素。在所有促成因素中，BAC 占严重和致命事故预测总贡献的 25.26%（见图 3b）。值得注意的是，当驾驶员饮酒时，无论饮酒量多少，其贡献都会大幅增加。即使驾驶员的 BAC 未超过 80 mg/dL 的法定醉酒限值，该因素的特征贡献在许多情况下仍能达到约 0.35 - 0.44，超过了大多数其他因素（见图 3a）。相反，当驾驶员的 BAC 记录为 “零或未提供” 时，其贡献接近零，表明对模型预测几乎没有影响。

在清醒状态下，在施工区域驾驶已经存在风险，但饮酒会大大增加危险程度，使其成为重伤事故最危险的场景之一。如图 3a 所示，清醒时在施工区域驾驶（“施工区域 - 是” 且 “BAC = 0 或未提供”）对严重事故结果的贡献很小，平均特征贡献为 0.03。然而，饮酒后（无论 BAC 高于 80 mg/dL 还是低于 80 mg/dL），施工区域的特征贡献上升超过七倍，达到平均 0.22。此外，饮酒后在施工区域驾驶时，整体事故风险大幅增加，平均风险等级为 0.78，而清醒状态下为 0.44。这些发现表明，当涉及酒精消费时，施工区域会变得特别危险，成为重伤事故结果的最高风险场景之一。潜在的酒驾警告和风险缓解策略应与施工区域紧密关联。

攻击性和与损伤相关的行为导致严重事故结果的风险几乎是其他驾驶行为的三倍。如图 3c 所示，攻击性驾驶成为驾驶员行为中最重要的影响因素，中位特征贡献为 0.195。与损伤相关的行为，包括酒精或药物影响下的驾驶，也有很大影响，中位特征贡献为 0.154。相比之下，其他不当驾驶员行为，如交通规则违反（中位特征贡献为 0.055）和类似使用手机的分心行为（归类为不当驾驶，中位特征贡献为 0.015），对严重和致命事故的贡献低于平均水平。“其他” 类别，包括正常驾驶和未知行为，影响最小，特征贡献为 0.007。

风险因素的共同出现会大幅提高预期事故风险水平。如图 3a、c 所示，本文的分析显示，事故中存在的风险因素数量与重伤事故结果的预期风险水平之间存在很强的相关性。高风险因素被定义为在图 3c 中第 75 百分位贡献超过 0.2 的因素，包括饮酒后驾驶（BAC < 0 mg/dL）、在施工区域驾驶、涉及行人的事故以及高风险驾驶员行为（攻击性或与损伤相关的行为）。当没有风险因素存在时，重伤事故结果的平均风险水平估计为 0.47。存在一个风险因素时，该值增加到 0.59；存在两个时，增加到 0.68；当三个风险因素共同出现时，达到 0.73。这些发现表明，交通机构需要实施全面、多维度的干预措施，特别是在高风险条件重叠的场景中。

训练阶段的因素归因：助力高效数据收集与模型开发

事件信息和单元信息是模型训练最为重要的组成部分。尽管推理阶段的特征贡献揭示了哪些特征会引发关键的事故结果，但了解训练期间的特征贡献，能更深入地洞察哪些数据组成部分对提升模型准确性最为有效。如图 3d 所示，展示了华盛顿州和伊利诺伊州数据集中每个组成部分的特征贡献，这体现了它们在训练期间对模型性能的影响（详细结果见原文）。结果表明，在华盛顿州和伊利诺伊州的数据集中，对于严重程度任务而言，描述事故涉及主要实体属性的单元信息对模型性能的贡献最高（华盛顿州为 0.314，伊利诺伊州为 0.248）。在事故类型预测任务中，提供事故发生前车辆运动信息的事件信息贡献最高（华盛顿州为 0.388，伊利诺伊州为 0.283），其次是单元信息（华盛顿州为 0.257，伊利诺伊州为 0.279）以及其他组成部分。

图 3

讨论

将碰撞预测转化为文本推理任务，解锁了多模态安全数据的丰富性。通过将碰撞叙述、卫星和事故图像以及基础设施属性整合到统一的文本提示中，基础语言模型能够联合推理行为线索（如“酒精影响”“施工区域”）、碰撞前轨迹和环境背景，而非将它们视为相互独立的数字。本文的人工智能专家协同设计的提示，让大型语言模型（LLMs）超越传统基准，同时归因分数揭示了哪些因素组合（例如，损伤加施工区域）最能增加风险，从而指导有针对性的干预措施和更明智的数据收集优先事项。因此，这种多模态到文本的范式标志着一种强大的解决方案：整合不同的碰撞信息流到强大的基础模型中，不仅能提高预测准确性，还能产生可操作的见解，以实现持续的安全改进。

将丰富的数据与强大的基础模型引擎相结合，将预测从简单的分布拟合转变为情境感知推理，从而产生透明且可信的结果，且能跨区域泛化。在华盛顿州和伊利诺伊州，一旦置信度超过60%，准确率就超过70%，精度与置信度呈近乎线性关系——为不确定性提供了可量化的处理方式。此外，所提出的SafeTraffic归因组件将这种信任推进了一步：它按置信度对文本、视觉和分类线索进行排序，通过其对置信度的贡献突出最能增加风险的影响因素。值得注意的是，受酒精影响的驾驶使严重碰撞的置信度分数提高了0.47，突显了其关键作用。

SafeTraffic LLM的条件归因引擎通过风险对场景进行可信排名，揭示可操作的“假设”情况。在数据丰富的环境中，它能可靠地识别高风险情况，例如施工区域内受酒精影响或攻击性驾驶，从而采用针对性的应对措施，如现场血液酒精浓度（BAC）检测或行为靶向教育。关键的是，其概率置信度信号与准确性相关。当数据可获取时，同一框架可泛化；当数据稀缺时，可通过模拟对每个推荐进行量化（自由流几何等罕见且观察到的变量（行人存在、攻击性等）），分析师仍能获得可靠的风险变化。这使机构能够在碰撞发生前设计精确、基于证据的交通安全干预措施。

汇总的碰撞归因分析指出了碰撞记录中真正重要的元素，为更智能、面向未来的数据收集提供了通用蓝图，并可量化。目前，每个州都在设计自己的碰撞报告表格，导致跨机构的常见标准缺失，阻碍了全州范围的分析。在微调阶段，驾驶员行为、车辆属性和路段层面的细节（如驾驶员行为、车辆和道路特征）等元素成为受伤严重程度的最强预测因素，强调了全面、高分辨率捕捉酒精使用、车辆缺陷、易受伤害的使用者状态和道路状况的重要性，因为这些方面的差距会迅速削弱模型的性能。此外，汇总的数据质量分析提供了一种量化方法，用于评估数据属性，展示关键组件中缺失或不完整的值如何影响模型性能。将这些见解反馈到模板设计中，使机构能够标准化更一致的报告协议，推动持续、更稳健且跨区域可转移的模式改进，以在不影响通用性的情况下实现广泛的安全变革。

SafeTraffic Copilot的局限性和未来工作：一个主要局限性在于多模态数据的处理。在SafeTraffic Copilot中，卫星图像被处理成文本描述并纳入提示。虽然这种方法具有灵活性，但多模态基础模型和整合多模态数据与大型语言模型的研究提供了有前景的替代方案：利用专用图像编码器或使用多模态基础模型来处理图像数据是有希望的发展方向。另一个潜在限制是特征归因的效率。微调大型语言模型和计算实时归因一直需要大量资源。尽管本文采用了所需的细化和结构化采样技术来提高效率，但完整的框架仍需要大量资源。当资源稀缺或需要快速模型部署时，这在一定程度上存在局限性。