深度学习在交通预测中的真实作用

本文批判性分析了深度学习在短期交通预测中的应用，通过多模型基准测试发现其并非在所有场景下都优于浅层模型。研究指出数据稀缺、模型复杂度和泛化能力等问题，并强调需重视可解释性、自适应性和公平比较。实验表明，在某些情况下传统方法性能相当甚至更优。

pp12345

976人浏览 · 2025-10-17 08:45:58

pp12345 · 2025-10-17 08:45:58 发布

深度学习在道路交通预测中的应用：真的有影响吗？

摘要

深度学习方法已被证明能够灵活地建模复杂现象。在智能交通系统（ITS）中，包括车辆感知和交通分析在内的多个领域已广泛采用深度学习作为核心建模技术。特别是在短期交通预测方面，深度学习取得良好效果的能力导致学术界普遍倾向于使用深度学习模型，却未深入审视其优势与不足。本文聚焦于对深度学习在这一特定智能交通系统研究领域的最新进展进行批判性分析。为此，我们基于两个分类标准，梳理近年来相关出版物中的研究成果，并在此基础上开展批判性分析，提出问题并引发关于深度学习在交通预测应用中存在问题的必要讨论。本研究还通过在不同类型交通数据集上对多种短期交通预测方法进行基准测试，以覆盖尽可能广泛的潜在场景。我们的实验表明，深度学习并非在所有情况下都是最优的建模技术，揭示了一些迄今为止被忽视的问题，这些问题应在未来的前瞻性研究中由学术界加以重视。这些见解揭示了道路交通预测领域的新挑战和研究机遇，本文对此进行了详尽列举与讨论，旨在激励并指导该领域未来的研究工作。

索引术语 —机器学习，深度学习，短期交通预测，数据驱动的交通建模，时空数据挖掘。

一、引言

IT 不可否认，大数据时代的兴起已经彻底改变了大多数研究领域[1]。这一变革的原因在于，从各种来源收集到了更多的数据，这些数据必须被处理并转化为不同利益相关者所需的各种形式的知识。智能交通系统（ITS）旨在改善交通网络的效率和安全，是充分利用与交通交互的不同过程和参与者所产生的数据的领域之一。一些受益于数据可用性的智能交通系统应用和用例包括铁路旅客列车延误预测[2]、机场登机口分配问题[3]、城市交通信号自适应控制[4]以及自动驾驶改进[5]，仅举几例。

在智能交通系统子领域的多样性中，本工作聚焦于交通状态预测。基于不同类型测量数据（例如平均速度、占有率、行程时间等）的准确交通状态预测，可用于加强交通管理，并实施运营措施以缓解或预防交通拥堵及其相应影响[6],[7]。受此问题驱动，每年都有大量短期交通预测的相关研究发表，近期关于该主题的综述[8]–[10]中可见一斑。

尽管存在大量可提供短期交通预测模型的数据驱动方法，近年来深度学习方法却占据了此类出版物的大部分，成为面对新预测问题时学术界的参考标准[11],[12]。深度学习方法在智能交通系统问题中的应用达到顶峰，通常归因于其理论上能够逼近任意非线性函数[13]，而交通时间序列背后的模式往往正是非线性的[14]。一般来说，短期预测模型基于近期测量数据来估计未来的时间序列值，而长期交通预测方案则更侧重于发现典型的交通模式。然而，深度学习模型自身也存在缺点，表现为难以理解其行为[15],[16]，以及需要大量数据和专用硬件资源。

在此前提下，本文详细阐述了深度学习在短期交通预测中的应用，旨在确定其实施效果最佳的领域，以及其他一些计算成本较低的数据驱动方法表现相似或更优的情景。

为了阐明这一问题，我们首先全面分析了近期有关交通预测的文献，特别是那些提出基于深度学习的解决方案的研究工作。在对最新进展进行前述分析的基础上，我们列举并讨论了一系列学术界迄今所遵循的见解、良好与不良实践。我们的批判性分析得到了一项实验研究结果的支持，该研究涵盖了多个浅层与深度学习模型在交通预测中的表现。

二、概念和预备知识

短期交通预测一直是交通管理的基石之一，因为它是一种可靠地管理和维护交通网络的工具。深度学习包含了一系列数据驱动模型，这些模型在许多应用中取得了优异的成果，从而推动了其在短期交通预测领域的广泛应用。
基于此，本节将回顾这两个研究领域的发展轨迹及其相互关系，以更好地理解深度学习技术如何在短期交通预测领域占据主导地位。

A. 深度学习

机器学习技术提供了一系列工具，用于开发基于数据的数学表示现实世界中的过程。这些表示方法使得某些任务可以实现自动化，甚至能够预测被建模过程的未来状态。作为机器学习的一个子集，深度学习受到人脑结构的启发。神经单元的层次化组合是深度学习架构的基本构成单元，理论上可以逼近任意类型的非线性函数[17]。由于自然界中存在大量可被建模为非线性函数的过程，深度学习已迅速成为许多应用领域中的主导方法。深度学习的能力在自然语言处理[18]和计算机视觉[19]等领域尤为突出，彻底改变了这些领域的发展。因此，学者们不断将这些技术应用于其他知识领域，试图将这些应用中取得的成果推广到更多领域。

深度学习模型与其他属于机器学习不同子集的模型一样，可以执行许多任务，例如无监督学习、分类或回归。
但其特别相关之处在于，它们能够从数据中自动学习对当前任务有用的层次化特征。传统的机器学习方法也被称为扁平或浅层学习方法，因为它们无法直接从未经处理的原始数据中学习数据表示。因此需要事先进行特征提取，且通常依赖于问题领域专家的知识。然而，深度学习方法能够从原始数据中学习隐式的表示，从而更深入地理解待建模的过程。这种能力已被证明超越了人类推理的极限。因此，在许多处理复杂、高维数据的领域中，由深度学习方法发现的特征相较于最新进展实现了前所未有的性能。

深度学习方法的另一个主要能力源于其架构灵活性：数据融合。深度学习的灵活架构允许合并不同格式的数据类型，整合多源信息并提取更多关于建模过程的知识。因此，深度学习使研究人员能够解决复杂的机器学习问题，特别是在处理高维数据时。

B. 短期交通预测

短期交通预测领域的发展始于研究人员开始应用时间序列预测方法来刻画交通拥堵测量[20]。当时，一种流行的方法依赖于这样的假设：生成交通时间序列的过程可以使用自回归积分滑动平均模型（ARIMA）等统计模型 [21],[22]进行近似。这些预测模型仅能预测道路图上的单个点。

随着新千年的开始，建模技术的复杂性开始急剧增加，为交通预测领域释放了新的研究机遇。

Vlahogianni等[9]分析了2004年至2012年的短期预测文献，指出研究人员正逐渐远离被认为是经典统计方法（即自回归模型）的方法，转而倾向于数据驱动方法[23]。
这一转变的主要动机在于经典方法在面对不稳定条件时预测效果不佳。已有大量研究表明，交通的性质并非平稳或线性的[24]–[27]。遗憾的是，自回归模型往往关注平均行为，因此通常会遗漏峰值和快速波动[8]。在[9]的综述中进一步指出，所分析的文献考察了各项研究的应用范围、输入与输出数据类型、预测时域以及所提出的技術方法。
最后，这篇开创性综述中识别出的挑战强调了当前研究过度集中于高速公路和城际道路交通的问题。针对城市道路交通数据的模型研究相对较少。此外，由于网络中多个地点的开放交通数据稀缺，且区域道路间的相互作用极为复杂，当时已知的能够同时对道路网络不同地点进行交通预测的解决方案非常有限[28]–[30]。

在吸收了[9]另一篇综述[10]数年后提出的批评与挑战后，提出了此前未受关注的新见解。2014‐2016年期间的最新文献综述显示，针对城市道路预测的研究出版物数量有所增加，这表明当前研究领域已涵盖交通预测几乎所有的可能地理情境。此外，与[10]中的前景相关，学术界对实现全网预测的兴趣也在日益增长，这可能得益于近年来空间数据覆盖和计算能力的提升[31],[32]。

除了其他方面，[10]还强调了建立一个统一的指标集的重要性，以便能够公平地比较不同模型之间的性能。在针对同一数据集比较模型时，绝对误差指标提供了可解释的数值，使得能够对误差进行定性分析，因为这些指标将误差表示为交通单位（例如，每小时车辆数）。然而，如果基准包含多个交通数据集，则应考虑使用相对误差指标来进行适当的模型比较，从而避免交通单位量级对比较研究的影响。最后，本综述指出了数据驱动模型的一个内在问题：概念漂移[33]。由于数据驱动模型需要从大量数据集中获取信息以提取交通模式并提供准确预测，因此其性能会受到事故、道路施工或其他偶然性变化等外部非计划事件的影响。

同年，埃尔马甘和莱文森[34]分析了方法论，并提出了在道路网络上捕捉空间信息的方法。他们的假设是，道路节点之间空间关系的当前信息应能改善短期预测模型的性能。这项涵盖1984‐2016年期间的研究，概述了该领域研究人员的关注点：65.3%的被修订研究主要集中在交通流量上，占19.2%，其次是速度，其余为行程时间。同样，仅有26.5%的研究选择城市区域作为实施范围，其余大部分集中在高速公路，这证实了 Vlahogianni et al.在[9]中提出的趋势。最后，该综述鼓励学术界将道路网络表示为图[35]，因为这有助于简化节点间关系的表达，并便于后续建模应用。

为了总结该领域近期的发展历程，2019年 Angarita‐Zapata et al.[36]提出了一种针对交通预测数据驱动模型的通用分类法。他们工作的动机不仅是对迄今为止使用的机器学习模型进行分类和回顾，还在于对所涉及的交通预测问题进行归类，包括从数据源类型、数据粒度、输入和输出性质以及整体范围等方面进行划分。另一方面，所综述的模型则根据预处理技术、输入/输出数据类型以及步长预测进行排序。在分析了最新进展后，他们发现目前尚无一种数据驱动方法能够适用于所有预测情况。

上述所有综述提供了该领域所追求目标的见解，以及未来研究中应解决的机遇与挑战的概述。Vlahogianni et al.提倡数据驱动方法，这种方法在当时已开始兴起[9]。
后续的综述证实了这一趋势，如今数据驱动模型已成为短期交通建模的首选方案。Laña et al.的研究得出结论：目前最新进展已覆盖了几乎所有可能的地理范围，因为在短期交通预测领域的初期，基于城市交通数据的出版物较为匮乏[10]。而Ermagun et al.强调了交通网络节点之间的时空关系的重要性，这种关系是当前文献中最常被利用以提取知识的关系之一[34]。最后，Angarita‐Zapata et al.在[36]中提出的分类法从监督学习的角度对交通预测的出版物进行了分类，这在一定程度上启发了本文后续采用的标准。

C. 当深度学习遇见交通预测

表I总结了迄今为止关于深度学习模型用于短期交通预测的每篇综述所考虑的标准。

从关于短期交通预测的近期调查中可以得出结论，深度学习模型在这一研究领域中的应用主要始于过去十年。
图1展示了通过深度学习模型进行短期交通预测的重要里程碑和成就的时间线。本节分析了其中将短期交通预测与深度学习方法相结合的近期综述，以突出本文所提出的综合与研究的必要性。

从[37]这项工作开始，重点介绍了应用于短期交通预测的不同深度学习架构，并解释了它们的组成部分和运行机制。文中对所回顾的模型进行了分类，概述了新的建模方案。第二和第三部分

示意图0

综述[38],[39]分析了多种用于不同交通领域的深度学习方法，包括交通信号控制、自动驾驶和交通状态预测。因此，作者并未着重于特定的短期交通预测子领域，仅考虑了少数与此主题相关的工作。

在远离短期交通预测主题的方向上，[40]围绕时空数据挖掘这一通用任务展开，该任务可在许多应用领域中进行表述。事实上，作者综述了为交通与人类移动性提出的深度学习模型，同时也考虑了神经科学和犯罪分析等其他无关主题。因此，本综述仅针对受益于时空关系的一些交通预测解决方案提供了见解。

另一篇关于交通预测的综述可在[41]处获取，作者在其中总结了交通预测方法的最新进展，并评述了不同的深度学习架构。这是表I所列文献中唯一进行实证研究的工作。该实验设置旨在比较近期深度学习方法的性能，但并未进一步探讨这些性能水平是否优于简单学习器所达到的水平。

接下来，[42]和[43]均对现有的用于交通流预测的深度学习方法进行了概述。[42]中讨论了该研究领域的未来挑战，例如缺乏完善的基准数据集、上下文数据（例如天气数据）的引入以及基于图的建模技术的发展。

本文讨论了图神经网络在交通预测中的最新进展[44]。
本综述中回顾的研究按照交通图类型和邻接矩阵的构成进行组织，旨在提供该特定研究领域趋势的整体图景。

最后，[45]符合对应用于短期交通预测的深度学习方法的进一步综述。作者根据深度学习技术的复杂性与结构，按代对已发表的模型进行分类。

在分析了表I中汇总的研究工作后，我们得出结论：这些研究并未完全提供关于深度学习模型在短期交通预测中应用的全面且批判性的视角。其中与主题相关的工作仅局限于对现有深度学习架构组件的概述，而其余研究则围绕交通或时空数据挖掘等一般性主题展开。

我们相信，一篇综述不应仅仅局限于对近期深度学习技术的概述，还应进一步回答诸如“为什么？”和“为了什么目的？”等重要问题。深度学习模型在多数短期交通预测基准测试中处于领先地位，但作者们往往未讨论其实施过程中相关的注意事项。深度学习的一些固有特征与交通管理者的需求不符，例如其计算复杂度和黑箱特性。因此，采用这类建模技术应当基于除在性能上优于其他数据驱动方法之外的更多证据和论述。基于这一理念，本综述并未详细阐述文献中所使用的不同深度学习架构，

示意图1

而是根据上述问题所提出的更合适的替代标准对其进行分类。

三、文献综述

为了全面了解深度学习技术在短期交通预测中的当前应用情况，本节提出了一种对近年来已发表研究进行分类的分类法。为此，以往的综述作为寻找定义这些类别的共同标准的起点。随后根据所定义的标准进行文献综述。

A. 提出的分类法

所提出的分类法遵循两种互补的策略，这两种策略在文献中以递归方式反复出现。第一个准则确定并描述了待解决的交通预测问题，而第二个准则对用于解决该问题的深度学习方法进行分类。我们现在详细描述这些准则:

准则1. 如何描述所提出的问题：短期交通预测的研究活动涵盖了多种交通测量的组合，这些组合可被用来实现更高质量的预测。为了说明基于准则1的分类法，我们构建了一个树状图（图2），用以表示该领域中存在的模式。划分顺序根据其对所提出问题的影响程度进行选择。因此，对所采用方法产生较大差异的特征位于树状图的较高层级，反之则位于较低层级。

根据交通测量的性质进行第一次划分。

示意图2

在回顾短期交通预测文献后，可以辨别出两种主要策略：一种是预测流量，即在特定时间间隔内通过目标位置的车辆数量；另一种是预测速度，即在特定时间段内通过目标位置的所有车辆的平均速度。其他交通测量包括行程时间、占有率、交通用户需求（例如出租车或自行车）和拥堵水平，这些均归为“其他”类别，因为专注于这些测量的研究贡献数量明显少于前两类。

树的第二次划分考虑了交通环境：城市或高速公路。
在这些环境中发生的不同情况[198]使得高速公路的交通模式比城市道路更加稳定，因为城市道路的交通流量受到交通信号灯和其他事件的影响。

第三个划分依据是车辆数据的采集方式。路侧感知通过感应线圈、雷达或计算机视觉直接从道路路段收集测量数据。而全球定位系统（GPS）和其他定位感知技术则通过带时间戳的地理定位测量来跟踪车辆行驶轨迹和速度。
这些数据采集策略分别定义为路侧车辆数据（RCD）和浮动车数据（FCD）。

最后一个划分涉及收集的交通数据的数据聚合方式。
传感器的采样频率可能各不相同，从几秒到几分钟不等。
由于这些采样频率如果足够高，可能会对交通测量带来显著的变异性，因此通常将收集的数据聚合为较低的时间分辨率。在审查的文献语料中，三种预测时间分辨率 [5,10,15]（以分钟为单位）似乎是最常用的。此外，第三个划分标签中附加的O符号指的是其他较少使用的时间分辨率数据（例如，30分钟）。

在继续之前，需要注意的是，一些出版物可能会出现在树状图的多个叶节点中。这是因为某些研究工作符合不同类别的标准（例如，如果提出的模型预测了多种交通测量值，或者涉及了不同类型的数据源）。

准则2. 如何对深度学习技术进行分类：深度学习架构可以设计为适应各种案例研究。这种设计灵活性导致了建模策略的异质性混合。基于这一前提，本准则考虑了深度学习方法的不同特征。本文选用旭日图（图3）来展示短期交通预测文献中提出的不同类型的深度学习架构。每个扇形区域的宽度与属于该类别的研究论文数量占已审阅出版物总数的比例成正比。

预测交通状态时，最有价值的信息通常是与目标道路相关的信息。同一条道路先前采集的数据通常能很好地预测其短期交通状况。这一观点得到了朴素方法（如历史平均法[199]）显著性能的支持，该方法将交通网络中特定点位的近期测量数据的均值作为下一时刻的交通预测值。
另一方面，近期研究也将周边区域（即邻近道路）的历史信息以及同一条道路上下游点位的测量数据纳入交通预测模型的输入中，因为这些数据可能与目标位置的交通状况存在有价值的关联[200]。邻近区域之间的时空关系能够为待建模的交通状况提供更优的预测变量[201],[202]。那些仅以时序数据作为输入的出版物

从目标道路收集的数据被归类为时态，而那些还依赖于同一道路网络中其他点的交通测量数据则被归类为时空。

下一个考虑的划分是交通测量数据的表达格式。与交通状况相关的数据通常以时间序列形式表示，因为其数值在时间上具有相关性[20]。采用传统时间序列预测方法的出版物被归类为时间序列。

另一种可能的方法是将交通状态表示为图像。深度学习架构（特别是卷积网络）的快速发展，推动了图像处理领域的革命[203]–[205]。在交通预测的背景下，其核心思想是构建一个能够预测交通状态图像的模型（例如，根据拥堵等级对交通网络进行着色的图像）。所预测的图像可以被转换为平均速度、道路拥堵以及其他交通描述符。通过处理交通网络的图像表示，可以同时预测网络中多条道路的交通状态。

这种第二类划分中最后考虑的格式是将交通数据表示为图。由于交通受限于道路网络，因此可以将其表述为一个图建模问题，其中道路网络的结构被抽象为一个图 G=(V, E,A)[206]。在 G中， V是表示道路位置的N个节点的集合，而 E是表示连接这些位置的道路的边的集合，A ∈ R NxN是一个邻接矩阵，其中每个元素ai,j表示网络中节点之间在交通流量方面的接近度的数值量化（例如从图的一个节点到另一个节点的可达性，或它们之间的交通强度）。
这种对道路网络及其交通的表示方式，以及利用图嵌入技术将其输入深度学习模型，有助于实现全网预测，并能够从节点之间的关系中进行学习。

沿着第二个分类方向，预测模型可以设计用于预测交通网络中一个或多个点的交通状态。那些提供全网预测的研究被归类为网络。当模型预测单条道路的交通状态时，相关研究被标记为点。一些研究通过使用多个模型同时预测不同的道路拥堵状态，但由于每个模型的空间覆盖范围仍局限于单条道路，因此它们也被归类为点。

第四个考虑的划分是模型预测的提前步数。在最简单的情况下，模型预测序列的单个后续点（单步预测），但也存在能够预测多个后续步骤的模型（多步预测）。另一种方法称为多阶段预测，其通过使用单步预测模型来生成多步预测结果，该模型循环地将最近预测的值作为输入数据[207]。由于该策略采用单步预测模型，因此相应的研究贡献被归类为单步预测。

B. 基于所提出分类法理解深度学习驱动的短期交通预测文献在将修订后的研究工作按照所提出的问题和选择的深度学习方法进行分类后，进行了深入的文献综述，以客观评估学术界在该研究领域所遵循的趋势。

对图2所示分类法的初步分析表明，5分钟时间分辨率在所综述的文献中是最常见的。近一半被评审论文使用的独立数据集采用5分钟采样频率进行数据采集。此外，这一趋势因加州交通绩效测量系统（PeMS）[208]的存在而进一步加强，该系统迄今为止是最受欢迎的交通数据库，且同样采用此采样频率。10分钟和15分钟时间分辨率的原始数据集较少，但有时作者会将5分钟数据聚合以获得这些分辨率，因此在此类情境下的出版物数量略有增加。最后，其他时间分辨率（用O符号表示）值得特别提及。此类别涵盖了从2、3、6或16分钟到1小时或2小时等不常见的时间分辨率值。其中一些时间分辨率来自仅被使用过一次的数据集。然而，30分钟和60分钟时间分辨率在许多研究中被采用，通常基于来自出租车流量或交通用户需求的浮动车数据（FCD）。交通用户需求预测（例如，在某一时间段内预计租用的自行车数量）通常采用较低的时间分辨率，因为这些分辨率已足以捕捉人群的集体行为。

在交通流量预测模型方面，存在明显倾向于使用来自高速公路的路段交通数据（RCD）。由于路侧传感器成本较高，通常仅部署在高速公路等关键路段，因此这类数据源比城市主干道更为丰富。然而，由于RCD受部署位置影响较大，其在开发通用型交通预测模型方面的潜力有限。
有趣的是，目前没有基于浮动车数据（FCD）的综述性工作用于预测高速公路交通流。获取包含交通流量测量值的 FCD主要来源于出租车和物流服务，或通过车载手机乘客收集。在城市交通流预测方面，已有若干研究成果发表，但大多数研究基于出租车或自行车浮动数据。由于这种感知技术仅能捕捉部分行驶车辆的信息，FCD通常仅用于预测特定类型车辆的流量，因此不适用于通用的交通流预测问题。相比之下，研究更多集中在交通速度预测上，涵盖了所有数据类型和粒度组合，但在高速公路FCD方面仅有少量研究[157]。PeMS和洛杉矶县高速公路数据集（ METR‐LA）[209]是获取高速公路速度RCD的首选数据源。
在速度预测任务中，FCD提供了可靠的测量结果，因为所感知车辆的平均速度（即使仅占车队的一部分）可被视为特定时间段内道路上的平均通行速度。

最后，“其他”类别混合了预测交通拥堵[31],[181],[182],[194],[196]、预期行程时间[162],[186],[197]、占有率[46]和交通性能指数[195]的一系列研究。需要特别指出的是那些预测服务需求的研究，即为满足乘客需求所需车辆数量的预测。在此背景下，出租车需求是研究最广泛的主题，这可能归因于相关数据的高可用性[184],[185],[187],[190],[191],[193]。也有部分研究聚焦于共享单车需求[183],[192]。无论哪种情况， “其他”类别涵盖了不同类型数据和时间分辨率的各种组合，因此在这一类研究中尚无明确的趋势。

当关注点放在所采用的方法论上时，图3揭示了近年来结合空间和时间信息的发表研究数量明显增加[34]。这类研究的数量是仅基于时间信息的研究数量的三倍。若一项出版物被归类为时态类，意味着该研究仅利用预测目标点的历史记录知识。因此，其输入格式只能被归类为时间序列，因为图像和图数据表示始终表达的是交通网络多个点的信息。反过来，如果我们将基于时间信息的出版物数量与基于时空信息的出版物数量相加，则可以看出，超过一半的研究将输入数据表述为时间序列，这是表达交通状态的基本格式。

正如埃尔马甘和莱文森[34]的研究所述，近年来基于图论[210]的研究工作数量显著增加。将交通网络描述为图结构，可以添加不同地点之间的时空关系信息，从而实现全网预测。对于其余的输入格式，以图像形式表示交通状态的选择最少，仅占已审阅出版物的八分之一左右。其中一些研究通过将网络中不同位置的时间序列转换为矩阵来生成图像。由于模型的输入是图像，即使这些图像是多个时间序列的表示，这些出版物仍被归类为基于图像的。
基于图的、基于图像的以及部分基于时间序列的模型研究，合计占已审阅出版物中涉及全网覆盖解决方案的一半以上。
尽管这些研究通常集中于对交通网络多个点进行同时预测，但被归类为点的研究往往更关注其他特定问题，如交通信号处理[112],[135]、探索新数据源[60],[119]、在特定情况下的性能提升[104],[168]或缺失数据[48],[127],[163]。

最后，单步模型占据了现有出版物的大多数，因为与多步预测相比，这通常是一个较为简单的建模任务。然而，考虑到同时预测不同地点未来多个时间步长的交通状态值具有较高难度，却仍有相当高比例的研究贡献（17.6%）实现了全网多步预测。

IV. 批判性分析

对前述文献综述的深入审视引发了一些问题，即深度学习技术是否适合用于短期交通预测任务：它是否始终是最佳选择？在本节中，通过回答八个问题来评估这一考虑的主要方面，并试图就此展开讨论:
A.何时认为预测是长期的？B.交通数据集的选择是否正确？C.深度学习模型能否用稀疏数据进行训练？D.使用上下文数据是否有好处？E.数据表示是一种目标还是具体情况？F.自动特征提取对交通数据是否有意义？G.数据融合提供了哪些可能性？H.对比研究的设计是否合理？

A. 何时预测被视为长期预测 ?

使用深度学习技术进行交通预测相对较新[37]。然而，对于许多作者而言，短期预测与长期预测之间的界限似乎仍然模糊不清，从而影响了针对其中某一问题设计的深度学习模型的识别。这种缺乏共识的情况阻碍了在较新研究中基准测试中建模对比方法的合理选择，这些研究通常混合了短期和长期方法。

一些相关研究的作者根据预测时域来区分短期和长期预测，声称超过一小时的预测应被视为长期预测。这显然是一种不可靠的判断标准，因为对于样本时间间隔为一小时的模型而言，一小时后的预测问题相当于一步超前的预测任务。还有其他普遍的观点认为，短期预测仅涵盖最初的几个时间步（通常不超过五步），而忽略当前时间序列的时间分辨率。然而，在固定的时间分辨率下，模型可以被设计为直接输出某个特定的预测时域（例如十二步超前）。
在这种情况下，一些作者会将其归类为长期预测，而另一些人则认为这是短期预测，因为模型仅被训练用于预测该特定时间步。

在我们尽力统一这些概念含义的基础上，本文阐明了两种方法的适用性。短期预测使出行者能够通过避开瓶颈路段来选择更快速、高效的路线。同样，地方当局也可以迅速响应，并有望避免交通拥堵。因此，这些是运营级模型[211]，其预测局限于特定地理区域，因为周边环境的相互作用会影响交通状况本身。另一方面，长期估计使交通管理者能够针对可预见的事件（如体育赛事、天气状况、道路收费或全面罢工）[212]制定并实施战略级措施。对大范围区域的管理（即

城市范围）可能会改进路边基础设施的设计[213]，最终实现更流畅的交通。基于这一原理，短期模型通常利用目标道路及其周边区域的近期历史观测数据来估计其紧随其后的状态。此处便体现出不同方法之间的区别：即模型构建方法。长期交通估计模型旨在寻找不同的交通模式（例如典型的每日交通特征），并确定在所选日期下哪种模式最符合选定道路的交通行为[214]。模型提取出的所有模式中被选定的那一种，将成为整个区间的预测结果。因此，长期估计总体上准确性较低，在出现突发情况或所选输出交通模式不准确时更容易产生更大误差。然而，它们能为交通管理者提供预期交通行为的大致趋势，以制定战略措施。相比之下，短期预测模型通过学习近期历史观测数据来进行预测，由于能够获取更优的目标变量预测变量，因而可提供更为可靠的预测。

B. 交通数据集的选择是否正确？

现有的文献综述揭示了另一个问题：大多数出版物仅选择单一数据源，或选择多个相同范围的数据源（例如，仅从高速公路或城市区域收集的交通数据，但在同一研究中未同时包含两者）。通过关注图2树状图不同分支上的重复引用，可以观察到这一趋势。采用具有不同特征的数据集作为基准测试是一种良好实践，应被广泛采纳以评估新提出的深度学习模型的性能。正如第三节‐A中所述，交通预测问题的一些特征可能会显著影响模型性能，即数据源类型、数据源上下文和预测变量。

从数据源类型的角度来看，RCD 是通过传感器位置的任何交通工具的综合计数，而 FCD 通常由出租车、公交车、卡车或自行车等车辆类型收集。这两种数据类型的采集方式不同，可能会严重影响时间序列行为，导致性能比较出现不匹配。除了数据类型外，数据采集上下文也具有相关性。城市交通受到道路标志和轻度交通的调控，从而形成一种特殊的驾驶行为，其数据离散性较高。另一方面，与城市交通相比，高速公路交通预测任务相对简单，因为在没有交通信号、行人和其他城市情况的条件下，交通特征通常更加稳定。最后，不同的预测变量（流量、速度、行程时间）可以反映交通拥堵状态，但具有不同的特征和行为。交通速度测量结果随时间呈现稳定的信号，在发生交通瓶颈时表现出稀少但显著的低谷。相比之下，交通流量测量通常显示出多种日变化模式，其预测难点在于突然激增的准确预测。

总之，一种在特定交通数据源上表现良好的深度学习架构，可能无法很好地推广到具有不同特征的其他交通数据源。这种行为可以在测试提出的深度学习方法以及多种数据驱动算法在具有不同特征的交通数据源集合上的表现后被发现。否则，所提出模型的新颖性应局限于其经过测试的交通数据源特征范围内，而不应声称其为广义上的交通预测优越模型。

C. 深度学习模型能否在数据稀缺的情况下进行训练？

智能交通系统（ITS）社区倾向于使用深度学习，其前提是这些技术能够比浅层学习方法更有效地从未经处理的数据中提取知识。这种观念可能是错误的，因为在数据稀缺的情况下，浅层学习模型具有优势。

其主要原因是，浅层学习模型通常需要拟合的参数较少，从而导致训练过程更快且计算需求更低，但同时也导致模型复杂度较低。由于深度学习架构具有潜在的大量可训练参数，因此需要更大的数据集来防止算法学习训练数据中的细节和噪声（过拟合），否则，若未妥善应对，将对模型在实际场景中的性能产生负面影响。

因此，在数据稀缺的情况下，只要验证和测试阶段设计得当并正确执行，浅层学习方法可能在性能上超过深度学习模型。我们文献研究中分析的一些工作仅使用了很短时间的交通数据进行训练和测试。人们可能会认为这些工作的结果存在偏差，因为可以直观地预期交通行为在不同月份、工作日和每日时段之间会发生变化[215]。

例如，如果一个预测模型使用2月的数据进行训练，并在3月收集的数据上进行测试，由于这两个月份均为冬季，交通行为相似。这种训练数据有限的情况正是深度学习容易发生过拟合的问题所在，导致在测试集上的性能偏高但存在偏差。经过足够的训练周期后，该模型能够很好地应对所接触的场景：即对冬季非假期月份的交通进行预测。这意味着该深度学习模型可能在这种非常特定的情况下表现出色，但在推广到其他场景时可能会遇到困难，从而变得毫无用处。由于浅层学习方法通常具有较少的可训练参数，因此在训练数据稀缺的情况下，它们可能因对数据分布的过拟合程度较低而优于深度学习模型。

为了避免模型过拟合，应保持较高的训练样本与可训练参数比例，模型的可训练参数越多，所需训练数据就越多[216]。如果数据无法满足这一要求，则深度学习建模实验的结果由于过拟合，结果可能非常出色，但与实际可行的交通预测所期望的良好泛化性能相去甚远，这可能导致无法得出明确的见解。

D. 使用上下文数据是否会产生任何益处？

预测模型的性能可以通过不直接反映道路交通状态的
信息得到提升。我们将此类信息称为上下文数据，因为这些数据表示可能间接影响交通特征的时态、气象、社会或其他情况。日历信息[217]通常被离散化为[weekday, saturday, sunday]，作为一种常见的附加知识来源[61],[101],[155],[184]，其依据是直觉上认为交通特征在工作日与周末之间存在差异[218]。另一种选择是提供一天中的时段信息，以确保学习算法能够将具体时间点与交通高峰相关联[118],[131],[132],[194]。天气也被证明会影响驾驶员行为，最终对整体交通产生影响[219]。降水、风、雾和极端温度在许多交通预测出版物中被作为模型输入，旨在帮助预测异常的交通特征[50],[61],[101],[162]。此外，空气污染也可用作交通拥堵的预测指标，其原理在于某些污染物气体（例如，CO、CO2和NOx）由车辆排气系统排放。因此，在交通拥堵和高占有率期间空气污染应会增加，模型可利用这一关系获益[57],[220]。最后，集会活动、体育赛事或事故等其他事件也可输入至预测模型中，以识别非常规的交通特征[32],[63],[185],[194]。关于深度学习模型，上述上下文数据的引入方式与其他机器学习模型并无不同。

这些上下文数据可以表示为时间序列（例如温度或空气污染），也可以表示为有限取值的离散序列（例如日历信息或时间戳）。通过增加输入维度，深度学习和机器学习模型均可整合新的知识来源，从而提升预测性能。然而，在全网交通预测范围内，深度学习架构在使用上下文数据方面表现突出。模型可为交通网络中的每个节点输入专用的上下文数据，例如事故或道路封闭信息。深度学习的这种固有能力支持灵活的解决方案，使得上下文数据仅在神经网络特定节点按需作为输入，避免因高维输入导致的预测输出噪声。

E. 数据表示是一种目标还是一种情况？

如前所述，短期预测模型通常基于最近的交通状态观测值构建。最常见的方法是，如图3所示，将交通测量表示为单条道路状态预测的向量，或表示为多点预测的矩阵。一些研究人员将交通时间序列转换为图像，并估计最能代表预测时间范围内网络行为的图像。其他作者们转而设计交通网络的图表示，旨在从节点之间的空间关系中进行学习。

然而，数据表示格式的选择并不总是基于实际考虑。有时，已发表工作的实际贡献在于有效地将交通预测任务适配到基于图像的深度学习架构中。将交通信息转换为图像的方法被认为是所提出方法的核心。然而，这种交通表示并未为该领域增加任何有价值的知识，因为它只是表达时间序列的另一种方式。当将网络描述为矩阵时，其结构预先决定了分析道路之间的连接关系，而深度学习架构能够对这些连接进行建模。卷积滤波器（通常用于图像处理）通常寻找相邻值以发现有趣的高维特征，因此相同的信息以不同方式排列可能会产生截然不同的性能结果。此外，实际道路网络的复杂性很难仅通过安装了传感器的节点（即任何基于数据的研究所考虑的节点）来表示。因此，表示道路网络的picture相对于实际道路网络是失真的。对于卷积滤波器而言，两个像素的邻接在其处理方式上具有特定含义，但这种邻接在网络中的真实邻接意义上可能具有非常不同的含义。因此，此类方法所声称提供的“空间”感知必须谨慎对待。不过，当输入确实是图像时，将交通预测作为图像处理可能是有意义的，例如导航服务的截图、卫星图像或其他类似来源，因为这是其原始数据格式。

另一方面，图论更适合用于网络表示，因为它提供了节点关系（包括有向和无向变体[210]），这些确实是补充信息。交通数据的底层结构构成非欧几里得空间，因为交通网络无法在不丢失信息的情况下被建模为一个n−维线性空间（例如，边的方向或与节点相关的值）[221]。正因为如此，图表示最适合用于全网预测模型，其中交通网络的拓扑信息可以被模型充分挖掘利用。在无法进行图建模的情况下（例如节点分配不明确），将时间序列以矩阵形式排列则提供了一种灵活且直接的格式。

F. 自动特征提取对交通数据是否有意义？

如第二节‐A中所述，深度学习模型最被认可的能力是能够自主学习层次化数据表示，从而避免了从交通数据中手工设计特征的需要。根据许多相关研究，人们普遍认为，任何非基于深度学习的交通预测模型由于无法像深度学习那样对复杂模式进行建模，其性能可能会更低。

数据中的长期依赖（而非手工设计特征）。然而，这种观点可能存在争议。特征工程是一项艰巨的任务，需要研究人员投入时间、精力和领域知识。然而，问题在于所生成特征的预测能力直接决定了预测模型的性能。当输入数据不具备自描述性且无法获得真实特征时，深度学习由于具备从原始数据中学习的能力，可能优于浅层学习。尽管如此，用于交通预测的交通数据作为输入能够直接反映交通状态。例如，当道路的平均速度可用时，该速度值即可判断驾驶员面临的是自由流交通状态还是不同严重程度的瓶颈。模型只需解释这些数值即可输出合理的预测，很可能无需任何额外特征。

交通观测数据确实可以被处理以获得复杂且具体的指标[200],[222]，但模型通常是在原始交通数据上进行训练的。因此可以说，深度学习架构在循环网络中自动提取的特征值实际上是长期模式的提取，因为短期依赖关系可以通过多层感知机或其他基础模型来建模。此外，鉴于交通预测所处理数据的性质，在许多情况下专家事先已知晓重复出现的模式，这使得深度学习的特征学习能力在预测任务中变得不那么重要。

然而，对于那些仍然选择深度学习作为短期交通预测建模工具的研究人员来说，从已回顾的研究中可以得出若干见解，特别是关于为具体案例选择最佳神经网络架构的问题。首先，要预测的变量（如流量或速度）的本质，不如这些测量值的表达方式那样重要。在时间序列的情况下，目标变量的性质可能会在所建模的数据点序列中留下明显的行为模式。循环神经网络正是为了处理这类数据而设计的，尤其是在应对长期模式时，因此在将交通预测表述为时间序列预测任务的任何研究中，都应将其视为起点。另一方面，在对以时间序列集合形式组织的时空数据进行建模时，通常采用卷积和循环神经层的堆叠层次结构，因为卷积层能够捕捉在不同地点收集信息的时间特征。当交通变量被转换为图像数据时，通常会使用卷积网络，通过关联邻近像素来扩展特征空间，从而产生高质量的交通状态描述符。最后，基于图表示进行交通拥堵预测仍然是一个不成熟的研究领域，但神经网络、卷积网络、循环网络以及基于注意力的网络已在其中展现出令人鼓舞的结果[44]。

总之，自动特征提取是深度学习的一个强大功能，但在交通预测的背景下，它并不是选择该建模方法的决定性因素。与其他数据驱动方法相比，交通数据表示是充分利用深度学习模型在空间和时间上的建模能力的关键方面。因此，学术界报道的采用现代深度学习架构的新研究应参考本综述分析的文献以及我们的通用指南，以合理论证其建模选择，包括确定考虑中的场景应包含哪些基线模型。

G. 数据融合提供了哪些可能性？

除了交通记录外，其他类型的数据源可能会提高交通预测模型的预测精度。除了深度学习方法的特征映射能力外，使用这些技术的一个推动因素应该是其在模型内进行数据融合的能力。

数据融合被定义为自动或半自动地将来自不同来源的信息转换为被建模过程的表示形式[223]的能力。在此背景下，某些数据抽象无法通过浅层学习方法进行处理。例如，图论能够对交通网络拓扑进行建模，从而表达相邻互联道路之间的关系。研究人员利用图嵌入层来充分利用这种表示方式，以提升模型的整体预测性能，因为该方法能够根据图的节点连接方式直接学习交通流方向[74],[148],[172]。另一个例子是文本数据，其通常为异步生成。一些研究使用推文[119]或导航服务中针对同一目的地发出的查询作为拥堵预测因子[153]。图像也是一种可由深度学习架构处理的数据表示形式。部分研究将全网交通拥堵地图快照排列为时间序列，并借助深度学习架构进行运动预测，以估计物体未来轨迹[56],[196]。其他研究则将交通网络多个点的交通速度时间序列转化为热图，其中颜色表示速度值[128],[158]。所有这些示例均说明了如何利用数据融合能力来发挥深度学习方法的潜力。

最后，复杂神经网络架构可以通过在特定层直接插入天气或空气污染等按需特定数据源（通常在卷积层和循环层之后，因为这些数据不需要特征映射）来融合此类信息。模型仅在需要时使用这些信息（例如在足球比赛等特殊事件期间），而在正常运行期间禁用这些输入，以减少模型输出噪声。目前交通预测研究社区似乎尚未充分利用这一能力，而该能力对于这一领域而言，可能比其特征提取能力更具吸引力。

H. 对比研究设计得合理吗？

方法论程序的异质性在交通预测模型比较的文献综述中也显而易见。为了使比较对学术界应进行基于方法论原则的比较。否则，未来文献中报告的结果可能会产生误导，并掩盖新型交通预测方法的真实性能。例如，一些研究将他们提出的模型与较简单的深度学习架构进行比较；而另一些研究则选择将朴素模型、统计模型和深度学习模型混合对比，但在比较中却未包含任何浅层学习方法。这种比较方法学的不一致性使得这些研究结论缺乏确定性。为了提供关于提出模型所实现性能提升的可验证证据，应分析并相互比较多种基线与最先进的方法组合。

从无复杂性的方法开始，一些修订后的论文将朴素模型作为基线。这些低复杂度直接方法主要有两种代表：最新值（LV）（也称为 persistence）和历史平均（HA）[199]。由于LV使用最近记录的交通值作为其预测值，因此无需进一步计算。另一方面，HA通过对同一天中时段和星期几的历史交通数据取平均值来生成预测值，或对最近可用的数值进行某种形式的滚动平均。因此，HA在每次新预测时都需要历史样本值来计算均值。实际上，HA应考虑专家预先已知的模式（例如日间和夜间交通模式）。由于其计算开销较低，在比较研究中至少应考虑一种朴素方法，因为它们确立了更复杂模型需要超越的最低性能基准。如果一种新的预测方法的表现仅略优于、等于甚至不如朴素方法，则其训练过程中引入的复杂性会使该方法在解决此类预测任务时变得无关紧要。因此，这些朴素方法有助于评估提出的模型的复杂性与其所实现的性能差距之间的平衡。

一些在文献分析中被回顾的研究将一种新型深度架构与不同的统计方法（例如ARIMA模型）进行了比较。这些方法可作为性能基线，但必须充分保证其参数调优，以确保统计模型能够正确拟合交通数据。根据[23]的对比，统计模型与神经网络模型之间的比较是不公平的，因为复杂的非线性模型与线性统计模型进行对比，这引起了人们对性能指标的关注。不幸的是，我们的文献研究表明，这种不当做法在近期研究中仍然存在。上述朴素方法也为交通预测模型的性能提供了下界。与统计方法不同，它们没有可调参数，因此朴素方法可以为不同交通预测场景提供更可靠的基线。此外，学术界可能忽视了统计方法带来的其他优势，例如其对数据及其结构提供见解的能力。

不应仅选择简单的神经网络架构来与新的深度学习方法（例如，堆叠自编码器）进行比较。最近的文献应被重新审视，以制定全面的对比研究，不仅应与那些可能表现不如所提出方法的基础深度学习架构进行比较，还应与最新的新颖架构进行比较，特别是用于时空建模的架构（例如，图卷积网络）。

最后需要强调的是，几乎所有的修订研究都未提供所比较模型的复杂度度量。复杂度通常通过需拟合的内部参数数量来量化。另一个广泛认可的指标是原始训练时间，该时间必须在相同条件下测定（即相同的训练数据集、计算资源和软件框架）。在建立性能基准之后，为了确保比较的公平性，添加复杂度度量应成为必需步骤。随着时间推移，超越先前提出的模型的性能变得越来越困难，最新架构与已有方法之间的改进空间日益缩小。在此背景下，这些度量提供了一种客观工具，用于判断新交通预测方法引入的复杂度是否能够弥补相对于最新主导技术的性能提升。只有通过这种方式，才能验证提出的模型是否为交通预测带来了有效且高效的改进。

V. 案例研究

根据我们之前的分析，可以得出结论：将深度学习方法应用于短期交通预测在一定程度上是值得质疑的。在某些情况下，作者并未对其所提出方法固有的高计算复杂度进行合理解释，也未将其与复杂度较低的建模替代方案进行比较。此外，对比研究的配置以及对所得结果讨论和分析的不足，往往无法明确说明新提出的方法在其发表时是否优于最新进展。

本节描述了一个案例研究，旨在对前述深度学习方法的各种特性所产生的影响进行有根据的评估。为此，验证了这些技术在预测短期交通测量方面的有效性，并将其与计算复杂度较低的建模技术进行了比较。

A. 实验设置

一项交通预测案例研究已被设计出来，旨在展示深度学习比较研究中涉及的所有细节和障碍。通过对文献的批判性分析表明，深度学习是建模时空关系的一种合适选择（只要存在足够的数据粒度，使得这些关系对于待预测的交通状态具有预测价值），或用于映射那些无法以时间序列形式获取的数据。那些采用通用时间序列方法来解决问题、而忽视时间序列本质特征的方案（即相同的技术也可应用于医疗或股票市场时间序列）被定义为传统时间序列方法。它们仅将历史交通测量数据作为模型输入，因为这些特征能够良好地描述未来交通状态。深度学习可以预测表达全网交通区域的图或图像表示，但对于传统时间序列预测而言，选择此类复杂且计算消耗大的技术必须有充分的理由。

为阐明这一问题，设计了一项案例研究，旨在解决交通时间序列预测问题。根据所提出的分类法，交通预测设置可能在交通测量的性质、覆盖区域、感知技术和数据聚合方式上有所不同。尽管本研究意图模拟所有可能的情况，但由于可能的设置组合数量较多，因此选择了一个具有代表性的子集问题进行研究。

如图2所示，交通流量和速度预测是我们在文献综述中审查的研究中最常涉及的交通测量指标。虽然这两个时间序列通过交通流基本图[224]相关联，但预测速度通常更容易，因为在大多数时间内，交通都以道路的限速（自由流）运行。因此，它在时间上是一种更稳定——因此可预测——的信号。然而，交通流量具有更宽的动态值范围，并且通常在一天中经历多种变化。同样，驾驶员在城市中引入不同行为[225]。城市出行受到多种因素的影响，例如环岛、人行横道或交通信号灯。这些因素使得数据更加嘈杂，因而更难预测。相比之下，高速公路交通不受这些因素影响，因此预测快速路交通通常要容易得多。

基于上述原因，至少需要四个数据集来涵盖城市和高速公路区域的流量和速度预测的所有可能组合。表II根据第三节‐A中定义的分类法总结了每个选定数据源的属性。

所有数据源均通过路侧传感器收集交通信息。据我们所知，目前没有公开的浮动车数据源（FCD）覆盖一整年的数据，而这是评估模型在全年各季节性能表现的必要条件。时间分辨率保持数据仓库提供的原始值不变。

预测问题被表述为一个回归任务，其中每个目标道路在时间{t − 4,…, t}收集的先前测量值作为特征，用于预测同一位置和时间t+ h的交通测量值。考虑了四个预测范围h ∈{1, 2, 3, 4}，因此针对每个h值和目标位置分别训练一个单步预测模型。

示意图3

图4描述了所提出的实验设置。对于每个交通数据源，选择道路网络中的10个点位，始终选取提供多样化交通特征的地点。然后，为每个目标位置创建一个回归数据集构建了覆盖一年数据的数据集。每个月的前三周用于模型训练，其余时间保留用于测试。这种划分标准可以验证模型是否能够学习在不同季节和假期期间变化的交通特征。

为了为每个回归模型找到最佳的超参数值，进行了三重交叉验证：每个月的两周数据用于训练，其余保留的训练数据用于验证。三次验证得分（每次划分对应一次）的平均值被用作贝叶斯优化器的目标函数[229]，该优化器基于前述目标函数高效地搜索最佳超参数配置。在评估了每个模型的30种可能配置后，将最佳超参数配置应用于当前模型，并使用全部训练数据对其进行训练。训练完成后，在测试所保留的数据上计算模型性能得分。该过程降低了由于模型超参数配置不佳而导致后续比较出现偏差的可能性。

案例研究的目的是确定在各个预测范围下对交通信号进行最佳预测的模型。为此，我们通过测试数据计算R2得分，以衡量实际与预测交通测量之间预测结果的质量。该得分由:

$$
R^2 = 1 - \frac{\sum_{t \in T_{\text{test}}} (o_t - \hat{o} t)^2}{\sum {t \in T_{\text{test}}} (o_t - \bar{o}_t)^2}
$$

其中 $T_{\text{test}}$ 表示当前数据集测试分区所包含的时间段集合，$o_t$ 表示测试时间t的实际观测值，$\bar{o}_t$ 为其平均值，$\hat{o}_t$ 为预测值。

构成基准的预测方法是从最新进展中最常用的算法和架构中选取的。本案例研究未包含统计模型，因为朴素LV方法已提供了一个性能基准，能够在实验中给出有趣的见解。借鉴已有研究成果，本文列出了一种分类的学习方法:

朴素模型 : 最新值[LV]。
浅层学习 : 最小二乘线性回归[LR], k近邻[KNN], 决策树[DTR], 极限学习机[ELM]和ε‐支持向量机[SVR]。
集成学习 : AdaBoost[ADA], 随机森林[RFR], 极度随机树[ETR], 梯度提升[GBR]和极端梯度提升[XGBR]。
深度学习 : 前馈神经网络[FNN], 卷积神经网络[CNN], 基于LSTM单元的循环神经网络[LSTM], 混合卷积‐循环神经网络[CLSTM]以及基于注意力机制并带有卷积输入层的自编码器[ATT]。

所有数据集、Python源代码、基准中每个模型的超参数细节、深度学习模型的规模（可训练参数数量）以及仿真结果均在 https://github.com/Eric-L-Manibardo/CaseStudy2020 公开提供。

B. 结果与统计模型分析

所获得的仿真结果在此呈现并进行分析，重点强调模型之间的性能差距及其统计显著性。

讨论从图5开始，图5显示了每种学习方法和每个分析的预测时域h下，基于每个数据源的10个数据集计算出的平均R2得分的整体性能。正如预期，随着预测时域的增加，模型的性能持续下降。加利福尼亚数据源对应的交通数据较为稳定，通过简单地目视检查其曲线即可看出：即使预测四个时间步长（h= 4），该数据集仍获得了较高的R2得分。如第三节‐B所述，PeMS是智能交通系统（ITS）研究中最常用的数据源，尤其是在提出新的预测方法时。在本研究中，我们仅收集了第4区（即所谓的湾区）的数据集，因为其他区的数据也提供了稳定的交通测量结果，而第4区是现有文献中最常选择的区域。

交通测量的性质与数据源的覆盖范围相结合，可以预先提示预测时域h在增加时预测性能如何下降增加。无论是在城市道路还是高速公路上，驾驶员都倾向于尽可能保持标称速度，因此时间序列会突然下降。从而，只有最近的时间戳提供了关于此现象的信息[168]。纽约和西雅图的数据源结果证实了这一说法，其性能下降呈现出类似的递减趋势。对于流量数据而言，城市道路的交通流量会因所选位置的不同而有显著差异。主干道上的交通流量几乎保持恒定，因为卡车、出租车和其他基本服务车辆在夜间和清晨时段仍占用道路。但特殊区域（如大学、购物中心和娱乐区周边）的情况则不同，这些区域的交通流量趋势会根据其活动时间安排而受到影响。高速公路的交通流量则不存在这些问题，随着预测时域的增加，其预测性能的下降更为平缓，这一点可以从加利福尼亚的测试结果中观察到。

在关注各模型对相同数据集集合的结果时，其中一些模型呈现出相似的得分。从初步观察来看，所考虑的五种深度学习架构的表现与集成方法（ADA除外）相似。浅层学习方法获得的R2得分略低。然而，如果轻微性能下降所带来的优势是更短的训练时间和更低的计算资源需求，那么浅层学习方法仍应被考虑。SVR是一个例外，在所分析的方法中，其优化时间明显最长。只要研究人员在搜索最符合数据分布的超平面组合时未设置迭代限制，SVR可能会需要很长的超参数优化时间。

优化周期[230]。最后，朴素LV方法在较短预测范围内的相对良好预测性能为改进留下了较小的空间，正如模型之间可忽略的R2差异所表明的那样。

鉴于模型得分之间的差异如此之小，有必要评估这些差异在统计意义上是否显著。传统上采用标准的零假设检验来进行此类评估，包括事后检验和图形表示（例如临界距离图[231]），以直观地判断基准中哪些模型的表现具有统计显著性。然而，最近人们对使用这些检验方法提出了批评，原因在于它们缺乏可解释性、所提供的统计见解对计算所用样本数量较为敏感。

在此背景下，贝纳沃利等人在[232]中的开创性工作揭示了标准假设检验的缺点，并推动了使用贝叶斯分析进行多重比较分析。我们采纳这一新的方法论趋势，对每一对（深度学习，集成）模型进行贝叶斯分析，其结果如图6所示（行：深度学习模型，列：集成模型）。通过对每一对模型执行贝叶斯分析，可以基于各模型在所有地点、数据集和h值上的测试结果，计算出一个模型优于另一个模型的概率。所得到的概率分布可通过蒙特卡洛方法采样，并以重心坐标形式展示，包含两个区域：其中一个模型优于另一个模型，反之亦然。此外，可根据称为rope的参数设定实际等效区域（即结果可被视为统计上等效的区域）。该参数表示两种方法得分之间的最小差异，以判断它们是否具有显著不同。rope的取值取决于所解决的任务。例如，在预测高速公路交通流量时，若每个分析区间内通过车辆为300辆，则预测误差仅相差一辆车的情况可以忽略不计，因为该误差范围不会影响预测模型的实际应用。

图6所示的贝叶斯分析结果表明，LSTM和CNN比GBR和XGBR集成方法有略高的概率提供更好的结果。然而，对于RFR和ETR情况则有所不同。当将这两种集成方法与深度学习变体进行比较时，其采样概率偏向于实际等效区域（例如RFR与LSTM）或集成方法优于深度学习模型的区域（例如ETR与CLSTM）。最后，统计分析得出结论：从统计角度来看，在该基准测试中没有明显胜出者，也没有经验证据支持使用基于深度学习的交通预测模型而牺牲浅层建模替代方案。

VI. 获得的经验

从实验结果可以得出结论，深度学习模型并未始终提供更好的性能结果优于浅层建模方法。此外，只要事先对超参数进行适当调优，在某些情况下集成方法的表现会超过深度学习模型。这一事实表明，在未来的研究中必须进行参数调优，以避免不公平比较。然而，超参数调优阶段常常被忽视或仅被非常表面地提及，未能得到其应有的重视。

此外，这类算法的训练复杂度被广泛忽视。我们的文献分析揭示，短期交通预测领域的出版物倾向于采用更复杂的模型，认为其增强的建模能力可以提升最新进展，但性能差距往往很小。然而，这种微小的性能差距在实际交通场景中并不能转化为实际优势[149]。对于相似甚至有时更好的结果，经典的机器学习技术可以达到与深度学习相当的性能，但具有更低的复杂度和计算需求。

同样重要的是要强调朴素方法在确定所设计任务的最低复杂度时的关键作用（图5）。这些基线模型应参与任何交通预测基准。案例研究中要解决的任务（即预测单条道路的交通状态）是特意选择的，以表明对于简单任务而言，复杂模型并不能显著提升朴素模型的性能。每个模型的输入都提供了对目标预测最有意义的信息（在目标道路上收集的近期测量数据）。因此，不存在复杂的关联关系需要建模，最终，深度学习架构无法比浅层学习方法提供更好的结果。也可以通过自回归模型建立性能下限，但它们对参数非常敏感配置。相比之下，朴素方法由于缺乏参数，使其成为确定基于数据的模型所能实现的改进空间的更优选择。

另一个重要方面是训练和测试数据的安排方式。文献中常见的做法是精心选择测试数据，以获得所提出的交通预测方法所需的性能表现。测试数据通常选自较短的时间间隔，且与训练数据具有几乎相同的特征。这种做法忽视了机器学习的一些基本概念：在可能的情况下，测试数据应与训练数据不同（但仍遵循相同的分布），以检验所开发模型的泛化能力。部分被分析的论文仅使用一个月的交通数据进行训练，一周的数据用于测试。由于这种划分标准，结果可能具有误导性，因为学习到的交通行为可能与测试子集中的行为完全相同，从而在建模一年中其他时段的交通时表现出较差的泛化能力。

在这种情况下，可用数据的数量决定了不同的训练/测试划分选择。在理想条件下，数据源至少覆盖两年完整的时间，因此研究人员可以使用第一年的数据训练模型，并通过第二年的数据测试来检验模型的泛化能力。一年中，由于道路调整、极端气象事件或社会政治决策等因素，交通网络中某些点的交通特征可能会发生变化。这些情况会产生异常的交通日变化模式，改变数据分布，从而对基于数据的模型的学习和适应能力带来额外的挑战。值得注意的是，PeMS作为arguably最常用的数据源，提供了多年的交通测量数据，但通常并未充分利用该数据集所覆盖的整个时间范围。

第二种选择是仅使用一整年的交通数据。在这种情况下，我们建议按照我们的案例研究中的方式来安排数据：每个月的前三周作为训练数据，每个月的剩余天数用于测试。这种配置使模型能够从不同的交通模式中学习，从而使作者能够通过测试集检查模型是否能够正确地泛化到未见过的数据，并至少考虑到该地点在一年内可能出现的所有交通行为。

最后一种情况对应于未覆盖整年的数据源。在这种情况下，无法完全保证模型性能在全年范围内的泛化能力，因为根据数据集所覆盖的时间范围，模型学习到的模式可能仅适用于对一年中较短时间段进行预测。鉴于目前可用的交通数据量，未来的研究应不难找到符合研究需求特征且至少提供一整年数据的公开交通数据源。

最后，一个良好的做法是在交通预测领域中尚未被广泛采用的，即发布所提出模型产生结果的源代码和数据公共领域。这种做法将简化修订过程，确保报告结果的可重复性，并促进旨在改进这些结果的未来研究工作。显然，这种做法严格受限于所考虑交通数据的保密性，但只要可能，交通数据集、源代码和结果都应存放在公共存储库（例如GitHub、BitBucket等）中，以便新的想法和研究不必从零开始，从而使该领域的进展更加可靠、可验证且更加快速。

VII. 挑战与研究机遇

随着新的数据处理和建模技术在学术界蓬勃发展，涌现出新的研究路径，以实现更精确、覆盖范围更广的交通预测模型。本节指出了需要面对的挑战，以及学术界在未来几年应探索的研究机遇。图7以图形方式总结了我们对该研究领域未来的展望，接下来我们将详细描述这一愿景。

A. 可操作性：自适应模型与预测置信度

文献综述表明，人们正越来越激烈地竞相寻找性能最佳的交通预测模型。然而，该领域研究的最终目标应该是模型的可操作性，而这并不仅仅与预测[233]的精度有关。

如果我们把数据驱动建模划分为若干连续阶段，一个交通预测场景包括：1）数据感知；2）数据预处理，最终形成回归数据集；3）学习与验证阶段，在该阶段中模型从这些数据集中进行学习；4）模型测试，在该阶段中通过预测未见过的交通数据来验证训练好的模型的性能。当其中一个阶段被赋予过高的重要性时，数据流程中其他阶段的重要方面可能会被忽视。例如，有时数据集由交通网络中人为挑选的地点（即数据源）组成，而这些地点恰好具有更稳定的模式，可能导致模型性能水平不切实际地偏高。

此外，交通数据可能会在长时间内发生变化，这就引出了第五个且常常被忽视的阶段：模型自适应[234]。模型自适应的概念非常简单：持续将交通数据输入模型，模型利用新信息来适应影响其已有知识的情境变化[235],[236]。为此，在线学习技术能够在获取新数据时实现模型的增量更新，而概念漂移处理方法则允许预测模型根据变化的数据分布调整其行为。尽管文献中已有一些关于该主题的出版物[168],[237]–[240]，但在交通预测领域，这仍然是一个尚未充分探索的研究领域。

最后，为了使模型具有完全的可操作性，我们强烈主张在预测中加入置信度指标，以便交通管理者能够信任并评估交通预测相关的不确定性，从而做出更明智的决策。

从战略角度来看，出行需求预测中的置信度估计已有扎实的研究基础[241]–[245]，有助于合理设计和扩展道路基础设施。长期拥堵预测的置信度方面也有相关重要贡献[214],[246]。然而，在短期交通预测领域，这方面尚无显著研究成果。

总而言之，预测模型是连接原始数据与交通管理可靠决策的桥梁。实现可执行决策的需求需要比单一的预测模型平均精度定量证明更多的见解。

B. 集中式交通数据仓库的需求

对所选文献的综述揭示了近年来使用的交通数据源在数量和多样性上的持续增长。问题恰恰源于可选数据源的数量之多。即使针对某一特定交通数据源，根据测量位置、时间间隔或聚合率等不同选择，也可能提供不同的数据集。研究人员通常会采用不同的预处理技术（通常为研究目的而专门设计和实现），以更具代表性的样本优化数据，从而提升模型性能。因此，智能交通系统（ITS）社区迄今已生成了许多数据源的多个版本，导致包含前沿解决方案的基准测试出现不一致的情况。

如果能为学术界提供一个统一的信息中心，即集中式交通数据仓库，那么所有这些问题都可以得到解决。该仓库将根据不同预处理技术对原始交通数据源进行处理后，以统一格式存储不同版本的交通数据集。此外，仓库还将发布针对每个数据集和预测任务的性能最佳模型的排名列表，以便对新模型进行公平比较。研究人员可以引用来自第三方研究成果中的数据集，并将其新提出的技术与之前的方法进行对比。同时，还将开放接口，支持提交新的基于数据的流水线、数据集和结果，以扩展该仓库的覆盖范围，包括产生相应出版物中结果的源代码。

毫无疑问，这一集中式仓库的可用性将加速对领域当前状态的理解，并有助于开展新的、更可靠的模型比较。

我们通过在一个可自由访问的GitHub仓库中共享第五节案例研究中使用的已处理数据集，来说明这一理念。我们坚信，将我们的仓库以及文献中分散的其他资源整合到一个统一的信息中心，将成为交通预测学术界期盼已久的里程碑。

C. 生成模型用于伪真实合成数据集

智能交通系统（ITS）学术界所选用的绝大多数学习方法都试图对条件概率P(y|x)进行建模，其中期望输出值y（例如交通预测）由输入x（预测模型的输入中的预测变量）决定。另一方面，生成模型估计P(x|y)，因为它们试图学习数据的条件分布[247]。顾名思义，这些模型能够生成新的合成数据实例，为通过增强模型训练所用的交通数据量开辟了一条有趣的研究路径。

尽管研究人员可以使用CORSIM[248], VISSIM[249],或SUMO[250]等交通仿真器，但这些工具具有特定用途：提供具备具体特征集合的模拟交通环境。在此类环境中，虚构交通网络通过选择车辆数量、速度、道路设计等参数进行设计和调整。由于这种调参过程，该环境受研究需求的制约，从而失去了其真实特性。在这方面，生成模型可提供类似于真实交通网络的合成数据。由此，可以从关键位置扩展稀缺的数据源，以应对测试集未能覆盖所有可能交通状态的场景。

特别是生成对抗网络（GANs）[251]在学习合成与真实数据高度相似的新数据实例方面已展现出显著成果。近年来已有数百篇出版物报道了使用生成对抗网络处理时空数据[252]的应用。我们预见，这些生成模型将在交通预测中获得至关重要的重要性，尤其是在数据稀缺的交通预测场景中。一些最近的研究成果已经展示了生成对抗网络在此用途上的潜力[192],[253]，为在数据可用性受限的情况下大规模引入这些模型进行交通预测铺平了道路。

D. 交通预测的新建模技术

另一条近年来备受关注的研究路径旨在将基于替代数据的建模方法应用于交通预测，主要目标是推进在预测精度之外的设计因素方面的最新进展（例如底层训练过程的计算复杂度）。这方面包括最近尝试将储备池计算[254]和基于随机化的机器学习方法引入交通预测领域，涵盖回声状态网络[255]、极限学习机[256]或这些建模方法的更复杂变体[257],[258]。这些模型极其高效的学习过程使其特别适用于大规模数据集上的交通预测。另一方面，当前用于交通预测的模型对参数的高度敏感性也推动了装袋与提升树集成方法在此领域的复兴，这类方法以其对超参数变化更具鲁棒性且不易过拟合而著称[259]–[261]。最后，最近已有研究报道了自动化机器学习工具在高效发现精确交通预测模型方面的初步证据[262]。

总而言之，毫无疑问，当今基于数据建模的大多数发现和创新都与深度学习密切相关。然而，除了前文所述的关于如何有效使用深度学习的经验和良好实践之外，我们还主张更深入地关注其他现代建模选择，例如广义操作感知器[263]、液态状态机[264]或融合了交通流模型与机器学习技术的混合模型[265]。同样，应越来越多地设定那些不仅仅局限于预测准确性的设计目标，尤其是考虑到当前交通数据已经达到的巨大规模。面向基于数据的交通预测模型，亟需向效率导向的重大转变，采用新的评估指标，以考虑模型训练所需的数据量和/或运算量。

E. 理解和解释深度学习模型

训练完成后，深度学习模型是黑箱，无法让普通用户了解其预测的生成过程[16],[266]。对于交通运营人员而言，神经网络产生特定预测的原因在做出明智决策时至关重要。当出现分歧，即交通网络的运营人员不信任模型预测时，深度学习无法提供任何手段来解释导致其预测结果的知识。与其它知识领域（如医学诊断）类似，深度学习模型缺乏透明度，使得人们难以理解人类更倾向于接受其预测，他们通常会选择性能较差但更透明的替代方案（例如回归树）。

据我们所知，极少有出版物从可解释人工智能（XAI）的角度研究交通预测。一个例子是