车端-二段式端到端智驾方案理解

本文系统梳理了智能驾驶感知系统的技术架构与发展趋势。作者以特斯拉FSD方案为例，重点分析了2022年主流的BEV+Transformer+Occ架构。该架构通过鸟瞰图特征空间融合多传感器数据，利用Occupancy网络解决传统3D检测框的感知局限。文章对比了一段式和二段式端到端方案的优劣，指出当前主流厂商仍采用感知与规控分离的二段式方案。同时预测随着算力提升和法规完善，规控端网络化将是未来趋势。文

不知名的网络混子

761人浏览 · 2025-09-19 15:10:07

不知名的网络混子 · 2025-09-19 15:10:07 发布

入职车企智驾部感知业务，此前对基于学习的算法框架了解甚少，虽岗位不涉及代码开发，仍想较为系统的理解当前车端的智驾方案，尤其是较为成熟的二段式端到端（实际上是我司的供应商当前只供二段式，下文简称端到端，必要时再加以区分）。

本次学习过程拟分三步进行：系统架构层面（AI辅助）、常用模型和细分架构及优化方法（AI辅助）、主流车企落地方案（自行了解）。

当前粗浅地认为，通过与Deepseek交谈并查询相关资料，简单完成了第一步的系统架构层面的了解，当前Deepseek-V3知识库截止到2024.7。借助AI可以快速地了解端到端的“理论上”的方案，比如必要的模块和数据流，但各车企必将进行优化调整，本次AI讨论集中围绕特斯拉曾经的智驾方案，尤其是感知部分。特斯拉于2021年推出FSD Beta V9，提出BEV+Transformer架构，次年引入Occupancy网络。至此BEV+Transformer+Occ架构被国内玩家追随，成为主流。2024年特斯拉的FSD V12正式升级为一段式端到端网络。在初学阶段，本人只关注了2022年特斯拉提出的BEV+Transformer+Occ架构，虽较为落后，但依旧是当前端到端感知模块的主流架构。

接下来正式开始梳理。

端到端智驾方案分为一段式和二段式，在当前的工程实践中各有优劣。一段式终究是端到端的未来趋势，但由于其不可解释性、调试难度、开发难度以及政府法规等限制，当前只有特斯拉、商汤以及mmt等个别厂商坚持自研一段式端到端，而华为、卓驭、小鹏等均采用二段式的“过渡”方案，即感知模块和决策规控模块分开，由于个人科室原因，更多的关注感知模块以及两段的中间处理层，规控端稍作了解。

端到端数据流：

接收到车端图像、激光点云等原始传感数据后，首先进行数据预处理，包括时空对齐、畸变去除、滤波等操作。

将数据输入到BEV网络中，这一步完全依赖基于学习的算法，模型细节暂不了解。

BEV网络输出一个抽象的BEV空间下的特征张量，在鸟瞰图视角下，在车身周围空间内划分出三维网格，每个空间网格包含一个高维抽象向量，无法被人类理解，其内包含感知到的所有环境信息，包括静态路标、动态障碍物、信号灯光等各类信息。其中，BEV空间是由若干帧环境信息时空对齐融合得到的，核心依赖于Transformer机制，将历史帧通过定位头信息投影到当前BEV空间，通过Transformer在语义空间邻域内进行软查询，将每帧环境信息进行配准对齐，生成上述BEV特征。

多任务头：①定位头。有图方案中，GPS提供米级定位，定位头从BEV特征中提取局部环境特征，与先验地图进行匹配定位，获得厘米级高精度位姿；无图方案或轻图方案中，车辆无法获得绝对高精度定位，在GPS米级定位基础上获得道路信息，依靠感知端BEV特征提取车道、路口、信号灯等信息，进行相对定位。定位头输出绝对或相对位姿，反馈到BEV网络，辅助融合历史帧。②Occ网络1。将BEV空间划分成更细粒度的三维空间网格，表征每一网格的占据性和语义概率。③检测头。传统3D检测框，在过渡阶段为后续算法提供“重语义，无视占据性”的目标物。④预测头2。提取BEV特征中各目标物的时序空间位置和速度，输出时序下的3D框。

中间处理层接收感知端输出的定位和环境信息，核心功能是构建车身周围代价空间并输出若干条候选的可通行参考线，属于规控端的预处理阶段，这部分完全依赖基于规则的方法。

决策优化层，接收参考线和代价空间信息，构建轨迹优化问题，在满足车辆动力学和安全约束的前提下，最小化障碍物碰撞、车道线保持、交通信号、能耗以及舒适性等总代价，选择最优路径或对最优路径再优化，生成目标路径。

控制输出层，对目标路径进行轨迹跟踪，基于MPC等算法，向车辆输出控制信号并接收车端反馈。

P.S.1.Occ占据网格技术已经非常成熟，但受限于车端域控算力，传统的占据网格通常在二维平面进行，随着域控算力的提升并结合学习算法，Tesla于2022年提出Occ网络，这一技术将逐步替代现有的3D检测头。3D检测头（长方体）由2D检测（矩形框）扩展而来，在目标检测时，只关注训练过的语义目标，因此完全不考虑占据性，只关注语义特征，这会导致严重的感知长尾问题，难以应对小概率突发事件。Occ网络的提出，优先考虑占据性，对每一个被占据的网格，再检测其语义及概率，如此解决“未训练障碍物”感知长尾问题，提高了感知端的鲁棒性。

P.S.2.DS声称当前主流厂商的预测头依旧采用时序下的3D检测头，如此每一个动态障碍物仅需极小数据量的时序空间角点即可表征，并可以确保足够的安全性。但3D检测头之所以会逐渐被淘汰，除了上文提到的未训练障碍物的感知长尾问题，方方正正的检测框必然会包含大量的空闲区域，以及大概率的未完全包络区域（比如异性障碍物的边角），这会导致避让的过保守性以及额外的碰撞风险，因此势必会被类似Occ的细分占据网格算法替代。但在Occ技术完全成熟前，3D检测框依旧是较为可靠的过渡方案。

在DS口中，虽然各大车企都声称部署了端到端大模型，但具体工程落地则仍然离不开模块化的架构以及大量基于规则的补丁。当前感知端的网络化较为成熟，接下来是规控端的网络化，随着算力提升，这一步应当会很快实现，但由于规控端涉及车辆的动力输出，相关法规和标准的完善也需要考量。

以上是基于DS对话的端到端车端大模型的简单理解，其内必将有部分内容与现实存在偏差，因此在后面打算先了解当前主流细分架构算法及其适应场景，做好词典笔记，最后实践了解各大车企厂商的上车方案，完成感知系统工程师对应的行业调研。

本篇为个人笔记，如有幸被专业人士浏览并提出指正，必将加深我个人的行业理解，希望大佬不吝赐教。