2022智能汽车盘点（下）：智能化下半场开赛（4）

2022-12-28 11:30

七、决策智能——高阶自动驾驶

高阶自动驾驶是新能源汽车智能化的最重要战场，如同新能源车对于燃油汽车的打击关键在于用车成本的大幅降低，无人化最大的驱动因素是出行成本的大幅降低。成本和效率是交通领域的永恒话题，正是Robotaxi描绘的美好图景——汽车利用率大幅上升，规模越大成本越低，吸引着众多巨头与创业公司纷纷入局。

恰巧中美在高阶自动驾驶领域代表了不同的体制对于共同目标的不同选择，美国特斯拉之于Waymo的成功恰巧是强调个体的渐进式单车智能的胜利，Google尽管坐拥庞大的地图资源，强悍的算法和硬件能力，但是在美国的土壤上并没有取得预计上的成功。而中国选择了一条截然不同的道路，正如中国人对于举国体制优势的痴迷也符合中国基建狂魔的一贯调性。不管是全国的道路改造，统一的技术规范，路端网络全国联通，对于世界上的任何其他国家都是绝无可能的超大难题。

与特斯拉全球的畅销，FSD的功能几乎已经实现了高阶自动驾驶相比，中国的车路协同路线发展的并不足够顺利，重资产投入，难以商业化等问题使得目前的车路协同仍然局限在部分自动驾驶示范区，全国范围的推广仍然遥遥无期。如果从马斯克推崇的第一性原理出发，高阶自动驾驶的本质是什么？我们认为是将人类从繁琐的日常劳动中解放出来，即解放生产力。解放生产力是为了提高人民的物质和文化生活水平，不断满足人民日益增长的物质生活和精神生活的需要。改革则是对旧有的生产关系、上层建筑作局部或根本性的调整变动。我们提取出以下关键词，改革、旧的生产关系、上层建筑。再回到高阶自动驾驶的话题，我们不难发现，改革是技术创新，算法和数据的积累，上层建筑则是交通法规、道德规范，生产关系则是车辆的所有权问题。

举个极端例子，如果交通法规发生变化，假设两条路线同样实现了高阶自动驾驶，谁能更快的适应新的交通法规？无疑是车路协同路线。所以两者的目标并不完全一致，从技术角度来看，特斯拉路线背后是深度学习和神经网络的广泛应用，难度更大解释性弱，能否实现最终的目标未知，99分到100分可能需要花费数年数十年的时间。车路协同的背后是规则，即车端50分＋路端50分，显然50分比99人更容易实现，双向奔赴的效率更高，而汽车永远需要跑在道路上。我们认为美国的高阶自动驾驶已经到达瓶颈阶段，而中国才正蓄势待发，车路协同商业化完成闭环后，整体产业将迎来高速增长。

（一）以BEV为基础的视觉方向将迎来最大的发展契机

1．特斯拉将BEV带入大众视野

特斯拉通过不同的汽车采集到的数据共同构建一个通用的感知网络架构，然而不同汽车由于摄像头安装外参的差异，可能导致采集的数据存在微小偏差，为此特斯拉在感知框架中加入了一层“虚拟标准相机”，引入摄像头标定外参将每辆车采集到的图像数据通过去畸变、旋转等方式处理后，统一映射到同一套虚拟标准摄像头坐标中，从而实现各摄像头原始数据的“校准（Rectify）”，消除外参误差，确保数据一致性。

BEV layer：

由于基于视觉的算法缺乏3D信息，当把平面映射到三维自主坐标上的时候难免出现偏差，这也是很多公司选择毫米波雷达或者激光雷达辅助提供深度信息，如果忽略自主坐标系的高度信息，即为BEV（鸟瞰图）坐标。
之前视觉方案更多是通过地平面作为参考通过算法获得深度信息，然后进行多摄像头的拼接和BEV的转换。2020年下半年版本的FSD Beta中，特斯拉使用了直接通过神经网络实现图像到BEV的变换，即将输入的2D图像空间的特征图层转换到BEV自车坐标下的特征图层的过程。（Fully Connected＆ Cross attention）

资料来源：特斯拉

BEV网络的优势不仅在于可以使用感知输出到一个3D向量空间，直接进行决策规划，BEV的方法还是一个非常有效的多相机融合框架，通过BEV的方案，原本很难进行正确关联的跨多个相机的近处的大目标的尺寸估计和追踪都变得更加准确、稳定，同时这种方案也使得算法对于某一个或几个相机短时间的遮挡、丢失有了更强的鲁棒性。

2．BEV在学术上探索

BEV的实现方式可以分为从3D到2D以及从2D到3D两大类，思路又包括Psuedo－Lidar track、center－point track、Depth penertration、和直接做BEV视角变换的几大类。自2021年以来，以BEV为核心的视觉路线一直是学术界非常活跃的方向，从2021年7月清华和MIT提出的HDMapNet到鉴智机器人在12月提出的BEVDet，到22年3月达摩院和MIT提出的BEVFusion。BEV的多模态融合技术将感知算法的发展推向新的高度，边缘部署将变得更加简单，意味着更低的算力的情况下能实现同等的精度，对于辅助驾驶／高阶自动驾驶的商业落地均有重大的价值。

资料来源：鉴智机器人

（二）Occupancy Network

2022年特斯拉AI Day上提出了新的概念，即Occupancy Network。借鉴了机器人领域常用的思想，基于occupancy grid mapping，是一种简单形式的在线3d重建。将世界划分为一系列网格单元，然后定义哪个单元被占用，哪个单元是空闲的。通过预测3d空间中的占据概率来获得一种简单的3维空间表示。occupancy network是对于BEV的优化，由于BEV视角下高度信息的匮乏，可能会导致可行驶区域的检测遇到一些挑战。例如对于一些神经网络数据集中没有出现过的对象反馈并不好，对于悬挂的障碍物难以感知，无法看穿障碍物等等。

为了解决以上问题，特斯拉将世界拆分为微小的立方体，预测每个立方体是否有被占用，这与以往对每个物体赋予一个矩形的方式完全不同。对于未曾在数据集标注过的物体能进行更好的处理，尤其是对于地平线深度不一致、物体形状固定、静态和移动物体、遮挡和本体裂缝等问题能够有更好的效果，同时对于内存的占用更少。另外NeRF（神经辐射场）的应用也是特斯拉探索的一个方向，通过将Occupancy产生的模型与Nerf离线训练得到的模型进行比较，从而能够预测3D场景是否与“地图”匹配（NeRF产生3D重建）。

（三）时空序列

单纯依靠HydraNet和BEV仍会因为只是用了单一时刻的多张图像作为感知输入而存在连续信息丢失的问题。人对于速度，对于空间的感知很多来自时间维度，同样FSD也需要具备处理连续的时空序列数据的能力，才能正确处理如城市环境下常见的闪烁的交通灯，分辨参与交通的临时停车和路边的静止车辆，预测周围物体与自车的相对速度，根据历史信息预测参与交通的物体可能的运行轨迹，解决段时间遮挡问题，记忆刚刚开过的速度标识，车道行驶方向等等。换句话说，FSD需要被赋予短期记忆。

如果车子行驶到红绿灯路口停止，车子在到达路口前观察到了各车道允许行驶方向的箭头，然而如果单纯依靠时间队列，那么当红灯非常长的时候，前面时刻观察到的车道方向终究会被遗忘，但如果引入空间队列，那么由于红灯下车子没动，无论在红绿灯路口停止多久，空间队列仍能保留对前面观察到的车道行驶方向的记忆。

（四）规划与决策

规划与决策指的是路径规划与行为决策两个部分：路径规划指具体的运动轨迹设计；行为决策主要指抽象的驾驶决策，例如是否跟车、换道、刹车。

决策主要包含两个方面，一个是车辆自己的形式决策，另一个是对于其它行驶车辆的行为的预测。

对交通参与方的预测：对于交通参与方的预测可以通过多种算法来实现，构建一套运动模型的方式。比较常用的解法是通过高斯噪声来代表交通参与者运动的不确定性，因为大部分参与方的行为一定是服从正态分布的，所以整个模型构建可以看作是一个高斯过程。对于交通参与方的行为和意图的预测，可以看作是一个动态的时序过程，可以用深度学习LSTM这样的循环神经网络解决相应的问题。
车辆自身行为的决策：

每次行为的整体决策链路非常长，而且每一步决策相互影响，所以这种自动驾驶车辆行为决策的功能可以看成是一系列概率的加成，可以看成是马尔科夫决策过程。

规划和决策最大的挑战之一是很难找到一个全局连续最优的方案，因为本身行为空间是一个Non－convex（非凸性）问题，局部最小值很难解决。其次汽车需要对10－15s之后做出预测和规划，因此会产生大量的参数，是一个高维问题。

基于（离散）搜索的方法能够比较好的解决非凸性问题，但是对于高维问题难以解决，不包含梯度信息，因为必须搜索完所有点才知道哪些是最优的；
连续（数值）优化基于梯度能够很快的找到最合适的方案，但是很容易出现局部最小值。

特斯拉的解决方案可以概括如下：仅有唯一解的问题，可直接生成明确的规控方案，而对于有多个可选方案的复杂问题，使用向量空间和感知网络提取的中间层特征训练神经网络规划器，得到轨迹分布，再融入成本函数、人工干预数据或其他仿真模拟数据，获得最优的规控方案，最终生成汽车转向、加速、刹车等控制指令，由汽车执行模块接受控制指令实现汽车自动驾驶。

目前规划与决策主要是通过sequential planning、behavior－awareplanning、以及end－to－end planning三种方法。sequential planning属于最传统的方法，感知、决策与控制三个部分层次分明，behavior－aware planning引入了诸如人机共驾、车路协同以及车辆对外部动态环境的风险预估等等，end－to－endplanning基于DL、DRL技术，借助大量的数据做训练，获得从图像等感知信息到方向盘转角等车辆控制输入的关系。

（五）高阶自动驾驶的核心影响因素

人类对于自动驾驶的探索早在八九十年代便开始，发展历程依据自动驾驶数据流的顺序，从从传感器到定位到感知再到决策规划、控制。早期研究传感器，07年开始研究定位和比较初级的感知SLAM技术，09年Waymo成立，10年后感知在深度学习计算机视觉的应用已经基本初具框架，14－16年深度学习在感知上应用的提升让人类看到自动驾驶的曙光。

从技术层面看现阶段控制相关的技术也已比较成熟，下游的主要问题围绕预测、决策、规划展开。决策的定义目前也都有很多争论，像是交通法规有比较灰色的地方，代码转化为人的思维方式等仍在探索的阶段，预测可以说是自动驾驶学术界最活跃的领域。

预测和决策的规划，各个自动驾驶厂的框架都不太一样。无论是偏搜索、偏数值优化，或端到端机器学习（主要是美国厂商）、或是强化学习，目前没有任何一个方法能确定是未来的方向。

随着特斯拉FSD在自动驾驶的诸多创新型的成果，渐进式的高阶自动驾驶成为市场热门的方向；封闭场景自动驾驶落地也催生其余车厂纷纷入场，小鹏、蔚来、集度等均推出了高阶自动驾驶方案。我们认为短期来看高阶自动驾驶兼具量产能力是竞争的关键，对于长坡厚雪的自动驾驶赛道而言，融资能力和自我造血能力同样重要，高阶自动驾驶技术角度尚未达到数据与技术完美闭环的阶段，在很长一段时间内人类依旧需要在降低资源消耗和Conner Case上不断积累。

八、总结

1．E／E架构变革，软件定义汽车的趋势已成未来新能源汽车的范式，但各主机厂路径均有差异，有实力的主机厂相较于T1的竞合态势将更为强势，从黑盒到白盒的改变也对T1提出了差异化的要求；

2．与三电系统不同，国际T1在控制领域仍存在比较明显的先发优势，缺芯大环境下主机厂保供需求催生国产化机会，国内厂商以其成本与服务的本土优势有望打破国际T1对于部分核心零部件的垄断，预计未来中国汽车供应链将有实力与国际T1在国内／全球层面竞争；

3．L2＋随着整体技术和工程化的进步，已到达渗透率的拐点，量产上车节奏可能会超预期；供应商率先拿下以比亚迪、广汽埃安为代表的中端的A、B级的目标车型将占据行业制高点；

4．智能座舱依旧是主机厂重要的毛利来源，显性配置的优势对于消费者有更天然的吸引力，但一味的花哨的功能堆砌脱离汽车的本质意义并不大，核心关注座舱与其他零部件产品层面的交互设计以及成本控制能力；

5．高阶自动驾驶短期仍难以量产落地，近年感知层面的学术探索有望加速视觉路线的单车智能的发展，激光雷达的成本降低也在预料之中，但规控现阶段依旧没有特别成熟的方法论，行业亟需更为激进的国内主机厂充当鲶鱼的角色。

原文标题 : 2022智能汽车盘点（下）：智能化下半场开赛（4）