从底层自动驾驶AI技术出发，我们真正看懂自动驾驶新周期

2022-11-03 11:04

智车科技IV

关注

本文来源：智车科技

／导读／

2022年行至年终，自动驾驶波澜再起。

先是大众基本放弃自研，花了168亿元联姻中国初创企业地平线开发智驾系统，紧接着背靠福特、大众的自动驾驶明星公司ArgoAI宣布破产。

新欢燕尔时，旧爱难续缘。大众、福特这些传统主机大厂的改弦易辙，代表了自动驾驶进入新一轮洗牌期。完全无人驾驶的商业化困境日益凸显，L4明星选手出现掉队退赛，而辅助驾驶的渐进式路线则高歌猛进。

无外乎行业喊出了“自动驾驶再无路线之争”。

这一结论印证了，几个月前一家成立仅3年的自动驾驶初创公司毫末智行喊出的“辅助驾驶是通向自动驾驶的必由之路”的观点。

自动驾驶产业其实已经进入跨越过Gartner技术曲线中后半程的成熟增长周期。

Gartner技术成熟曲线

在L4自动驾驶路线的公司纷纷“降维”或者直接转型辅助驾驶路线的现象背后，其实不仅仅是商业化路线的合流，背后同样是自动驾驶技术路线的合流。

面向无人驾驶的美好蓝图或者说诱人前景，没有一项技术如同自动驾驶一样如此跌宕起伏，饱受质疑又被满怀希望。

其中一个核心问题就是首先走跨越式路线率先攻克无人驾驶百分百的安全性再走向商用，还是从辅助驾驶入手，在人机共驾的情况下，让自动驾驶逐步聪明起来，再通向无人驾驶之境。

自动驾驶演进的天平逐步落到辅助驾驶这一路线上，其本质就是在量产辅助驾驶的规模场景数据下，自动驾驶技术正在进入以数据驱动下的多模态感知和可解释场景化认知为代表的3．0时代。

外行人看热闹，内行人要看门道。我们可以从毫末智行、特斯拉两家代表性的渐进式玩家的技术干货中，来理解自动驾驶技术的合流之处。

本文主要涉及到9月份的两场AIDAY上的技术布道的一些技术共识：

1、自动驾驶算法进入到合流阶段，那就是深度学习在自动驾驶当中的应用，从各种不同的网络结构的探索逐步收敛到Transformer为代表的大模型形态。

2、大模型的引入使得对于算力和数据的要求进入到新的阶段。那就是海量大数据的训练和云端大算力（超算平台）的要求。

本文尽可能会用通俗易懂的语言来解释这些自动驾驶的底层技术，下面我们将从算法、数据和算力的角度来进行介绍，告诉你基于数据驱动和辅助驾驶路线的自动驾驶技术为什么这么能打，并最有可能走向自动驾驶的终局。

算法进化：Attention大模型如何大力出奇迹

当前自动驾驶技术的出现和成熟落地，得益于新一轮人工智能技术，代表性技术就是以深度神经网络学习为代表的AI算法的出现以及以GPU为代表的适合AI计算的专用芯片算力的爆炸式增长。

从深度学习当中发展出的各类神经网络，包括CNN卷积神经网络、RNN循环神经网络以及LSTM长短时记忆网络等，开始广泛应用在图像识别、机器视觉以及NLP自然语言处理等能力上，而这些能力又称为自动驾驶感知技术的基础。

Transformer模型

随着AI算力的增长，AI算法模型也出现了新的进化，那就是出现了以Transformer、GPT3为代表的上千亿参数规模的大模型。近两年，以特斯拉、毫末智行为代表的领先的自动驾驶技术公司率先将Transformer应用到自动驾驶的感知算法当中，取得一些明显进步。

简单来说，Transformer大模型的核心是Attention注意力机制，它可以通过简单的注意力模块实现规模的堆叠，并从输入的大量数据自身之间的相关性来完成特征编码。这一特性就特别适合融合自动驾驶感知数据的不同位置、先后时序下的时空特征。

理解这些基础信息后，我们就可以来看下毫末和特斯拉这次发布的最新技术思路。首先是BEV感知的引入。所谓BEV感知就是鸟瞰视角下的场景感知，也就是采取多传感器特征融合的策略，将多个传感器所生成的特征放到统一的坐标系下，形成一个以自车为中心的俯视视角，仿佛我们在赛车游戏的上帝视角在开车一样，可以掌控车辆周围全局的状况。

特斯拉解决的问题就是使用Transformer模型中的自注意力机制来实现多个相机所拍摄的视角的融合。而毫末也设计出自己的BEV Transfomer模型，采用多相机融合，并加入时序特征，来进行车道线的识别。同时，9月份的AIDAY上，毫末也提出采用对人类世界的交互信息，即判断周围车辆的转向、刹车灯信息来增强感知判断。

而在今年10月1日的Tesla AI Day上，特斯拉展示了BEV感知的升级版本：Occupancy network，也被称为占据栅格网络。简单理解就是在原有BEV的二维网格上升级为三维网格，即加入了高度信息，使得FSD的感知系统看到的世界更像一个《Minecraft》里的立体空间。

这样只要感知视野内出现障碍物就会出现在三维网格中，得到其位置和速度信息，而常见的车辆、行人、建筑物等还会被给出语义信息，而不常见的物体即便没有语义信息，也因为占据了网格也就不会被感知系统“忽视”而出现遗漏风险。

特斯拉的厉害之处是通过深度神经网络和注意力机制，仅靠多相机融合而成的BEV感知就升级为占据栅格网络，达到媲美激光雷达所直接绘制出的三维信息，同时还包含了视觉提供的稠密的语义信息。

对于国内的自动驾驶团队来说，还需要依靠激光雷达与相机的多模态感知融合，来达到类似占据栅格网络的效果。

但无论是特斯拉的纯视觉感知还是毫末所使用的多模态传感器融合感知，都在引领“重感知、轻地图”的路线，也就是不再依赖预制高精度地图这种构建成本高、应用范围小的先验感知条件。通常来说，高精地图是L4无人驾驶和部分车企推出城市场景辅助驾驶产品的标配。

如果不依赖高精地图给出的清晰的车道线信息，那仅凭借基础的导航地图（Navigation Map）的拓扑信息做道路指引（Lane Guidance）。在这里，特斯拉也使用了Transformer的语言模型Vector Lane对车道线进行空间上的感知。毫末与特斯拉类似，采用了弱引导的方式，再用时序的transformer模型在BEV空间上做了虚拟实时建图，通过这种方式让感知车道线的输出更加准确和稳定。

在认知模块，特斯拉和毫末也给出了“大同小异”的解决方案。所谓认知，就是自动驾驶系统要对感知结果的预测、决策和规划，也就是解决自车要怎么走，要加速还是减速，变道还是刹停，最终给车辆发出一个行动的指令。而在实际的行车过程中，这些动作都是发生在毫秒之间并且是连续的。

特斯拉当前的作法是通过对感知模块信息的判断得到一个可行的轨迹空间，再采用增量决策树搜索等优化算法来确定最优的轨迹。在这一过程中还要加入对占据网络中遮挡区域的动态物体的预测，以避免发生“鬼探头”这类的碰撞风险。

而毫末的解决思路是让车辆的运动模拟人驾，像人类一样实现在安全基础上更高效、舒适的决策和规划。具体来说，毫末正在原有的分场景微模型方法的基础上，引入大模型的处理方式。

为此，毫末建立了一个海量的认知场景库，对海量的人驾数据进行深度学习，基于典型场景挖掘海量司机的实际驾驶行为，构建一个taskpromt，即训练基于时空Attention的驾驶决策预训练大模型，使得自动驾驶决策更像人类实际驾驶行为，以保证实现自动驾驶决策的可控、可解释。这样通过模拟人驾来定义目标和求解的最优行为，可以充分发挥数据优势。

至此，我们可以看到，两家自动驾驶公司在感知和认知算法的进化，主要得益于AI大模型的使用，而大模型的背后离不开对于海量数据以及算力的需求。

3．0时代，纵享丝滑的“数据自由”是如何炼成的？

在今年9月的毫末AIDAY上，毫末CEO顾维灏提出了自动驾驶技术正在迈入以数据驱动为标志的3．0时代。

因为这个概念过于概况，很容易被误解。其实，对于自动驾驶来说，数据一直以来都是无比重要的，但是过去十年的技术发展，Attention大模型的应用，使得数据在今天成为更为决定性的因素。

对于特斯拉，从 2015 年转向自动驾驶自研之时，就确定了基于“数据迭代”的算法架构，而毫末智行，从3年前成立之初，也确定了基于数据驱动自动驾驶进化的数据智能体系，并且把数据处理的效率与成本当成是技术进化的第一性原理。

对于自动驾驶的技术进化，数据的标注、系统的仿真以及数据处理是至关重要的，最终的目标就是要实现在成本和效率下的“数据自由”。

特斯拉在数据标注上，曾在2021年透露过有一个上千人的标注团队，而在经历了今年的裁员风波后，这次的AI Day上更进一步强调了自动化标注的优化。通过自动标注技术，特斯拉将训练场景的标注速度大幅提升。

毫末同样在使用人工标注的同时，采用了自动化标注和自监督学习的方式来进行数据的标注。为了在自动驾驶系统中应用Attention大模型，毫末在MANA中引入无数据标注的自监督学习。MANA采用基于BEV框架下的3D空间一致性的自监督训练，更有效迫使模型理解道路场景的三维结构，从而更好的适应自动驾驶的各种感知任务需求。相比只用标注样本做训练，训练效率可提升3倍以上，同时精度有显著提升。

在数据系统的仿真上，特斯拉和毫末都非常的重视。其中，特斯拉这一次AI Day上放出了大招。给出了示例是通过仅仅2周的时间就将旧金山的大部分道路场景做到仿真环境里。据介绍，这是采用了游戏中的虚幻4引擎来完成的，支持随机建筑物、随机环境、随机车道线、随机天气与路面状态、随机轨迹的生成。这意味着，针对特殊路况的corner case，特斯拉有能力通过低时间成本的数据驱动的方法，做到快速仿真，训练和验证。

而毫末的目标是如何让仿真更真实。他们的思路是完成这样三层的仿真系统构建。一是基础仿真能力、仿真环境和运动的基础能力，主要衡量精准性；一个构建场景的能力，主要看效率；最后是定义场景的能力，主要看有效性。前面两个说的是仿真场景的真实、效率，最后则是看场景定义的有效性，即能不能真正帮助提升自动驾驶的实际通过能力。

为此，毫末与阿里以及德清政府合作，利用路段设备记录的真实交通流实景数据进行仿真训练，比车辆采集更丰富，对路口通过能力提升帮助很大。为避免高重复度的场景，MANA使用自己提出的“交通环境熵”模型来计算场景价值，挑选出高价值场景转化为仿真测试用例。这样就大大提高了整个产品的通过性。

在大规模真实场景数据的处理上，特斯拉和毫末同样有各自的独到方案。提到特斯拉的数据引擎，就不得不提特斯拉在量产车上的影子模式（Shadow Mode），当特斯拉车辆上的触发器（Trigger）发现一些异常模式（corner case）时，影子模式就会记录，一些通过清洗，生成验证集。而一些通过离线的自动标注算法，生成对应的标签。当这些真实数据＋标签准备就绪，再混合仿真数据，以及经过手动校准的数据，共同构成的训练数据集，用于训练车端模型。

毫末是如何处理海量新增的采集数据呢？如果采用原有的训练方案，即把新数据加入到旧数据当中，把神经网络重新再训练一遍，不仅费时费力，还成本巨大。对于自动驾驶企业来说是不可承受之重。因此，毫末提出采用增量学习的方式来更加有效的利用新数据。

在训练过程中，抽取部分存量数据加上新数据组合成一个混合数据集，在限定数据规模的前提下，尽可能多的保持其中所包含的信息量。在模型上，要求新模型和旧模型的输出保持尽量一致，同时尽可能地拟合新数据，这样就在规模巨大的存量数据中让模型保持对新场景的敏感。按照毫末这种增量学习的方式，整体算力可以节省 80％。

最终数据驱动的技术路线使得自动驾驶正在进入超算时代。特斯拉显然是开风气者。

众所周知，特斯拉不仅自研了车端的专属自动驾驶FSD芯片，还在去年宣布自研出了专门用于自动驾驶训练的云端AI芯片D1以及计算中心Dojo。而在这一年时间里，特斯拉已经经历了14个版本的迭代，将这个超算中心做了出来。

根据特斯拉的计划，2023年第一季度将部署第一台ExaPOD超级计算机，算力高达1．1EFLOP，其中的一个DOJO POD就可以提供 108PFLOPS 算力的深度学习性能。特斯拉的目标就是让Dojo不断突破限制，成为AI训练方面最强的超算系统。

与此同时，像小鹏、毫末等国内的自动驾驶公司也在迎头追赶，纷纷建立自己的超算中心。

据毫末发布的计划来看，其超算中心的目标是满足千亿参数大模型，处理数据规模百万clips。

此外，毫末将基于海量数据建立增量学习引擎，结合稀疏激活、算子深度优化等技术持续优化训练成本。可以预见，自动驾驶将投入更大量资源在云端的训练上面，而训练效率提升和成本优化始终是建设超算中心的主要目标。

结合以上的详尽介绍，我们可以看到特斯拉和毫末在技术路线上存在很多的共识。

首先最重要的就是根本技术路线的合流，也就是对于Attention机制的大模型的使用，比如在感知策略中都采用的BEV感知融合，从而形成了以视觉融合为主的“重感知、轻地图”路线。特斯拉和毫末都提出在感知模型建模后再加入导航地图中的拓扑关系，以此降低对高精度地图的依赖。这一策略正在得到来自华为、小鹏等高精地图路线玩家的积极响应，表示在未来的城市拓展中会考虑无高精地图下的开放。这无疑对自车感知能力有了更高的要求，反过来看也对于单车自动驾驶能力的提升形成了鞭策的效应。

其次是对于数据处理和高效模型训练的重视。出于对覆盖海量真实道路场景的大模型训练，就需要大量仿真训练。特斯拉和毫末在这一点上都非常重视通过对真实世界的仿真来快速的测试模型，收集失效场景，从而提高模型迭代的效率。而出于数据闭环下的模型迭代，两家都在超算中心和云端训练上投入了大量的资源。

技术合流下，自动驾驶柳暗花明

讲了这么多的技术干货，我们其实是可以回应开头看到的行业状况：为什么当前自动驾驶产业会面临多次的挫折，为什么又有大量玩家可以信心满满加快发展？

在数据驱动成为自动驾驶产业趋势的当下，AI大模型、自动标注、仿真、超算中心，正在成为各个玩家都在拥抱的技术共识。

在这种技术合流的新阶段，车队规模带来的数据规模，以及充足的超算基础设施资源、高效的超算训练，将成为决定自动驾驶系统进化速度的核心因素。

自动驾驶技术一直存在着L4无人驾驶路线和从L2进发的辅助驾驶路线。

L4无人驾驶路线的目标是要在确保解决百分百安全问题下实现无人驾驶，因此会对自动驾驶的测试范围、测试场景、感知冗余、先验知识提出更高要求。这一特点带来的弊端就像是在温室中培养的花朵，虽然看起来艳丽夺目，但是缺乏移栽到室外的适应能力。因此难以打破限定区域，也难以形成规模商业化。遥遥无期的商业化，使得大量L4自动驾驶公司陷入烧钱黑洞，无法形成正向循环。

数据能力和商业化规模，成为制约L4路线玩家的根本瓶颈。越来越多的L4玩家已经或转移、或扩展到了L2领域，开始为量产车打造辅助驾驶系统。之前的Cruise、现在的ArgoAI都是这一趋势下的代表。一些玩家的退赛正是行业进入常态化增长发展的必然结果。

而从L2＋辅助驾驶场景而来的自动驾驶技术则走出了一条自我进化的通路。那就是用户的真实行驶提供海量场景数据，量产辅助驾驶实现商业闭环，数据驱动下的自动驾驶AI算法得到不断升级，这样自动驾驶的闭环形成正向循环。

最后我们想说。所谓拨云见日，就是只有读懂了自动驾驶技术合流的这一根本趋势，我们才能在笼罩在当下自动驾驶行业的层层迷雾中，看到柳暗花明的新局面。

－ End －

原文标题 : 从底层自动驾驶AI技术出发，我们真正看懂自动驾驶新周期