毫末智行硬刚特斯拉 - OFweek新能源汽车网

毫末智行硬刚特斯拉

2023-01-09 17:02

圆周智行

关注

近日，毫末智行在AI DAY上发布了智算中心“雪湖·绿洲” MANA OASIS。

发布智算中心，是基于毫末对自动驾驶发展大趋势的判断。毫末将自动驾驶分为3个阶段，分别是硬件驱动，软件驱动以及数据驱动。毫末认为，整个行业正在迈入数据驱动阶段。

如果单从数据量来看，行业还在2．0阶段，但是头部企业已经开始往3．0阶段布局。毫末预计，到2025年中国高阶智能驾驶搭载率将会达到70％，中国汽车市场增换购消费比例将超过60％。

在此之前，要解决的一个关键问题就是，把智能驾驶系统的综合成本打下来。毫末认为这个时间拐点在2023年。

这背后的技术支撑在于，视觉传感器在成本上优势非常明显，但是仅依靠纯视觉实现精确感知的难度又很高，如果通过视觉做到非常好的4D时空感知，实现类似激光雷达的效果，这样更容易将高阶智能驾驶功能落地到中低算力的中端车型上。

嗅到视觉路线前景的企业并非毫末一家：地平线基于自有芯片研发了视觉感知算法，提供软硬一体的解决方案；大疆通过双目视觉的方式将其辅助驾驶系统在10万级的五菱宏光KiWi EV上落地；Mobileye更是凭借视觉方案一路登顶全球自动驾驶公司出货量第一的宝座。

视觉路线与大数据的正向关系在于：1、相机成本更低，性价比更高，更容易大规模商业化落地；2、相机是智车上数量最多的传感器，数据积累更快。

对于视觉路线，毫末有坚持的先决条件：

1、视觉路线对数据的依赖度更高，毫末背靠长城汽车，后者拥有巨大的市场体量，更有利于数据积累。

根据毫末官方公布的数据，截止2022年底，毫末智能驾驶用户行驶里程已经突破2500万公里，都来自于Hpilot1．0和2．0的数据。毫末在其中提取出了28万小时高价值智驾数据。

这个数据相较于自动驾驶庞大的数据需求量不值一哂，但在整个行业确实是处于绝对拔尖的位置。

2、毫末的技术团队大部分出身百度，百度最早研发的纯视觉技术Apollo Lite已经商业化落地，在这方面有很深的积累。

智算中心可以看成是毫末对特斯拉的一次正式亮剑。在所有特斯拉的追随者中，毫末是步子迈得最大的一个。

视觉数据向4D Clip演化

传统的自动驾驶训练数据，以单帧单要素来组织。不利于系统进行相关的感知动作。

比如如果要做车道线识别，就用相机拍摄很多张车道线，在训练前把车道线标注出来；如果要做自行车识别，就用相机拍摄很多有自行车的照片，在训练前把自行车标注出来，等等。这样的结果是效率很低，并且没有时间的维度信息。

毫末的做法是把这种数据组织转变为一段连续的视频，官方称之为Clip，在这个视频中，所有需要的要素都全部标注出来，然后再进行训练，就是所谓的4D Clip。

每段Clip可以理解成连续帧拼接成的视频信号，再加上有毫米波、激光雷达等信号，它们按照时空顺序组织在一起。一个Clip的数据量是原来帧的几十倍。

要实现数据的Clip形态并不轻松，它的整体形式以4D方式呈现（3D空间＋时间维度），并且要求在数据标注时能够一遍通过，更要求时序的连续性。

这是一次数据形态底层的技术变革。Clip将会是后面自动驾驶感知的主要数据形态。

毫末以后的车端感知都会以Clip的形态去做标注，并且会把之前积累的图片离散帧的大量数据转化成Clip形态。

为此，毫末建立了大量以Clip为单位的文件，让无数个小文件在系统里面流动。而毫末要做的事情就是对这些数据进行高效管理。

在数据管理上，为了充分发挥智算中心的价值，让GPU持续饱和运行，毫末经过2年多研发，建立了全套面向大规模AI训练的毫末文件系统。

在采集端，毫末把数据按照训练的要求，以4D Clip为单位组织文件形态；

在传输端，毫末对数据进行场景化分析，打上各类标签，方便模型基于标签从不同维度对数据进行采样、分布统计、语料提取；

这个可以理解成购物不同的选项，比如价格、性别、品牌，等等。对应到响应场景里就好像雪天、雾天、雨天，等等，这样更有利于模型训练。

在训练端，毫末基于分级存储理念，把对象存储、高性能、显存充分整合，实现高容量与高性能并存。

毫末与特斯拉的路线相近，采取Clip数据处理形式的并非毫末一家，特斯拉也在Clip领域有了深度探索。

MANA OASIS建立五大模型处理问题

依托Clip数据和智算中心，毫末设计了五个大模型来解决自动驾驶中的一些关键问题，它们的作用分别如下：

视觉自监督大模型：4D Clip的自动标注，降低训练数据成本。

这其实是一种数据自动标注手段。尽管业内一直在强调数据的自动标注能力，甚至前一段时间还传出了特斯拉裁员自动驾驶标注团队的新闻，但目前数据标注的自动化率依然很低，大量的工作仍然需要人工参与。

很多标榜自动化率很高的公司虽然内部没有太对数据标注人员，但大部分工作都交由外包公司来完成，其实还是逃不开人工标注。

在4Dcilp的前提下，毫末的想法是10％的数据由人工标注，90％的数据有模型自动标注。

其原理是将输入视频Clip的某些部分遮住，然后预测这些被遮挡的部分，从而学到了更好的视频表征。

这个事情可以这么理解，比如画画，在一张画了大象的画布上只露出大象的头和脚，其他部分遮挡起来，然后作画者根据已知的部分画出一只完整的大象。

具体做法是，先用海量视频通过这个方式预训练一个大模型，然后用少量已经人工标注好的视频数据进行验证，训练出一个检测跟踪模型，使得模型具备自动标注的能力；在将原先已经标注好的单帧数据对应的原始视频提取出来，其中少部分帧是带标注的，更多帧是不带标注的；将这些Clip输入到模型，完成对90％未标注帧的自动标注，以此实现所有单帧标注向Clip标注的自动转化。

这个方法有点“自动补缺”的意思，一张桌子分成6块，抽走其中的3块，通过剩下的三块，将被抽的三块补上，拼成一张完整的桌子。如果被遮挡物不是足够复杂其实还好，但是如果太复杂可能会影响准确率。根据毫末的说法，它的效果非常好，并且通过这种方式降低了98％的Clip标注成本。

3D重建大模型：通过数据生成，主要针对数据分布问题的降本增效。

自动驾驶模型训练中有一个让人非常头疼的问题是corner case场景数据的获取，但这又是系统安全的大前提，那么有没有一种办法自己“造”一些数据出来呢？

于是，毫末提出了3D重建大模型的思路。它的灵感来源于电商领域，厂家希望全方位的给用户展示商品信息，可以通过多角度的照片直接“合成”该物体的3D画面。

这个过程是可逆的，同样，通过3D画面的任何一个角度也可以得到该画面的照片。

毫末将这个技术用在自动驾驶领域。通过该方法，毫末对二维视频里的画面进行场景信息丰富，并且可以在三维空间通过改变视角、光照、纹理材质，来生成各种高真实感数据，相当于感知升维，让其变成3D场景。

毫末介绍，通过该方法，感知的错误率在原来的基础上降低30％以上，并且整个数据生成过程基本不需要人工参与，可以做到全自动化。接下来，毫末会将过去积累的数据全部场景3D重建化。

这个方法可以理解成仿真，跟真实的情况肯定会有差异。

多模态互监督大模型：完成通用障碍物识别动作。

自动驾驶视觉方案中，还有一个非常有难度的事情是，城市异形障碍物的稳定检测问题。

此前蔚来汽车就曾在辅助驾驶状态下因为高速路上的一辆侧翻车没有识别而出现重大交通事故，对视觉系统来说，侧翻车就是异形物体，包括路面突然掉落的轮胎，被撞倒的石墩子，多种多样。这样的长尾场景无穷无尽，真实的驾驶数据收集不可能穷尽。

那么，有没有一种办法通过验证的方式，让车辆在视觉感知下第一次看到该异形物时就能准确识别？

这时候激光雷达就派上了用场。毫末的思路是引入了激光雷达作为视觉的监督信号，可以直接使用视频数据来推理场景的通用结构表达，从而对该场景进行准确识别。

激光雷达的作用主要是对当下场景的补充和“纠正”，比如路线的护栏，公交站牌等，通过激光雷达的“纠正”会更加清晰，更有助于系统做出正确判断。

动态环境大模型：预测道路的拓扑关系。

由于高精地图的各种限制，业内的主流思路是“重感知，轻地图”，毫末堪称其中代表，很早就提出了这个思路。

此前毫末解决地图更新慢问题的办法是，利用道路拓扑（地图元素之间的关联性，比如车道分流等），后来发现拓扑依然无法跟上真实环境变化的速度。

于是毫末就提出了动态环境大模型方案，在BEV的feature map（特征图）基础之上，以标清地图作为引导信息，使用自回归编解码网络将BEV特征解码为结构化的拓扑点序列，实现车道拓扑预测。简单点说就是，在标清地图上通过自动标注的方式实现各个元素之间的相互关联性。

环境道路之间的拓扑最大的问题就是城市路口，解决了路口问题就解决了大部分城市NOH问题。毫末的算法在保定和北京85％的路口拓扑预测上，准确率达到95％。

人驾自监督认知大模型：让自动驾驶更像人类“老司机”。

体验也是自动驾驶一直在突破的问题，这与其系统的认知水平有关。传统的做法是基于规则的认知算法，比如看到前车100米就刹车，看到A就B的逻辑运算。但真实场景中这些都没有必要采取行动，很影响用户体验。现在看来，这种方法已经进入瓶颈，很难取得突破。

那么，如何提升系统的自认知能力？

毫末此前走过的两条路分别是，个别场景的端到端模仿学习，直接拟合人驾行为；通过大模型，引入海量正常人驾数据，通过提醒的方式实现认知决策的可控可解释。

但这两个办法还是不够精准，海量数据无法优化具体场景，比如在同一个路口，100个司机有100个开法，那么系统学习出来的结果就是100个人的平均水平。

毫末现在想做的是，让机器去学习这100个人中开得最好的那个人的开法。毫末从真实接管数据找到了突破口。人类司机的每次接管，都是对自动驾驶策略的一次HumanFeedback（反馈），毫末基于此构建了一个＜旧策略、接管策略、人工标签策略＞的成对排序模型，基于这个模型，毫末构建了自动驾驶决策的奖励模型，自动选出最优解。