大模型时代，自动驾驶落地还需几步？

2023-08-28 14:50

本文来源：智车科技

大模型火了，先是席卷了NLP领域，紧接着又带来aigc的蓬勃发展，而下一步即将为多年来苦苦追寻落地的自动驾驶带来革命性的变化。作为紧随风口的车企，自然也不能在大模型时代落后：7月31日，吉利预告了大模型技术；8月8日，广汽推出“广汽AI大模型平台”；奇瑞也将发布自己的AI大模型……而在此之前，小鹏、理想、特斯拉都宣称自己拥有“自动化数据闭环系统”，作为大模型的一种应用方向。

除此之外，平台级公司，百度、阿里、腾讯、360、华为都推出了自己的大模型。上半年结束的时候，国内大模型已经达到80个以上。中美两国的大模型数量占据了全球80%。在大模型如此火热的今天，自动驾驶的落地也在加速，当然，也迎来了新的挑战。

自动驾驶中的大模型

其实“模型”就是一段计算机程序，用来构建一个虚拟的神经网络。和生物的神经网络类似，只有刺激到一定程度，神经才会活跃。如果再强化刺激，就会输出活动。这其实就是多段函数的表达。神经网络模拟任意连续函数，也就成了可能。上世纪80年代之后，这些计算机概念就建立起来，并在自动驾驶上应用，但一直没有大的突破。

其根本的原因在于参数量。这是ChatGPT火起来的重要原因。OpenAI公司发现，模型参数如果多到一定程度，系统智能（模型精度）就会极大提升，原理现在无法解释，但已经有了一个词汇来形容——“涌现”。多到什么程度呢？一般来说，至少要1亿左右。当然，因为自然语言的信息密度高于图像，所以ChatGPT-2的参数量达到15亿个，而ChatGPT-3则达到1750亿个，刚好和人类神经元数量级别差不多。

自动驾驶中的大模型更为复杂一些，被称作为多模态大模型。作为一种可以处理多种不同类型数据的深度学习模型，它可以整合来自不同传感器的数据，并根据这些数据做出决策。多模态大模型通常由多个分支组成，每个分支处理不同类型的数据，例如图像、文本、声音、视频等。这些分支可以并行运行，并最终将结果合并以进行决策。与传统的单模态模型相比，多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息，从而提高模型的性能和鲁棒性。例如，在自动驾驶领域中，多模态大模型可以同时处理来自相机、激光雷达和毫米波雷达等多个传感器的数据，以更全面地理解当前交通环境，并做出更准确的决策。

大模型如何颠覆自动驾驶？

具体而言，大模型如何部署在自动驾驶车辆上，又能部署在自动驾驶车辆的哪些模块呢？

首先是自动驾驶的感知部分，众所周知，自动驾驶的感知需要融合多个传感器的输入，从而完成数据的融合增强。在这个过程中，当传感器的检测结果冲突时，更加相信哪一方的结果便成了一大难题。而大模型的一大优势是可以处理不同类型的数据之间的关系。例如，在自动驾驶中，相机可以提供道路和障碍物的图像信息，激光雷达可以提供距离和深度信息，而毫米波雷达可以提供速度和方向信息。大模型可以将这些不同类型的数据融合在一起，以更全面和准确地理解驾驶环境。

其次，便是完成目标检测任务中的自动标注和预标注。以前都是有监督学习（人工训练），现在让AI自我训练，就需要先完成数据闭环。这就是为什么几家新势力说自己拥有“自动化数据标注系统”的原因，其实就是大模型的一个功能。而完整的数据闭环则囊括了数据采集、数据回流、数据处理、数据标注、模型训练、测试验证诸多环节。其中，“数据标注”是AI自我训练的前提，也是AI训练的成本节点。

所谓标注，就是给视频或者图像的关键信息点贴上标签，以便让系统认识并在实际操作中做针对性规划。显然，量产车采集的场景基本都是重复的，数据意义不大。专门采集车则比较贵（成本每天6000元-10000元）。重点是，如何尽量多地搜集到“长尾场景”，即不常遇见，但驾驶了很多次之后，每个人几乎都会遇上的场景（占5%左右）。在大模型上线前，都是人工标注。1000帧的视频数据，人工标注成本可能达到万元。而大模型目前最有价值的部分，莫过于自动化数据标注，可能会节约上亿元（取决于替代多少人标注数据）。

大模型时代，车企迎来全新挑战

在大模型时代，由于模型参数量的巨大，所采集的数据也在飞速增长，如何应用好车企赖以生存的驾驶数据，并通过分布式系统来进行部署和训练，最终如何应用在自动驾驶车辆上，都成了一大难题。

一般来说，数据闭环的工作现在已经分割给外包供应商、大模型平台公司（也可以视为供应商）和车企分别来做。很少有车企能够彻头彻尾地自己部署基础大模型，自己搞定应用层，自己设计预标注并实现数据闭环，再驱动算法更新。这即是L4的进化之路，它的技术复杂度要求车企与供应商充分融合式合作，而非传统的供应商“交付”-主机厂应用。

车企过于看重价值链全盘掌握，强调全栈自研，可能会耽误迭代进程。如果设计一种规则，比如基础层大模型由平台级公司设计，车企负责掌握标注规则，并将后续人工审核交给另外的第三方，拿回标注好的数据之后，自己进行训练。通过任务拆解，让自己处于自动驾驶价值链的核心地位。避免在关键技术上受制于人，也不用被迫接受由某个供应商提出软硬一体的解决方案。

总而言之，大模型的兴起又引起了掌握智能驾驶的新势力的一场狂欢，作为笔者始终认为想要在L4级别的自动驾驶领域走到最后，必须是智驾、车身一起抓，特斯拉已经为后来者指明了方向，在大模型时代到来之际，也将拉开新势力与传统造车厂的进一步差距。

总结

在未来，汽车的终极形态必然是一个行走的智能终端，大模型的火热也带动了智驾在汽车上的部署落地，使得L4甚至更高级别的自动驾驶成为了可能。

纵然很多人认为corner case对于自动驾驶来说将成为约束其发展的阻碍，但随着时间发展，采集到的极端场景数据越来越多，越来越全，总有一天可以让大模型学习到所有的驾驶情况，而那时自动驾驶时代将真正到来，走在前列的智驾公司也将赢得先发优势。

原文标题 : 大模型时代，自动驾驶落地还需几步？