端到端模型真的是自动驾驶的未来吗？

2023-09-07 14:15

本文来源：智车科技

特斯拉的FSD V12直播秀又火了，对于特斯拉而言它的每一步动作无不牵动着行业的关注，这次还是完成了端到端自动驾驶的突破。

事实上，自动驾驶行业自发展以来，分模块攻破便成了业内人士的普遍思路，从感知到决策规划到控制，这套流程也符合人类驾驶员的思考模式。毕竟，人开车时也是先对周围的环境先大致了解，并结合自己的目的地和当前位置来做出一个决策，再调动手脚来执行完成这个任务。这一整套的处理方式非常自然，因此很长一段时间，业界的自动驾驶公司包括科研人员，都按这种模块划分的模式，来修炼自身技术栈，最后统一配合来完成自动驾驶任务。但特斯拉这次另辟蹊径，也将端到端自动驾驶带到了大众的眼前。

端到端自动驾驶

如上文所说，很长一段时间以来，自动驾驶的从业者习惯了将整个自动驾驶任务划分为感知、预测、决策、控制等模块，并由于每个模块的技术栈相差非常大，且深度难度都很高，因此每个工程师都是独立负责其中一到两个模块。但其实很多年前，自动驾驶的另一套方法论——端到端自动驾驶就已经产生了。与传统的分模块思路不同，端到端自动驾驶以感知的传感器数据（图像、点云、雷达）作为输入，直接输出用于车辆的控制指令（油门、刹车），中间过程都靠神经网络模型来完成。该方案一出，业界的质疑声便不断。

首先，从传感器数据直接到控制指令的链路，无论如何都和人类司机的驾驶习惯相距甚远。试想一下，人开车可不是看到周围环境后就想好了自己要打多大的方向盘转角，要踩多深的油门。更何况这还不是结构化的感知数据，而是一张张图像或点云，对于机器来说普通的模型难以像人类一样，自动知道哪些像素是需要注意的，这需要引入注意力机制等技术，难度又上了一个层级。

其次，便是神经网络的可解释性一直是一大难题。目前深度学习在感知领域已经较为成熟，但层出不穷的corner case，让感知工程师们非常头疼，难以有有效的方法去针对性调整模型来应对。而端到端的方法直接将决策模块也用模型来表示，作为保障自动驾驶安全的核心模块，决策出现问题而难以定位是不能接受的，这也是端到端从起初便不被看好的主要原因。

最后，端到端概念提出以来，便一直只存在于仿真与论文中，一度被认为是灌水论文的一种方向，对于想要落地的自动驾驶公司而言，都没有投入太多精力去研究这种技术，也让该技术一度处于停滞状态。

大模型爆发带来转机

那么就是这样一种不被大众看好的技术，如何在今年重新火热起来了呢？答案便是大模型的出现。一直以来，模型越大、数据量越多，不仅难以训练，取得效果的泛化性也较差，因此从业者普遍不会过于扩展任务的模型规模。但随着chatgpt的出现，大模型的泛化性让业界震撼，原来数据量足够多，参数量足够大是有可能做到之前人类难以想象的程度的，随之而来的，便是各行各业层出不穷的大模型结构。

作为人工智能的最火热领域，自动驾驶当然也不落下风，这时人们突然想到了这个被冷落多年的端到端自动驾驶技术，结合上大模型的惊艳表现，是否能创造出不一样的可能，将之前难以用规则穷尽的corner case，全都通过大量的数据累积来一举攻破？今年cvpr 的best paper便展现了该思路的可行性，论文中提出的uniAD框架以规划的目标为整个端到端模型的优化代价，来优化整个网络模型，使得端到端的输出更加考虑规划的各项指标，从而保障了自动驾驶的安全性。而这一切都以大模型的诞生作为基础，并配合着日益增长的高算力平台，大模型的推理速度也达到了实时，完全可以满足自动驾驶的任务需求。

与此同时，就在前几天，马斯克直接直播了当前FSD V12 的路测视频，在整个直播过程中，马斯克反复强调得最多的一点就是：“无论是最开始遇到的红色立柱、减速带，还是后面遇到的骑行路人、环岛路口，FSD系统都不是靠任何一行控制代码来完成决策的。相反，FSD只是看了非常多的视频，然后完成了训练，得到了一个神经网络。”?事实上，特斯拉Autopilot的决策从2020年开始由编程逻辑转为视频训练的神经网络，在FSD v12之前，v11版本控制堆栈中有超过30万行C++代码。

端到端真的是出路吗？

那么，接着大模型重新火起来的端到端自动驾驶，真的是未来吗？毕竟连自动驾驶领头羊特斯拉都已率先踏上了这条路，其他产商应该也开始探索该条路线的可行性。然而端到端技术目前就谈论上车阶段，笔者认为还为时过早，除了赞叹特斯拉的工程落地能力之快外，也只有马斯克敢冒如此风险推广新的技术。

事实上，端到端技术还拥有着非常多的不确定性。例如马斯克直播中，19分左右，马斯克进行了第一次干预，也是全程的唯一一次。这辆特斯拉竟然在简单的场景下闯红灯了，犯了一个低级的失误。马斯克也直言，这就是为什么V12还没有公开发布的原因。这一幕也充分说明了强如特斯拉掌握如此多的人类驾驶员驾驶数据，但也竟然在简单场景翻车。分模块可以轻松搞定的场景，在端到端中反而犯了难，并且可以想象事后特斯拉的工程师们也难以定位到问题的真正原因，只能再提取红绿灯场景的数据，喂给该模型，以期望下次过路口时不会再犯这种低级失误，然而由于深度学习的特性并不能百分百保证。

其次，对于多数自动驾驶公司而言，想要效仿特斯拉将会非常困难。一是没有特斯拉如此多规模的数据，二是特斯拉针对这些数据，有着非常高级的算法进行数据清洗和自标注，保障喂给模型的数据都是高可靠的。这两重困难也是想要走向端到端之路的必解难题。

最后，作为自动驾驶这项关乎性命的行业而言，如何保障任何极端情况下模型输出的安全性将是最大考验。不同于chatgpt之类的问答机器人，自动驾驶算法将有关道路人身安全，大模型上已经验证的模式是否能直接照搬至自动驾驶行业，目前没有严格的证明。这也将是端到端技术落地的最大挑战之一。

总结

大模型的兴起为自动驾驶技术带来了新的可能，而特斯拉的成功也让相关从业者们更加坚信完全的无人驾驶是有希望成为现实的，端到端是否真的成为自动驾驶的未来，现在还难下结论，但AI发展的速度确实已远超人们的想象，在强力AI的加持下人类目前能完成的工作都有望被替代，驾驶车辆这种高复杂性技术，交由AI完成相信也只是时间问题。

原文标题 : 端到端模型真的是自动驾驶的未来吗？