一文看懂BEVFormer技术及其背后价值

2023-05-16 10:36

赛博汽车

关注

从时间维度上看，BEVFormer已是历史产物，或许几个月、最多一两年后，一个真正的“王炸”会出现。

作者|汽车人参考

2021年7月，特斯拉展示了基于BEV+Transformer（BEVFormer）的自动驾驶感知新范式，在取得了惊艳的效果后，国内也掀起“跟风潮”。

近期，理想、蔚来、小鹏、小马智行、百度等多家主流车企、自动驾驶方案解决商推出相关量产方案。

一时间，BEV越发“火”了起来。

这背后逻辑也很好理解。一方面，BEV技术已经日渐成熟，从预研阶段基本走到了量产落地阶段；另外一方面，今年可能会是从高速NOA走向城区NOA量产的元年，在更加复杂的智驾场景下，BEV所带来的优势能更好地得到体现。

与此同时，在智能驾驶商业化进展不及预期的大背景下，BEV也可以作为相关企业难得的“技术卖点”。

因此，在这个时间节点，我们试图按照What-Why-Who-How的逻辑，对BEV+Transformer技术本身，以及背后的商业价值可能性进行探讨。

What：什么是BEV+Transformer

首先解决技术概念问题。

BEV（Bird's-eye-view），即鸟瞰图视角，是自动驾驶跨摄像头和多模态融合背景下的一种视角表达形式。

它的核心思想，是将传统自动驾驶２D图像视角（Image View）加测距的感知方式，转换为在鸟瞰图视角下的３D感知。

从实现任务来说，BEV的核心是将2D图像作为输入，最终输出一个3D的框架，在这个过程中，如何将不同传感器的特征（feature）实现最优表达是难点。

目前行业有两种常见的方式，一种是正向思维，采用自底向上、从2D到3D的方式，先在2D视角去每个像素的深度，再通过内外参投影到BEV空间，通过多视角的融合生成BEV特征，但对深度的估计一直都是难点。

另一种方法是逆向思维，采用自顶向下、从3D到2D的方式，先在BEV空间初始化特征，在通过多层transformer与每个图像特征进行交互融合，最终再得到BEV特征。

在第二种方法中，因为Transformer的存在，使得“逆向思维”成为了可能。

Transformer是一种基于注意力机制（Attention）的神经网络模型，由Google在2017年提出。与传统神经网络RNN和CNN不同，Transformer不会按照串行顺序来处理数据，而是通过注意力机制，去挖掘序列中不同元素的联系及相关性，这种机制背后，使得Transformer可以适应不同长度和不同结构的输入。

Transformer问世后，先在自然语言处理NLP领域大放异彩，之后被逐步移植到计算机视觉任务上，也取得了惊人的效果，实现了NLP和CV在建模结构上的大一统，使视觉和语言的联合建模更容易，两个领域的建模和学习经验可以通过深度共享，也加快各自领域进展。

1 2 下一页>