侵权投诉
订阅
纠错
加入自媒体

一文看懂BEVFormer技术及其背后价值

2023-05-16 10:36
赛博汽车
关注

02

Why:为什么需要基于Transformer的BEV

在厘清技术原理后,其实也就理解了“为什么需要”的问题:识别准,精度高,方便和激光、毫米波雷达做前融合等。

具体延展来看,BEV可以带来四大优势。

第一,BEV视角下的物体,不会出现图像视角下的尺度(scale)和遮挡(occlusion)问题。由于视觉的透视效应,物理世界物体在2D图像中很容易受到其他物体遮挡,2D感知只能感知可见的目标,而在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测。

第二,将不同视角在BEV下进行统一表达,能极大方便后续规划和控制任务。主流规划和控制算法,不论上游传感器信息来自什么视角,经过融合之后,都会转换到以自车为中心坐标系中(Vehicle Coordinate System,VCS),对VCS来说,最适合的其实就是BEV视角,也就是BEV感知结果输出的空间是规划和控制任务的标准输入。

第三,BEV能够给系统带来巨大的提升。摄像头感知算法工作在2D空间,而雷达感知算法工作在3D空间,在对2D与3D几何关系融合过程中,会丢失大量的原始信息,采用BEV感知系统中,摄像头、激光雷达、毫米波雷达感知均在BEV空间中进行,融合过程提前。BEV还可以引入过去时间片段中的数据,实现时序融合,最终使感知效果更加稳定、准确。

第四,BEV能够实现端到端优化。感知任务中的识别、跟踪和预测本质是一个串行系统,系统上游误差会传递在下游误差,在BEV空间内,感知和预测都在同一个空间进行,可以通过神经网络做到端到端的优化,输出“并行”结果,而整个感知网络可以以数据驱动方式来自学习,实现快速迭代。

可以理解为,BEV可以实现将360度环视的时间、空间融合,再加上Transformer架构可以输出静态的车道线、红绿灯、道路边缘信息等,以及动态的有行人、两轮车、汽车等,同时还应用了端到端的预测能力,结合时序帧能对周边的车辆做未来3-6秒的轨迹预测。

这也意味着,端到端的算法有了闭环的希望。

03

Who: 行业最佳实践是特斯拉

特斯拉是第一个在工业界采用BEV+Transformer进行视觉感知任务的企业。

在其感知任务中,首先利用主干网络对各个摄像机进行特征提取,再利用Transformer将多摄像机数据从图像空间转化为BEV空间。

在这个空间里面,通过深度学习去完成一个特征的融合,然后再通过一个3D的解码器,直接端到端输出最后的一个3D检测和道路结构信息,这样下游的规划与控制直接可以在BEV的空间上去进行。

这一次革命,让马斯克可以自信地对外宣称,特斯拉感知不依赖激光雷达和毫米波雷达,依靠纯视觉,也可以得到准确三维世界信息。

基于以上实践,众多车企以及智驾供应商都开始尝试BEV+transformer,车企里的代表蔚来、理想、小鹏;智驾供应商里面的百度、毫末、地平线、小马、轻舟等等,在具体使用方法上每一家有“微调”,但是整体还是跟随特斯拉的节奏在走。

04

How:自动驾驶感知的主流范式

未来,BEV+Transformer很有可能会替代之前的2D+CNN,逐步成为自动驾驶感知的主流范式。

这意味着,从硬件芯片开始,到传感器摄像头、软件算法、模型部署、数据采集标定等,都需要有相应的适配和变化。

第一,为了确保视觉感知重叠,对汽车摄像头数量的要求会有所提升,相应地,激光雷达的数量以及在感知中的作用会减少,也就是纯视觉技术路线会受到更多的青睐。

第二,Transformer是暴力美学,模型体量惊人,其运算还会消耗大量的存储及带宽空间,对芯片来说,除了需要进行相应算子适配以及底层软件优化外,在SOC层面需要对缓存和带宽要求进行增加。

第三,Transformer需要海量数据,会使得汽车数据采集、训练、标注的成本大幅度上升。

这些一定程度上,也会使得芯片、摄像头、标注等相关产业厂商受益。

05

总结

通过对BEV+Transformer的梳理,我主要有以下两点感受。

第一, 为什么BEV+Transformer会成为主流范式,我觉得背后核心还是第一性原理,就是智能驾驶要越来越近“人一样去驾驶”,映射到感知模型本身,BEV是一种更加自然的表达方式,而Transformer实现了CV和NLP的统一。

第二, 随着工业和学术界的研究推进,近段时间BEV+Transformer从普及到走向量产,在当前智能驾驶商业受阻的背景下,或许是一个难得的亮点。但从时间维度上看,BEV+Transformer已是历史产物,占用网络已经来了,大模型也在路上,或许几个月、最多一两年之后,一个真正的“王炸”会出现,会让之前的积累全部推倒重来,我们要对每一波的迭代怀有敬畏之心,先从技术开始,之后就是商业模式的大变革。

有关算法迭代、大模型、Mapless、GPT等是我们近期持续跟进的重点,有兴趣欢迎随时与我沟通交流。

       原文标题 : 一文看懂BEVFormer技术及其背后价值

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

新能源汽车 猎头职位 更多
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号