理想汽车的智驾野心 - OFweek新能源汽车网

理想汽车的智驾野心

2024-07-08 13:32

Xauto报告

关注

/// 特斯拉没有蹚过的河，理想汽车能抢先吗？

作者：鹿白

编辑：肖莹

欠缺技术护城河的理想，开始发力智能驾驶了。

7月5日，理想汽车在2024智能驾驶夏季发布会上宣布，将于7月内向全量理想AD Max用户推送“全国都能开”的无图NOA。

同时，还将推送全自动AES（自动紧急转向）和全方位低速AEB（自动紧急制动）。

理想汽车产品部高级副总裁范皓宇表示，从今年5月推送首批千名体验用户，到6月将体验用户规模扩展至万人，理想汽车已经在全国各地积累了超百万公里的无图NOA行驶里程，无图NOA将全量推送至24万名理想AD Max车主。

另外，本次发布会上，理想汽车还发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构。

该架构是业内首个在车端部署双系统的方案，也首次将VLM视觉语言模型成功部署在车端芯片上。

今年6月，在2024中国汽车重庆论坛现场，理想汽车CEO李想称，理想汽车将在今年第三季度推出全国都能开的无图NOA，并向测试用户推出经过300万clips训练的端到端+VLM（视觉语言模型）监督型自动驾驶系统。

目前，华为、小鹏已经推送了全国都能开的无图城区高阶驾驶辅助功能，蔚来也推送了全域领航辅助NOP+城区功能。全量推送无图NOA后，理想汽车的智驾能力正直追行业第一梯队。

他还表示，最早今年年底，最晚明年年初，理想就会全量推送【有监督的L3级自动驾驶】，三年内一定实现【无监督的L4级自动驾驶】。

端到端方案尚处于探索阶段，据目前曝光信息来看，小鹏已于5月宣布推送端到端模型，华为ADS 3.0也即将在阿维塔车型上首搭落地。理想汽车能否实现后来者居上？将成为下半年智驾赛道的一大看点。

全量推送无图NOA

从城区高阶智驾PK，到特斯拉FSD端到端方案，国内智能驾驶技术路线基本清晰：去掉高精度地图，全力押注端到端方案。

同时，当技术开始收敛之后，如何提高智能驾驶的体验效果，让用户的智能驾驶能像老司机一样丝滑，则成为现阶段各车企所需要解决的问题。

理想智能驾驶产品以及技术路线同样没有跳脱出行业趋势。

此次理想推出的无图NOA四大能力，用理想的话来总结就是：哪里都能开、绕行丝滑、路口轻松、默契安心。

具体来说，得益于感知、理解和道路结构构建能力的全面提升，理想汽车的无图NOA摆脱了对先验信息的依赖。也就是说，在全国范围内，只要有导航覆盖的城市，理想的用户就可以使用NOA，甚至在胡同窄路和乡村小路都能用。

同时，在对道路障碍物的避让和绕行上，理想无图NOA基于时空联合规划能力，能够使整体表现更加丝滑。

据理想介绍，时空联合规划实现了横纵向空间的同步规划，并通过持续预测自车与他车的空间交互关系，规划未来时间窗口内的所有可行驶轨迹。基于优质样本的学习，车辆可以快速筛选最优轨迹，果断而安全地执行绕行动作。

在复杂的城市路口，理想的无图NOA选路能力也得到显著提升。

无图NOA采用BEV视觉模型融合导航匹配算法，实时感知变化的路沿、路面箭头标识和路口特征，并将车道结构和导航特征融合，进而解决复杂路口难以结构化的问题，同时具备超远视距导航选路能力，可以使路口通行更稳定。

同时，理想无图NOA也重点考虑了用户心理安全边界。

即通过激光雷达与视觉前融合的占用网络，车辆可以识别更大范围内的不规则障碍物，感知精度也更高，从而对其他交通参与者的行为实现更早、更准确的预判。

得益于此，车辆能够与其他交通参与者保持合理距离，加减速时机也更加得当，有效提升用户行车时的安全感。

除无图NOA外，此次发布会上理想还公布了在主动安全领域的能力升级，此次升级主要集中在四方面：

其一，城市复杂路口多目标、多轨迹的专属AEB；

其二，夜间AEB能力提升，120公里/小时对无灯静止卡车刹停；

其三，全自动触发的AES自动紧急转向功能，制动无法避免撞击的物理极限场景，无需人为参与转向操作，自动紧急转向，避让前方目标；

其四，全方位低速AEB，针对泊车和低速行车场景，提供了360度的主动安全防护。

理想汽车的强项一直是在产品定义上，冰箱、彩电、大沙发，让理想汽车的销量一直走在行业前列。6月，理想汽车月交付量回暖至4.7万+，其中主力产品理想L6的销量就达到2万台。

而从技术能力角度来看，理想汽车却一直备受行业诟病。此次发布会透露出，理想汽车正在寻求智能驾驶突破口。

接下来，想要在智能驾驶赛道中持续保持竞争优势并实现突围，重点还是在于不断提升智能驾驶的体验效果，而这要依靠其端到端方案的突破。

智能驾驶，决战端到端

当前的自动驾驶系统方案，更多的是基于规则算法，打造的模块化架构，整个算法流程就是：出现问题，找出问题，解决问题，这就会导致大量的数据和代码产生，系统架构也更加复杂繁琐。

相比较来说，端到端其实是建立一个完整的学习系统，直接从原始数据中不断学习，并生成所需的输出，不需要人为地将任务分解成多个中间步骤，这也是其受车企所推崇的根本原因。

不过，理想的端到端系统并不是一个，而是采用了双系统策略。理想汽车智能驾驶副总裁郎咸朋表示，这种系统架构主要受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发，在自动驾驶领域模拟人类思考和决策过程，形成更智能、更拟人的驾驶解决方案。

简单来说，理想汽车自动驾驶路线核心思路是用一颗Orin X芯片用于端到端，也就是快系统，一颗Orin X用于VLM，也就是慢系统。

系统1，即快系统，善于处理简单任务，是人类基于经验和习惯形成的直觉，主要由端到端实现，具备高效、快速响应的能力，能够应对驾驶车辆时95%的常规场景。

系统2，即慢系统，是人类通过更深入的理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，由VLM （Visual Language Model，视觉语言模型）来实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1，占日常驾驶的约5%。

理想汽车认为，系统1和系统2之间相互配合，能够分别确保大部分场景下的高效率和少数场景下的高上限，成为人类认知、理解世界并做出决策的基础。

在具体技术能力上，理想汽车也分别介绍了端到端模型、VLM视觉语言模型的算法架构，以及世界模型。

其中，理想的端到端模型输入，主要由摄像头和激光雷达构成，多传感器特征经过CNN主干网络的提取、融合，投影至BEV空间。为提升模型的表征能力，理想汽车还设计了记忆模块，兼具时间和空间维度的记忆能力。

在模型的输入中，理想汽车还加入了车辆状态信息和导航信息，经过Transformer模型的编码，与BEV特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

而在输出的过程中，端到端模型中间没有规则介入，所以其在信息传递、推理计算、模型迭代上均具有显著优势。

在实际驾驶中，端到端模型展现出了更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力，以及更拟人的路径规划能力。

而理想汽车的VLM视觉语言模型的算法架构，则是由一个统一的Transformer模型组成，将Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。

官方数据显示，理想汽车的VLM视觉语言模型参数量达到22亿。

不过，该参数量对于大模型来说，并不算多，甚至只是达到了小模型参数量级别。以GPT来说，GPT-3的参数已经达到1750亿，GPT-4的参数则达到了万亿级别，国内像百度文心一言、腾讯混元等，都已经是千亿级别。

按理想官方说法来看，VLM视觉语言模型能够对物理世界的复杂交通环境具有强大的理解能力，即使面对首次经历的未知场景也能自如应对。

此外，VLM模型还可以识别路面平整度、光线等环境信息，提示系统1控制车速，确保驾驶安全舒适。VLM模型也具备更强的导航地图理解能力，可以配合车机系统修正导航，预防驾驶时走错路线。

同时，VLM模型还可以理解公交车道、潮汐车道和分时段限行等复杂的交通规则，在驾驶中作出合理决策。

除了端到端和VLM模型外，理想汽车还展示了世界模型，该模型结合了重建和生成两种技术路径，将真实数据通过3DGS（3D高斯溅射）技术进行重建，并使用生成模型补充新视角。

在场景重建时，其中的动静态要素将被分离，静态环境得到重建，动态物体则进行重建和新视角生成。再经过对场景的重新渲染，形成3D的物理世界，其中的动态资产可以被任意编辑和调整，实现场景的部分泛化。

相比重建，生成模型具有更强的泛化能力，天气、光照、车流等条件均可被自定义改变，生成符合真实规律的新场景，用于评价自动驾驶系统在各种条件下的适应能力。

重建和生成两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境，使系统具备了高效闭环的迭代能力，确保系统的安全可靠。

这一系列的思考和规划，不难看出理想汽车发力端到端的决心。

但现阶段端到端虽然能够把多个模块融合在一起，简化了更多的代码，但由于其属于一个“黑盒子”状态，内部具体流程到底是什么样的，还没有人能够解释清楚，这也就呈现出了更多的“不可解释性”。

这也就意味着，理论上非常美好，但端到端架构到底能否如期而至也并不可知，毕竟强如特斯拉，至今也并未实现全自动驾驶的落地。