侵权投诉
订阅
纠错
加入自媒体

理想汽车 VLA 的三个为什么?

2025-05-12 14:47
vehicle公众号
关注

理想成功,全靠油箱 - 这是理想汽车当前最想证明给大家-“这是错误的”。

不得不说,理想非常精准的抓住汽车电气化转型时候的一个机会,找到技术跨越鸿沟的梯子 - 可油可电而且技术实现相对简单的增程式,发电机发电给电池充电,汽车其他所有结构都类似于纯电汽车结构。具体可以点击我们之前文章《理想汽车凭什么获得新势力销量第一并在港股融资》查看。

理想从当时的三个新势力中脱颖而出,把其他两个势力甩的远远的,成为消费者和资本都追捧的宠儿。最近理想广泛推广的VLA也成了大家追捧的热门词,所以本文围绕以下三个方面构建内容,帮助大家全方位理解理想的VLA。

理想汽车为什么这个时候推出VLA?

理想汽车VLA能够给智能辅助驾驶带来哪些产品亮点?

理想汽车VLA到底怎么样?

被围猎的理想

但从2022年开始,问界推出增程式并且一年后销量直逼理想,如果说问界的销量给理想造成巨大威胁是有华为加持的话。那么从2023年开始推出增程式的零跑,自此登上了新能源新势力的榜单,并且在2025年初就成为继理想汽车之后的第二家盈利的新势力。于是,这两年增程式一发不可收拾,不管新势力和传统势力,不管中国品牌还是外资品牌都在这两年会上增程式。

所以,理想汽车现在危机感重重,他急需寻求他的第二曲线 -- 最会读懂趋势的理想汽车必然找到的是AI人工智能,AI人工智能是怎么发展的?到了哪个节点?利用好它,从产品和营销上狠狠的赢一把,树立明确的有诱惑力和想象空间的产品标签,让投资者看到发展希望,让消费者趋之若鹜。

熟悉我们之前文章《2025 CES 英伟达发布洞察:Agentic AI/Physical AI 快速落地,未来已来》的读者肯定知道Physical AI/Agentic AI就是当前AI的趋势和方向。

于是理想找到了新的标签 - 在智能辅助驾驶方面将两个热门AI词都用上的Physical Agent,落地的技术是 VLA ,如果还不知道VLA是啥点击《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》。

VLA落地的产品特点

理想将他的VLA称为MindVLA。并表示MindVLA将为用户带来全新的产品形态和产品体验,由MindVLA赋能的汽车是听得懂、看得见、找得到的专职司机。

“听得懂”是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。

“看得见”是指MindVLA具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆能够搜寻照片中的位置,并自动找到用户。

“找得到”意味着车辆可以自主地在地库、园区和公共道路上漫游,其中典型应用场景是用户在商场地库找不到车位时,可以跟车辆说:“去找个车位停好”,车辆就会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖MindVLA的空间理解和逻辑推理能力。

总的一句话就是,和人一样的交互,类似于一个专职司机,但理想的Physical Agent 和 VLA 到底怎么样,必须先拆解其技术原理。

VLA 技术原理

具体VLA模型结构以及细节可以查看之前文章《理想智驾的VLA模型及其结构》,那么如何实现从工程上进行实现,具体有四个步骤:

首先,理想在云端训练了一个基座模型,基座模型训练的数据包含了三个部分数据,分别是vision(视觉)的数据,language(语言)的数据和VL(视觉和语言)联合的数据。

这个基座模型参数量大概是32B(320亿),根据李想AI Talk演讲信息,这个基座模型可能采用Deepseek开源蒸馏形成,最少也是借鉴结构方法理论,例如MoE(混合专家模型),理想表示其模型有8个专家组成的MoE模型。

有了这个基座模型之后,就将其蒸馏成一个 3.6B(36亿)参数量的满足车端部署的车端小模型。

其次,后训练,后训练将蒸馏的小模型变成VLA(司机大模型)。上一步的模型算是理解环境,这一步就是将action(行动)放进来,Action就是车辆规划控制,将他们组合成一个VLA(司机大模型)的端到端,打通从感知到规控的链路,确保输入感知信息然后输出转向,电们,刹车等车控。

最终这个车端VLA模型参数量大概是4B (40亿)。

第三步是强化的训练,算是驾驶针对性教育这个模型,理想强化训练分为两个部分:

第一个部分先做RLHF(基于人类反馈的强化学习),利用理想原来积累的人类接管数据来训练,让模型知道什么是好和不好。

第二个部分是纯粹的RL(强化学习),采用世界模型来训练,世界模型的概念其实就是人类世界的物理规则集合体,他可以用来教育或者叫训练模型,理想的世界模型包括三类规则:

舒适性规则 - 主要通过G 值(加速度数值)来判断它的舒适性,给舒适性的反馈。

安全碰撞规则 - 让模型知道碰撞是不允许的。

交通规则 - 不能违反交通规则。舒适、交通规则和安全碰撞就是理想世界模型的三大规则。

以上三个阶段就构成了 VLA(司机大模型)。

但怎么让人和车交互组成所谓的Physical Agent?理想表示搭建一个司机的Agent(智能体),也就是语言,图片的交互体系。

他的逻辑是一些通用的短指令,部署在车端的 VLA(司机大模型)直接就处理了。如果是一些复杂的指令,其实先要到云端的 32B 模型那里处理完以后,再下发车端VLA。

其实这里,可以发现理想VLA可能在一些特定的指令和环境能够做好在这个类人的交互,但是复杂场景实时性难以得到保证。

以上就是完整的理想VLA方法和结构体系。

写在最后

总结起来,和我们之前文章《自动驾驶新风口:DeepSeek-R1 的“车端革命”》预测的一样。Deepseek算是AI大模型的Linux时刻,基于Deepseek开源应用或者借鉴在不同行业中推广应用,理想走在了前列,至少“说出来的”走在前列。

理想在云端构建了一个多模态的类Deepseek大模型,然后将其蒸馏成车端小模型,采用相同Token语言链接车辆规控以及人类交互。

但具体好不好用,通过公开文字和信息很难识别,毕竟我们最容易获得的信息是别人想让你看到的。

不过,理想VLA 确实从芯片底层交互的编译进行大量的先行工作,促使VLA在双orin以及英伟达最新的Thor上都能够使用,同时我们之前文章《理想智驾的VLA模型及其结构》讲到在智能辅助驾驶算法领域创新性的采用3DGS、Diffusion、MoE、CoT等AI大模型领域技术。

未经准许严禁转载和摘录>>>>

       原文标题 : 理想汽车 VLA 的三个为什么?

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号