小米发布自动驾驶模型Xiaomi OneVL,如何解决"推理"难题?

芝能科技出品
在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。
从看到到做决定,只有几十毫秒。小米这次发布的 Xiaomi OneVL,就是在回答这个问题,当自动驾驶进入"需要推理"的阶段,模型该怎么既快又准。

01
XLA路线,想清楚再开
如果把自动驾驶模型发展简单分个阶:
◎ 第一阶段是感知驱动,核心是检测和分割,把世界拆成"车、路、人";
◎ 第二阶段是模仿学习,模型直接学人类怎么开;
◎ 第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。
XLA的关键变化是,是从"像人一样开",要解决“为什么这样开"的问题。
前车减速、侧方来车、道路收窄是决策链条里的变量。但是推理一加进来,系统延迟直接飙升。
行业里常见的解法是显式思维链(CoT)。模型先把"思考过程"一步步生成出来,再给答案。这在语言任务里挺好用,但搁驾驶场景,基本等于没用,逐token生成的延迟,在车规系统里是致命的。
另一条路叫Latent CoT:把推理过程压进模型的隐空间,让模型"心里想",而不是"说出来再想"。
但问题在于,过去的Latent CoT压缩的是语言。而开车,本来就不是语言问题。
OneVL最有价值的地方是重新定义了推理对象。
◎ 传统Latent CoT的思路是:把"我为什么这么做"压缩成一段隐变量。
◎ OneVL的思路是:真正需要压缩的是未来。
自动驾驶决策是对接下来0.5秒、1秒场景会怎么演化的判断:
◎ 那辆车会不会并线?
◎ 行人会不会进道路?
◎ 继续加速会不会撞上?
驾驶决策依赖的是一个隐含的"世界模型"。OneVL的关键一步,就是把推理的载体,从语言转向视觉时空结构,也就是未来场景本身。

02
架构:三个克制但关键的设计
OneVL在结构上做了三件挺克制、但很关键的改变。
● 双模态latent token:让"想"和"理解"分开
模型内部引入两类隐变量:
◎ 视觉latent token:负责编码场景里的物理关系和时序变化
◎ 语言latent token:负责表达驾驶意图和语义逻辑
相当于把"世界怎么变"和"我要做什么"分开建模。模型不再用语言强行描述物理世界,而是在视觉空间里直接推理。
好处是,信息不会在语言压缩过程中丢失。过去Latent CoT的问题,本质就是把高维时空信息硬塞进语言结构,信息损耗不可避免。
● 双解码器监督:训练时"想清楚",推理时"直接给答案"
OneVL引入了两个解码器,但只存在于训练阶段:
◎ 视觉解码器:预测未来0.5s / 1s的场景
◎ 语言解码器:重建人类可读的推理过程
这一步很关键。等于是给latent token加了两种约束:
◎ 模型必须学会正确预测未来世界,否则视觉监督会惩罚它;
◎ 另它还要能解释自己的决策逻辑,否则语言监督也会拉回来。
但在推理阶段,这两个解码器全部移除。
模型训练时被逼"想清楚",但实际跑的时候直接给答案,典型的"训练-推理解耦"。
● 一步式推理:彻底消灭自回归
OneVL最激进的设计:推理阶段不做任何逐token生成,所有latent token一次性预填充,模型并行计算,直接输出轨迹或决策。
延迟理论上可以接近"只输出答案"的模型,而不是传统CoT那种需要逐步生成的结构。
相比显式CoT,速度最高提升2.3倍,精度还更高。说白了,这不是优化,是换赛道。
OneVL容易被忽略的一点,是它的训练流程,分三个阶段:
◎ 先单独训练视觉解码器,让模型学会预测未来
◎ 再训练主模型,学习基本的轨迹和表示
◎ 最后联合微调,把三者对齐
听着挺麻烦,但结果说话:跳过这步,性能直接掉20多分。轨迹、语言、视觉一起练会打架。如果不分阶段处理,模型很容易陷入梯度干扰,OneVL是一套训练方法的工程化解法。
从指标上看,OneVL在多个基准上已经超过显式CoT,这在过去挺难想象的,同时解决了三个长期问题:
◎ 第一,CoT太慢。 自回归推理在车规系统里几乎不可接受,而OneVL把延迟压到了0.24秒量级,已经进入可部署区间。
◎ 第二,隐式推理不够强。 过去Latent CoT精度不如显式CoT,本质是信息压缩方式不对。OneVL通过引入世界模型监督弥补了这一点。
◎ 第三,可解释性缺失。 端到端模型一直被吐槽"黑盒"。OneVL通过语言+视觉双解释,把决策过程重新暴露出来。
这三点,对应的是自动驾驶落地的三个核心门槛:性能、实时性、可验证性。
这套方法,并不局限于自动驾驶。机器人、具身智能,甚至复杂决策系统,只要涉及"未来状态预测+实时决策",都可以套用。
OneVL已经把延迟压到了4Hz级别,在很多辅助驾驶场景里是可以接受的。
但距离真正大规模上车,还有几个现实问题:
◎ 算力成本是否可控;
◎ 长尾场景下的鲁棒性;
◎ 以及最关键的,数据规模是否足以支撑这种推理能力。
过去行业在"要不要推理"之间摇摆。OneVL的答案是,推理必须要有,但玩法得变。
小结
OneVL真正做的事情是让模型在有限时间里,用对的方式思考,小米的自动驾驶能后来居上吗?
原文标题 : 小米发布自动驾驶模型Xiaomi OneVL,如何解决"推理"难题?
最新活动更多
-
即日-6.16立即下载>> 【蓝皮书下载】内卷退潮・创新聚力・2026中国锂电产业全景蓝皮书
-
6月17日立即观看>> 【免费观看】西门子电池行业研讨会-如何更快打造优质电池
-
即日-6.18立即申报>>> 维科杯·OFweek 2026光学行业年度评选
-
精彩回顾点击观看>> CIBF 2026 维科网·锂电企业探展直播
-
7月29-30日报名参会>> OFweek 2026中国激光产业高质量发展峰会
-
7月29日报名参会>> OFweek 2026集成电路激光技术创新应用论坛
-
10 智驾小蓝灯,应该要整治了
- 1 特斯拉官宣FSD入华:一场迟到的突围与未竟的征途
- 2 小米法务部:已帮73位车主立案,取得五份一审胜诉判决
- 3 小鹏只是过渡?大众在华智驾“底牌”酷睿程(CARIZON)的高阶智驾研发战略
- 4 5月新能源车企销量出炉:比亚迪稳居榜首,零跑、蔚来增速领跑
- 5 “大汉”呼声登顶,或成比亚迪王朝首款D级轿车名
- 6 欧盟《工业加速法案》深度解读:中国汽车工业出海的"游戏规则改写"
- 7 半天订单24863辆!小鹏背水一战:GX仅26.98万起,干翻多个9系新车 | 明镜pro
- 8 比亚迪的欧洲梦:与Stellantis谈判收购欧洲工厂
- 9 8车企集体辟谣“被约谈”,但OTA锁电不是谣言
- 10 田丰:新能源车OTA“锁电” 真相


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论