大模型攻入自动驾驶
大模型,让自动驾驶“长出脑子”
在自动驾驶训练中,大模型就像全职助手一样不断提高算法训练的效率。但这也仅仅只是工程上的优化,大模型给自动驾驶带来的,还有更深层次改变。
这个问题要回到自动驾驶是如何进行工作的。
在大模型出现之前,自动驾驶是任务驱动的。即程序员依据一些特定的场景,编写一些解决方案的代码,当车辆在行驶过程中感知到相应的情况,便按照之前设定好方式处理。
在这个基础上,自动驾驶的发展就变成:发现一个问题,收集一些数据,然后训练一个小模型来解决这个问题,然后再发现新的问题,如此循环。
但这种模式对于问题的解决具有一定的滞后性,即问题要先被发现,然后等一段时间才能被解决。其次是泛化问题,即在同一个问题在夏天解决了并不一定在冬天解决。也正是因为如此,自动驾驶才有解决不完的corner case。
这些问题,实际指向的其实是传统自动驾驶算法“照本宣科”式的工作模式,并没有真正认识世界、理解世界,即自动驾驶并没有灵魂。
大模型的出现则为这个问题的解决给出了方向,就像大模型让虚拟人、让语音助手都长出“脑子”一样,大模型也在让自动驾驶长出“脑子”。
特斯拉的“端到端”技术又叫作“感知决策一体化”,也就是将“感知”和“决策”融合到一个模型中,直接对车下达指令,控制车辆,这样输入传感器信号后可以直接输出车控信号,大大降低了级联误差的概率,也因此大大提升了系统性能的上限,整体潜力极大。
目前国内还未能做到真正的“端到端”,比如毫末DriveGPT仍然分为感知大模型和认知大模型两部分。
感知大模型除了要根据车端输入的信号做三维重建,还要加上时序特征形成一个四维空间。在此基础上,毫末引入多模态大模型,多模态大模型已经做了许多文本和对齐的工作,这个时候再和4D语义空间做对齐,就可以把自动驾驶传感器看到的这些东西全部语义化,这样就形成了通用的,识别万物的能力。
而有了这样的能力之后,结合认知大模型就可以结合驾驶时的信息和行驶目标,比如直行、变道、左转等信息,给出相应的驾驶决策和驾驶解释,然后大模型将其转化为自动驾驶的语言,通过Drive Prompt和自动驾驶系统做交互。
本质上,大模型就像是自动驾驶的“领航员”和“翻译官”,它理解驾驶的目标和意图,它识别和感知环境,然后做出决策并将其翻译成自动驾驶的语言,向自动驾驶系统下达合适的指令。
当然,从人的角度来讲,驾驶车辆的过程需要的除了识别万物,还有对环境中所有物体运动方向的预判,这样才能在面对复杂交通环境时提前做出反应。
大模型同样对自动驾驶带来了这方面的改进。
2022年,特斯拉在年底的AI Day上就曾提出过一个名叫交互搜索(Interaction Search)的规划模型,其主要由树搜索,神经网络轨迹规划和轨迹打分三部分组成,可以有效预测道路交通参与主体的行为轨迹。
从这可以看到,自动驾驶的决策已经从之前,依靠单一信息进行分布决策,变成了多种信息汇总之后的统一决策。
即大模型的决策越来越像是一个整体。
目前生成未来世界这项技术可以根据当前的视频、图片,生成未来2~5秒的情况,其预测2s后准确率达到85%,这可以让AI对未来有一些预判。同时,预测未来的技术也可以用在自动驾驶训练上,比如可以生成未来的图片,然后基于真实图片和生成的未来的图片再进行自监督学习,以此来提升整个视觉大模型识别的判断的能力。
它让自动驾驶越来越成为一个“整体”,正如清华大学智能产业研究院院长张亚勤说的那样,“AI 大模型带来了从判别式 AI 到生成式 AI 的新技术范式变革,自动驾驶达到最后的安全、可靠阶段一定是端到端方式实现。”
最新活动更多
-
11月22日立即报名>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
直播中立即观看>> 【线上&线下同步会议】领英 跃迁向新 年度管理者峰会
-
11月29日立即预约>> 【上海线下】设计,易如反掌—Creo 11发布巡展
-
11月30日立即试用>> 【有奖试用】爱德克IDEC-九大王牌安全产品
-
即日-12.5立即观看>> 松下新能源中国布局:锂一次电池新品介绍
-
12月12日预约直播>> 友思特为新能源电池行业聚能的视觉与光电方案
-
10 吉利早就该合并极氪领克了
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论