超越人类，自动驾驶中的深度强化学习

2022-02-17 13:37

深度强化学习在自动驾驶领域的应用

机器学习是指计算机程序通过已知经验数据中进行训练，通过迭代训练以提高其在指定任务上预测准确性的过程。机器学习算法通常分为三大类流派，分别是监督学习、无监督学习和强化学习（RL）。监督学习算法基于归纳推理，通常需要使用有标记的数据进行训练，以执行分类或回归，而无监督学习一般应用于未标记数据的密度估计或聚类等技术。相比之下强化学习比较自成一派，其通过与环境交互来提高其在指定任务上的性能，与监督和非监督学习使用损失函数进行迭代训练的方式不同，强化学习一般使用奖励函数进行训练，比如OpenAI与王者荣耀的绝悟AI都属于强化学习的范畴，一般在电竞、机器人等方向上应用较多。

根据各类机器学习算法的特点，可以看出在“场景理解”的相关任务中，使用监督学习算法比较合适，而在“决策与规划”任务中，又非强化学习算法莫属。而深度强化学习（Deep reinforcement learning，DRL）兼具了深度学习对高维输入的处理能力与强化学习的决策能力，能够实现由高维的感知信息到连续动作空间输出的直接映射，非常适合处理环境复杂、交互频繁的自动驾驶任务。

上图是百度 Apollo 使用的一种典型的感知－规划－控制序列式架构（Sequential perception－planning－action pipeline），主要包括高精地图、定位感知、决策规划、车辆控制等模块。高精地图和定位模块为自动驾驶车辆提供位置信息，感知模块提供静动态障碍物信息，决策规划模块根据定位和障碍物信息合理规划自动驾驶车辆的行为和路径，最后由车辆控制模块执行运动规划模块下发的路径跟踪控制指令。

但是感知－规划－控制序列式架构主流的处理方式是将感知信息处理成人类可以理解的语义信息和道路交通信息，然后基于专家知识和规则进行决策规划，这种方式在简单场景下可以完成自动驾驶任务。但却难以胜任在复杂不确定场景中执行的自动给驾驶任务，原因是现实场景的复杂多样性，使得专家知识和规则不能完全覆盖所有场景和工况。

基于深度强化学习的端到端（End－to－end）的控制架构是自动驾驶领域中新兴的研究热点，它能克服传统方式依赖先验环境建模的问题，可以直接实现通过从感知到控制功能的映射。下图是 Nvidia 提出的一种 End－to－end 架构，直接从原始图像输入获取转向控制指令。

该架构分为网络训练和网络部署两个阶段：在网络训练阶段，使用左中右三个相机的图像作为 CNN（Convolutional Neural Network，卷积神经网络）的输入，同时使用人类驾驶员的转向指令作为训练信号。经训练后的 CNN 仅以中心相机的图像作为输入，直接输出转向控制动作。End－to－end 架构以计算机的方式理解图像信息，可在全局范围内进行优化求解，可以更直观的实现驾驶功能，拥有更好的场景泛化性。

深度强化学习面临的挑战

深度强化学习DRL已经被证实能够解决无人驾驶中的部分问题，但还面临很多挑战。一是人工智能技术要真正应用在汽车上，还需要制定相关的技术标准。二是DRL在解决复杂问题需要大量的训练时间和反复模型优化。三是需要设计一个稳定的智能系统，如何解决仿真和现实之间的gap差距，这也许不是添加噪声就能解决的问题。四是模型的精度和整个智能系统的架构设计会影响DRL的可用性。

因此，要想真正使得该项前沿技术大规模应用在自动驾驶领域现阶段来看还为时尚早，但深度强化学习的原理及潜力让我们看到了未来实现真正超越人类驾驶水平的自动驾驶技术的希望。

参考资料：